こんにちは、五足のわらじです。
受託業務の中で、スクレイピングのデータを登録したりメンテナンスしたりする業務があります。
その中でCSSセレクタを指定して場所を指定するという工程が発生するのですが、そのCSSセレクタの指定方法によってうまくスクレイピングできるかどうかが決まってきます。
基本的には、chromeであればCtrl+Shift+Cでソースを表示して指定箇所をクリックし、その取得したい個所を右クリックしてCopy selectorすればよいわけですが、実はこの方法に頼ってしまうとかなりの確率でその後スクレイピングが失敗します。
というのも、この方法ではあくまで「現状の指定」しかできないのです。
つまり、今後ソースがどのように変化していくかというところはまったく考慮されていないので、この方法で「お、取れた取れた」と安心してしまうと後で大変なことになります。
また、この方法だと基本的に「nth-clild」で指定されてしまうため、ソースの変化に対応できないケースが多くなります。
CSSセレクタがよくわからないという人はこの方法を使うことになると思いますが、せめて「nth-clild」を「nth-of-type」に変更するということくらいはやっておいたほうがよいです。
実はこれまでクライアント側の内部でこの作業を行っていたのですが、作業をするのがシステム部門ではなく一般の事務部門だったのでCSSセレクタに精通している人がおらず、ほとんどCopy selectorしたまんまで登録していたので、かなりエラーが発生していたんです。
そこで、スクレイピングの精度を上げるために業務委託したいという話になり、こちらでやることになりました。
著者
- 在宅ワークを4つと、サラリーマンを1つ、合計五足のわらじを履いて走り回ってます⇒2017年7月より在宅ワークで独立しました
在宅ワークは、アフィリエイト、アプリ制作、LINEスタンプ・着せかえ制作、ライターの4つをやっていて、サラリーマンは辞めましたが、それに替えて法人化を目指して新規事業を立ち上げ中です。
自宅では、デザイン、コーディング、プログラミング、ライティング、写真、イラスト、アニメーション、音楽、マーケティングなど、ひとりですべて行っているマルチクリエイターです。
事務所では、単純作業からマネージャー職といった包括的な業務まで、幅広い分野の受託業務を行ってます。
もともと在宅ワークは副業でしたが、収入を普通のサラリーマン並みに増加させることができたので、いまは在宅ワークと事務所での受託業務のみで生活しています。
在宅ワークはすべて独学でやってきましたので、これから独学で在宅ワークを始めようと思っている方の参考になればと思ってブログを始めました。
いいことばかりじゃなくて、辛いことや失敗したことなども正直に書いていきますので、これから始めたいと思っている人もぜひ参考にしてください!
最近の投稿
- 2022.04.18未分類フリーランスのスキルシート
- 2022.04.11未分類3月のadsense収入は8万円に届かず
- 2022.03.28未分類老眼対策に
- 2022.03.21未分類LINEスタンプの収入終わってませんでした