皆さん、こんにちは!
今週は python を使ったスクレイピングプログラムを書いてみました!
ソースコードはこちらになります。
https://github.com/engclass-z/scraping_sample
スクレイピングって?
簡単にいうと、プログラムを書いてインターネット上の情報を自動で取得する、というものになります。
それだけ聞くとすごく便利そうなのですが、無闇矢鱈に使うと法律の問題があるので注意が必要になります。
具体的には、著作権で守られているコンテンツを無断でダウンロードしたりしない、サーバに負荷ををかけすぎないように間引いてリクエストする、利用規約に反したアクセスをしない、などが守るべきことになります。
スクレイピング自体は違法行為ではないですが、上記を守って自己責任で行っていく必要があります。
今回のプログラム
今回はあくまでサンプルで書いたプログラムなので、具体的に**の情報を取得する、というものではありません。(応用すれば同じ構成のページは取得できますが)
情報を取得したいサイトの DOM 構造を調べて、そこに合うように適宜プログラムを書き直す必要があるので、試す際は注意してください。
最後に
今回は Python を用いたスクレイピングプログラムを作成していきました。
いつもに比べてあっさりした内容となってしまいましたが、具体的に取得したい情報があるときにスクレイピングはとても役に立つ手法なので、用法用量を守って適正に使っていきたいと思います!!