【phyton】UNIXコマンドでスクレイピングをしてみる
■概要
以下の書籍をもとに、WEBページ上の情報をローカルにダウンロードし、
Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-
ページ上の特定要素を抽出してみる。
②カレントディレクトリにダウンロードされるので、ディベッロッパーツールで指定しながら、情報を抽出する。
上記のようなことを応用して、トラベルコなどの横断検索サービスが発達しているだろうなと思うと、とても面白い!!
wget -r --no-parent -w 1 -l 1 --restrict-file-names=nocontrol https://gihyo.jp/dp/ cat gihyo.jp/dp/index.html |grep 'class="paging-number"'