新卒から文系エンジニア→人材業界に転職した人のブログ

新卒から文系エンジニア→人材業界に転職。技術・スキルがないためブログを通して勉強。その後、IT業界の業界知識が活かせる人材業界へ。異業種×異職種の転職経験有り。

このエントリーをはてなブックマークに追加

【phyton】UNIXコマンドでスクレイピングをしてみる

■概要

以下の書籍をもとに、WEBページ上の情報をローカルにダウンロードし、

Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-


ページ上の特定要素を抽出してみる。

wgetコマンドで、特定URLの情報を再帰的に取得する。
②カレントディレクトリにダウンロードされるので、ディベッロッパーツールで指定しながら、情報を抽出する。


上記のようなことを応用して、トラベルコなどの横断検索サービスが発達しているだろうなと思うと、とても面白い!!

wget -r --no-parent -w 1 -l 1 --restrict-file-names=nocontrol https://gihyo.jp/dp/ 

cat gihyo.jp/dp/index.html |grep 'class="paging-number"' 
.hatena-module:nth-of-type(10) { background: transparent; } .hatena-module:nth-of-type(10) .hatena-module-title{ display: none; } .hatena-module:nth-of-type(10) .hatena-module-body { padding: 0; }