【python】スクレイピングの第一歩 特定のサイトから情報(URL/タイトル)を抽出する
■やりたいこと
「はてなブログのタイトルとURLを使って出力する」
WEB上の実行環境を利用して、pythonで作ってみました。
※環境準備は5分以内に終わる簡単なものです。
Pythonによるスクレイピング超絶入門|Dai|noteの記事経由から知りました、ありがとうございます。
改めて、自分で書いてみて動くと楽しいですねーー
有用なものに応用できないか引き続きやってみます。
■参考コード
# Beautiful Soupのインポート from bs4 import BeautifulSoup import requests #対象のWEBサイトにリクエストを送り、コードを取得 response = requests.get("http://forse.hatenablog.com/") # BeautifulSoupの初期化 html_doc = response.text # htmlをパース soup = BeautifulSoup(html_doc, 'html.parser') #print(soup.prettify()) # 左記の処理でHTMLをインデントし、表示も可能 #サイト上にある対象リンクだけを取り出したいため blog_str = 'http://forse.hatenablog.com/entry' #リンクをリストに格納 list1 = soup.find_all('a') #for文でリストを取り出していき、中味が空でないかつ対象リストのみを表示 for item in list1: url = item.get('href') if item.string and url: if not url.find(blog_str) == -1 : print(item.string) print(item.get('href'))
※実行環境の準備は、以下を参考しました。
【読書ノート】「人と違う発想をするために」メタ思考トレーニング(84冊目)
■概要
「人と発想が異なる人は、なにを考えているのか」
他の人とは違う着眼点があることについて理解できる書籍となっている。
同じインプットとなる情報の中で、人が考えなかったような面白い発想を持つ人は、なにがちがうのか。
■面白いこと、気になること
①アナロジー(類似性)
「ある物事を抽象化し、他の事象に対し共通する関係性や構造を抽出すること。」
革新的なアイデアを考えだす人は、アナロジーを抽出するのが卓越していることが多い。
例)Netflixの料金体系は、スポーツジムの定額制からヒントをえて誕生している。
具体をどこまで行い、どこまで抽象化するかにセンスが問われる。
単純な横滑りでの移植は、革新的でないことが多い。
例)アメリカで流行っているから、日本でそのまま同じモデルで展開しようとする。
※なぜは成功しているのかを深堀し、具体→抽象→展開というプロセスが必要である。
②「思い込みや思い入れは、一度捨てる」
物事に対して、思い入れや強いこだわりを持つのは危険である。
「特殊性を排除し、自虐を行える距離感を持っていること」が重要である。
思い入れを持っていることについてメタ認知を行い、自虐できる距離感がちょうどいい。
- 作者: 細谷功
- 出版社/メーカー: PHP研究所
- 発売日: 2016/05/19
- メディア: 新書
- この商品を含むブログ (1件) を見る
【読書ノート】人間はいろいろな問題についてどう考えていけば良いのか (83冊目)
■概要
「すべてがFになる」等でも有名な作家「森博嗣」が書いた書籍。
人間はいろいろな問題についてどう考えていけば良いのか (新潮新書)
作家として、大学の教授として、よく人から相談を受けるという。
有象無象な質問を受ける中で、よくある首記のけんについて、考えている事をまとめている。
読み進める中で、かなりドライな方という印象を受ける一方で、共感できる部分も多かった。
また、抽象思考を可能にするためには、という文脈では、
「これをすればだれでも」のようなものは存在しない。
だが、以下は、一定の効果があるとのことだった。
・何気ない普通の事を疑う/変えてみる(もし〜だったらと想像してみる)
・腑に落ちるものがあったら、他のモノで同じ構造がないか考えてみる
・比喩や連想ゲームをする
・抽象的な作品に触れる、自分でも創作する
■おもしろかったこと、気になった事
①具体的なものに振り回されない事
・休日は家族を行楽に連れて行かなくてはならない
・子供の運動会では、親としてビデオをまわし続けなくてはいけない
など、世の中で良しとされているようなことを消費することに何の意味があるのかと、具体的なことをそのまま消費するような人々を強烈に皮肉を言っている。
抽象的には、「子供を大事に思っている」、「家族を大事に思っていること」が本質であり、それが自分で考えた行動なのか、世の中で良しとされている事を消費していないか、と皮肉を言っている。
②特にこだわらないことをこだわる
正義、責任、世間体、地位、名誉などにとらわれる事はストレスである。
お金を稼ぐ、会社で生きていくには一定の配慮は必要かもしれないが、
人が生きている理由にさして具体的なものはない。
なにかに夢中になるのも良いし、ならなくてもいい。
なにを極めるのも良いけど、極めなくてもいい。
死にものぐるいで活きても良いけど、いきなくても生きていける。
「人の生き方はそんなもの」という距離感、達観した考えが腑に落ちる。
③抽象思考ができることによる効用
簡単にまとめると以下だろう。
・「具体的なこと」や「特殊性」を捨象するため、「公平性」をもって物事を見る事ができる
・具体から抽象的な学びを得るため、応用が利く
・抽象思考から他分野への類推ができるため、突飛押しもないアイデアを創出できる可能性が高まる
【テーマ別書籍紹介】よく思い込みや決めつけが強いと言われる人向け
■概要
思い込みや決めつけが強い人は付き合いにくい、なにかを決める話し合いの中でも浮いてしまう事が多い。
「そもそも自分がそうである」というメタ認知自体が難しいということもあるかもしれないが、もしそんな人に書籍を紹介するとしたら、というテーマで書籍を紹介したい。
※えらそうに言える立場でもないので、自戒を込めて紹介しております。
①「主張の成り立ちを理解する事で、自他の主張を理解し、疑う」
世界一やさしい問題解決の授業―自分で考え、行動する力が身につく
ファシリテーションの教科書: 組織を活性化させるコミュニケーションとリーダーシップ
自分や他人の意見というのがどのように成り立っているのかについても理解できる書籍群。じっくり向き合えば、自分の意見や他人の意見を俯瞰的/構造的に理解できるようになる。
たとえば、「演繹法/帰納法」により、
・どのように主張が構成されているのか
・前提としてなにを置いているのか。
・その前提は何によっておかれているのか。
・前提の根拠は、これまでの経験なのか、独学で学んだ知識なのか、人から聞いた話なのか、インターネットから拾ってきた情報なのか等。
表面的な主張だけで相手を否定せず、主張の背景を理解しつづける姿勢が必要。
「主張が成り立たせるピラミッドストラクチャー」や「論理の成り立ち」を理解すると、
・相手をすぐに否定するのではなく、構造的に相手の主張を理解することができるようになる。
・自分の主張の粗も見えるようになる。
②「自分は合理的な判断をしている」という考えを疑う
ファスト&スロー(上) あなたの意思はどのように決まるか? (ハヤカワ・ノンフィクション文庫)
ファスト&スロー(下) あなたの意思はどのように決まるか? (ハヤカワ・ノンフィクション文庫)
予想どおりに不合理: 行動経済学が明かす「あなたがそれを選ぶわけ」 (ハヤカワ・ノンフィクション文庫)
「アンカー」や「確率論の錯覚」等、「不合理に考えてしまう/行動してしまう人間の特徴」も整理している書籍群。
・多くのビジネスにも要素として取り入れられている印象。
・人間は思うほど合理的に行動できていないということを思い知らされる。
・自分の無意識な考えや直感も合理的でないことも多々ある。
【読書ノート】ファスト&スロー(82冊目)
■概要
ファスト&スロー(上) あなたの意思はどのように決まるか? (ハヤカワ・ノンフィクション文庫)
「意思決定や判断を行う際の思考」を「本能的な思考」と「分析的/論理的な思考」という2つにわけて、認知バイアスや判断エラーについて述べている書籍。
本能的な思考は、ファスト(早い)であり、論理的思考はスロー(遅い)と定義している。
「この2つの思考が物事を判断する」というのは非常に面白くて、納得感もある。
また、認知のバイアスや判断エラーについても、その過程を具体的な事例に基づきながら、説明してくれている。
以下のような人には、おすすめの書籍。
・合理的な意思決定をしていきたい
・思い込みが強いといわれる、またはその理由を知りたい
・偏見や決めつけに違和感を持っている人
■面白かった事、気になった事
①内気で、内向的な女性の専攻学科はなにか?
a.経済学部
b.文学部
c.工学部
紹介されていた判断エラーの1つ。
ステレオタイプでの判断だと、文学部といった回答になる。
だが統計学的思考があれば、大学生全体の割合に占める文学部の割合を鑑みると、上記の回答はたしからしくない回答となる。
上記は、統計学を専攻している多くの学生も、代表性(ステレオタイプ)に引っ張られ、
基準率を踏まえた論理的な思考を踏まえた上での回答をしなかったという。
直感は即効性があり比較的妥当なケースも多い。
だが、代表性に引っ張られる可能性がある事を把握しつつ、自己認知していることが判断エラーを防ぐ。
②ハロー効果と印象の順番について
・頭がいい→嫉妬深い→内気
・嫉妬深い→内気→頭がいい
上記の2パターンだと、同じ事をいっていても、印象が良いのはおそらく前者である。
ハロー効果によって、一部分の印象が全体印象になる傾向があるため、認知が歪んでしまう。
上記のような認知の特徴があるため、第一印象が大事であり、そこから大きくひっくり返すは難しい。
逆に自分が認知する立場の場合、時系列を意識せず、人を理解し続けようとする態度/スタンスでいた方が良い。
ファスト&スロー(上) あなたの意思はどのように決まるか? (ハヤカワ・ノンフィクション文庫)
- 作者: ダニエル・カーネマン,村井章子
- 出版社/メーカー: 早川書房
- 発売日: 2014/06/20
- メディア: 文庫
- この商品を含むブログ (32件) を見る
【読書ノート】その悩み、哲学者がすでに答えを出しています(81冊目)
■概要
「昔から人類は変わらない」という視点は、すごく面白い。
大昔の人も、現代人と同じようなことに悩み、考え、答えを出しているのだったら、それを知った方が早い。
その答えが、「参考になる、ためになるのでは」という形で出版された書籍らしい。
著名な哲学者が、考えに考えぬいた考えをもとに日常レベルに落とし込んでいるので非常に面白い。
■おもしろかったこと、気になったこと
②「人と比べてしまう」という悩みについて
「人と比べてしまう」という悩みについて、丸山真男の「であること」と「すること」を取り上げながら、「すること」が重要で、かつそんなことを意識する暇もないくらいフロー体験を感じられるモノを探すのが良い、というのは納得感があった。
※「であること」はステータスや状態を重視すること(上場企業で部長であることとか高級車に乗っていることとか)、
「すること」は、なにができるのかというパフォーマンス/行動を重視する社会。
特に個人発信ができる時代、個人がメディア化している時代だからこそ、より「人と比べる」という機会が増えてしまった。
SNSがなければどこでだれが何をしているかという情報をリアルタイムで知る必要もないし、機会もない。
人からどう思われるか、人をどう思うかよりも、夢中になれる事をみつけ、そこに没入した方が人生面白いとのこと。
各章で紹介されている原本を読んでいくのも非常に楽しそうだと感じた。
- 作者: 小林昌平
- 出版社/メーカー: 文響社
- 発売日: 2018/04/27
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
- 作者: 丸山真男
- 出版社/メーカー: 岩波書店
- 発売日: 1961/11/20
- メディア: 新書
- 購入: 25人 クリック: 248回
- この商品を含むブログ (226件) を見る
【読書ノート】生活者発想塾(80冊目)
■概要
マーケティング関係の書籍。
マーケティング関連の書籍は、知識が仕事に必要なわけではないが、
考えている視点や思想がおもしろいので読んでいる。
今回もそんな動機で読んだ本。
読みやすいが、内容もそれなりという形なので、
最初の一冊、気が散ったときにさくっと読める。
■面白かったこと、気になったこと
①高校生のメールについて
世の中で起きる事象に対して、自分が感じた違和感を大切にする。
人々が、なぜそのような行動するのかというのをしっかり考え抜くのが大切。
そんな一つの事例として、高校生同士のメールについて、取り上げている。
同じ仲間意識のみわかる言葉や名称を使ってコミュニケーションをとっている。仲間同士しか分からない「暗号」を使っている。
それは、仲間意識醸成であり、仲間以外からの防衛である。
言語というのは、自分の感情/考えを「コード化」している。
高校生は、その中でも一部の人にしかわからないように「ローカルコード化」している。
仲間意識を強く持つ集団、とりわけ趣味嗜好の集団で、好んで使われている。
例)ファン意識の強い団体、趣味団体等。
「高校生」×仲の良い友達という大きなくくりで防衛、仲間意識醸成が必要なほど、連帯したいという意識が強い。
- 作者: 博報堂生活総合研究所
- 出版社/メーカー: 日本経済新聞出版社
- 発売日: 2010/04/12
- メディア: 単行本
- 購入: 3人 クリック: 23回
- この商品を含むブログ (7件) を見る