こんにちは、まさです。新学期の準備をしています。学校が始まれば、Pythonの勉強時間も減ってくると思われるので、何とか早めにこれを終わらせたいです。ということで、『退屈なことはPythonにやらせよう』の9章を飛ばして、10章飛ばして、先にやりたかった11章Webスクレイビングに行きます。
➤Webスクレイビングとは、プログラミングを使ってWebからコンテンツをダウンロードすること
➤例えば、cotEditor(シンプルなので使っている)で以下のコードを書き、mapIt.pyの名前で保存。
これをターミナルから、python mapIt.py '墨田区' で開くと、自動で墨田区のグーグルマップのページを開く。
➤requests.get()関数はダウンロードするURLを文字列として受け取る。type()で調べると、responseオブジェクトであることがわかる。res.status_code == requests.codes.okであれば成功。len(res.text)で総文字数がわかり、最後にprint(res.text[:250])で、冒頭250文字だけを表示する。
➤requests.get()関数を呼び出したら、必ずraise_for_status()を呼び出して、実際にダウンロードされたか確認必要。raise_for_status()メソッドをtry: except文で囲めば、異常終了せずにエラーを処理できる。
➤ダウンロードしたファイルをハードドライブに保存する。100キロバイドが適切な大きさなので、100000。
➤Webスクレイビングとは、プログラミングを使ってWebからコンテンツをダウンロードすること
➤例えば、cotEditor(シンプルなので使っている)で以下のコードを書き、mapIt.pyの名前で保存。
これをターミナルから、python mapIt.py '墨田区' で開くと、自動で墨田区のグーグルマップのページを開く。
➤requests.get()関数はダウンロードするURLを文字列として受け取る。type()で調べると、responseオブジェクトであることがわかる。res.status_code == requests.codes.okであれば成功。len(res.text)で総文字数がわかり、最後にprint(res.text[:250])で、冒頭250文字だけを表示する。
➤requests.get()関数を呼び出したら、必ずraise_for_status()を呼び出して、実際にダウンロードされたか確認必要。raise_for_status()メソッドをtry: except文で囲めば、異常終了せずにエラーを処理できる。
➤ダウンロードしたファイルをハードドライブに保存する。100キロバイドが適切な大きさなので、100000。
No comments:
Post a Comment