演習課題「Pythonで、Webページから指定の要素を取り出す」
右側の環境で、ホームディレクトリにfetch.pyを用意してあり、右側のコードエリアには、Pythonで、「ぱいじょ」のトップページを読み込んで出力するコードが記述してあります。
このページで、divタグに以下のclass属性を持った要素を出力するようコードを修正してください。
```
p-paijo__recent-backnumber
```
採点して、すべてのジャッジに正解すれば演習課題クリアです!
演習課題「Pythonで、Webページの要素をまとめて取り出す」
右側の環境で、ホームディレクトリにfetch.pyを用意してあり、Pythonで「ぱいじょ」のトップページから、divタグに以下のclass属性を持った要素を出力するコードが記述してあります。
```
p-paijo__recent-backnumber
```
ここから、画像のアドレスをすべて取り出すようコードを修正してください。
採点して、すべてのジャッジに正解すれば演習課題クリアです!
#08:HTMLを取得しよう - Python実践編
Pythonを使って、実際のWebページの取り込みにチャレンジします。「ぱいじょ」のトップページからバックナンバーのリンクを取得しましょう。
Webページのアドレス
- https://paiza.jp/paijo
URIを指定して読み込む# coding: utf-8
import requests
uri = 'https://paiza.jp/paijo'
html = requests.get(uri)
print(html.text)
プログラムを実行する$ python getPaijo.py
# coding: utf-8
import requests
from bs4 import BeautifulSoup
uri = 'https://paiza.jp/paijo'
html = requests.get(uri)
# print(html.text)
soup = BeautifulSoup(html.text, 'html.parser')
print(soup.find('title').string)
※現在、https://paiza.jp/paijo に
"p-paijo__backnumber-list--older"というclassが存在していないため、
NONEと出力されます。# coding: utf-8
import requests
from bs4 import BeautifulSoup
uri = 'https://paiza.jp/paijo'
html = requests.get(uri)
# print(html.text)
soup = BeautifulSoup(html.text, 'html.parser')
# print(soup.find('title').string)
backnumber = soup.find('div', class_='p-paijo__backnumber-list--older')
print(backnumber)
backnumber = soup.find('div', class_='p-paijo__backnumber-list--older')
#print(backnumber)
for element in backnumber.find_all('a'):
print(element['href'])
- python3でwebスクレイピング(Beautiful Soup) - Qiita
https://qiita.com/matsu0228/items/edf7dbba9b0b0246ef8f
- BeautifulSoup4のチートシート(セレクターなど) | Python Snippets
https://python.civic-apps.com/beautifulsoup4-selector/
- BeautifulSoupを使ってスクレイピングをしてみる |
http://furodrive.com/2014/02/beautifulsoup/
- PythonとBeautiful Soupでスクレイピング - Qiita
https://qiita.com/itkr/items/513318a9b5b92bd56185
- Python Webスクレイピング 実践入門 - Qiita
https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406
- Requests の使い方 (Python Library) - Qiita
https://qiita.com/sqrtxx/items/49beaa3795925e7de666
- Beautiful Soup: We called him Tortoise because he taught us.
https://www.crummy.com/software/BeautifulSoup/
- kondou.com - Beautiful Soup 4.2.0 Doc. 日本語訳 (2013-11-19最終更新)
http://kondou.com/BS4/
- Webスクレイピングの注意事項一覧 - Qiita
https://qiita.com/nezuq/items/c5e827e1827e7cb29011
- Webスクレイピングのノウハウを公開します | 東北ギーク
http://tech.respect-pal.jp/web-scraping/
- クローリングとWebスクレイピングに関わる法的妥当性問題に関するメモ | Accel Brain; Media
https://media.accel-brain.com/librahack/