演習課題「PythonでWebページを読み込む」
右側の環境で、ホームディレクトリにfetch.pyを用意してあり、PythonでWebページを読み込んで出力するコードが記述してあります。
このコードで、以下のサンプルページを読み込むよう、コードを修正してください。
```
http://localhost/~ubuntu/paijo.html
```
採点して、すべてのジャッジに正解すれば演習課題クリアです!
演習課題「Pythonで、Webページのタイトルを取り出す」
右側の環境で、ホームディレクトリにfetch.pyを用意してあり、PythonでWebページを読み込んで出力するコードが記述してあります。
このサンプルページのタイトルだけを出力するよう、コードを修正してください。
採点して、すべてのジャッジに正解すれば演習課題クリアです!
演習課題「Pythonで、Webページの要素をまとめて取り出す」
右側の環境で、ホームディレクトリにfetch.pyを用意してあり、PythonでWebページを読み込んで出力するコードが記述してあります。
このサンプルページにある以下の要素を出力するよう、コードを修正してください。
```
divタグで、class属性が「p-head」
```
採点して、すべてのジャッジに正解すれば演習課題クリアです!
#07:HTMLを取得しよう - Python編
WebページのHTMLを取得して、指定の情報を取り出すプログラムをPythonで作ってみましょう。まずは、簡単なWebページを対象にして、基本的なテクニックを学習します。
ターミナルで、以下のコマンドを実行します$ sudo pip3 install beautifulsoup4
URIを指定して読み込む# coding: utf-8
import requests
uri = 'https://(url)/paiza.html'
html = requests.get(uri)
print(html.text)
アドレスは、自分の学習環境でブラウザからコピーする。
# coding: utf-8
import requests
https://xxx.learning.paiza-user-learning.cloud/~ubuntu/paiza.html
# coding: utf-8
import requests
from bs4 import BeautifulSoup
uri = 'https://(url)/paiza.html'
html = requests.get(uri)
# print(html.text)
soup = BeautifulSoup(html.text, 'html.parser')
# print(soup.find('title').string)
for element in soup.find_all('h2'):
print(element)
for element in soup.find_all('h2', class_='resume'):
print(element)
for element in soup.find_all('h2', class_='resume'):
print(element['id'])
- python3でwebスクレイピング(Beautiful Soup) - Qiita
https://qiita.com/matsu0228/items/edf7dbba9b0b0246ef8f
- BeautifulSoup4のチートシート(セレクターなど) | Python Snippets
https://python.civic-apps.com/beautifulsoup4-selector/
- PythonとBeautiful Soupでスクレイピング - Qiita
https://qiita.com/itkr/items/513318a9b5b92bd56185
- Python Webスクレイピング 実践入門 - Qiita
https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406
- Requests の使い方 (Python Library) - Qiita
https://qiita.com/sqrtxx/items/49beaa3795925e7de666
- Beautiful Soup: We called him Tortoise because he taught us.
https://www.crummy.com/software/BeautifulSoup/
- kondou.com - Beautiful Soup 4.2.0 Doc. 日本語訳 (2013-11-19最終更新)
http://kondou.com/BS4/