演習課題「PythonでWebページを読み込む」
右側の環境で、ホームディレクトリにfetch.pyを用意してあり、PythonでWebページを読み込んで出力するコードが記述してあります。
このコードで、以下のサンプルページを読み込むよう、コードを修正してください。
```
http://localhost/~ubuntu/paijo.html
```
採点して、すべてのジャッジに正解すれば演習課題クリアです!
演習課題「Pythonで、Webページのタイトルを取り出す」
右側の環境で、ホームディレクトリにfetch.pyを用意してあり、PythonでWebページを読み込んで出力するコードが記述してあります。
このサンプルページのタイトルだけを出力するよう、コードを修正してください。
採点して、すべてのジャッジに正解すれば演習課題クリアです!
演習課題「Pythonで、Webページの要素をまとめて取り出す」
右側の環境で、ホームディレクトリにfetch.pyを用意してあり、PythonでWebページを読み込んで出力するコードが記述してあります。
このサンプルページにある以下の要素を出力するよう、コードを修正してください。
```
divタグで、class属性が「p-head」
```
採点して、すべてのジャッジに正解すれば演習課題クリアです!
#07:HTMLを取得しよう - Python編
WebページのHTMLを取得して、指定の情報を取り出すプログラムをPythonで作ってみましょう。まずは、簡単なWebページを対象にして、基本的なテクニックを学習します。
ターミナルで、以下のコマンドを実行します
$ sudo pip3 install beautifulsoup4
URIを指定して読み込む
# coding: utf-8
import requests
uri = 'https://(url)/paiza.html'
html = requests.get(uri)
print(html.text)
アドレスは、自分の学習環境でブラウザからコピーする。
# coding: utf-8
import requests
https://paiza-webtech.paiza-user.cloud/~ubuntu/paiza.html
# coding: utf-8
import requests
from bs4 import BeautifulSoup
uri = 'https://(url)/paiza.html'
html = requests.get(uri)
# print(html.text)
soup = BeautifulSoup(html.text, 'html.parser')
# print(soup.find('title').string)
for element in soup.find_all('h2'):
print(element)
for element in soup.find_all('h2', class_='resume'):
print(element)
for element in soup.find_all('h2', class_='resume'):
print(element['id'])
Requests: HTTP for Humans™
https://requests.readthedocs.io/en/latest/
Beautiful Soup: We called him Tortoise because he taught us.
http://crummy.com/software/BeautifulSoup/