Web技術入門編02 :HTMLを取得しよう - Python実践編 | プログラミング学習サイト【paizaラーニング】

# coding: utf-8
import requests
from bs4 import BeautifulSoup

uri = 'https://paiza.jp/paijo'
html = requests.get(uri)

soup = BeautifulSoup(html.text, 'html.parser')
print(soup.find('div'))

# coding: utf-8
import requests
from bs4 import BeautifulSoup

uri = 'https://paiza.jp/paijo'
html = requests.get(uri)

soup = BeautifulSoup(html.text, 'html.parser')
print(soup.find('div'))

# coding: utf-8
import requests
from bs4 import BeautifulSoup

uri = 'https://paiza.jp/paijo'
html = requests.get(uri)

soup = BeautifulSoup(html.text, 'html.parser')
backnumber = soup.find('div', class_='p-paijo__recent-content')
for element in backnumber:
    print(element)

# coding: utf-8
import requests
from bs4 import BeautifulSoup

uri = 'https://paiza.jp/paijo'
html = requests.get(uri)

soup = BeautifulSoup(html.text, 'html.parser')
backnumber = soup.find('div', class_='p-paijo__recent-content')
for element in backnumber:
    print(element)

この動画を見るにはpaiza会員登録のうえ
有料会員登録が必要です

無料会員登録して始める

演習1
演習2

問題ログインすると模範解答や入力を見ることができます

演習課題「Pythonで、Webページから指定の要素を取り出す」

右側の環境で、ホームディレクトリにfetch.pyを用意してあり、右側のコードエリアには、Pythonで、「ぱいじょ」のトップページを読み込んで出力するコードが記述してあります。
このページで、divタグに以下のclass属性を持った要素を出力するようコードを修正してください。

```
p-paijo__old-backnumber
```

採点して、すべてのジャッジに正解すれば演習課題クリアです！

問題ログインすると模範解答や入力を見ることができます

演習課題「Pythonで、Webページの要素をまとめて取り出す」

右側の環境で、ホームディレクトリにfetch.pyを用意してあり、Pythonで「ぱいじょ」のトップページから、divタグに以下のclass属性を持った要素を出力するコードが記述してあります。

```
p-paijo__recent-content
```

ここから、画像のアドレスをすべて取り出すようコードを修正してください。
採点して、すべてのジャッジに正解すれば演習課題クリアです！

Tips

動画へ戻る

次のチャプターへ前のチャプターへ

※有料会員になるとこの動画をご利用いただけます

詳しい説明を読む

＃08:HTMLを取得しよう - Python実践編

Pythonを使って、実際のWebページの取り込みにチャレンジします。「ぱいじょ」のトップページからバックナンバーのリンクを取得しましょう。

リンクアドレス

Webページのアドレス
https://paiza.jp/paijo

URIを指定して読み込む

# coding: utf-8
import requests

uri = 'https://paiza.jp/paijo'
html = requests.get(uri)
print(html.text)

プログラムを実行する
$ python getPaijo.py

読み込んだWebページから、指定の要素を取り出す

# coding: utf-8
import requests
from bs4 import BeautifulSoup

uri = 'https://paiza.jp/paijo'
html = requests.get(uri)
# print(html.text)

soup = BeautifulSoup(html.text, 'html.parser')
print(soup.find('title').string)

バックナンバーを取り出す

※現在、https://paiza.jp/paijo に
"p-paijo__backnumber-list--older"というclassが存在していないため、
NONEと出力されます。

# coding: utf-8
import requests
from bs4 import BeautifulSoup

uri = 'https://paiza.jp/paijo'
html = requests.get(uri)
# print(html.text)

soup = BeautifulSoup(html.text, 'html.parser')
# print(soup.find('title').string)

backnumber = soup.find('div', class_='p-paijo__backnumber-list--older')
print(backnumber)

バックナンバーのリンクから、アドレスだけを取り出す

backnumber = soup.find('div', class_='p-paijo__backnumber-list--older')
#print(backnumber)
for element in backnumber.find_all('a'):
    print(element['href'])

参考になるWebページ

Requests: HTTP for Humans™
https://requests.readthedocs.io/en/latest/

Beautiful Soup: We called him Tortoise because he taught us.
http://crummy.com/software/BeautifulSoup/

プログラミング学習 > PHP > Web技術入門編 > Web技術入門編02 : HTMLを理解しよう > HTMLを取得しよう - Python実践編

Web技術入門編02 : HTMLを理解しよう

コード判定結果