目次
Beautiful Soupとは?
Beautiful Soupとは、Pythonライブラリの一種です。HTMLデータであるWebスクレイピングを効率良く行えるようになります。
標準でインストールされていないライブラリであるため、利用する方はインストールを行う必要があります。
Beautiful Soupをインストールする
pipコマンドを利用してBeautiful Soupをインストールできます。
pip install beautifulsoup4
![](https://foxcode.jp/wp-content/uploads/2022/12/beautifulsoup-howto-01-1024x666.png)
Beautiful Soupの使い方
Beautiful Soupの使い方を簡単に説明すると以下になります。
- BeautifulSoupクラスをインポートする
- BeautifulSoupクラスのオブジェクトを作成する
- BeautifulSoupオブジェクトを操作する
BeautifulSoupクラスをインポートする
Pythonファイルに次のimport文を記載します。
from bs4 import BeautifulSoup
BeautifulSoupクラスのオブジェクトを作成する
HTMLリクエストを行うために、import文でrequestsを記載します。
そして取得したHTMLデータから、BeautifulSoupオブジェクトを作成します。
import requests
res = requests.get('https://example.com')
soup = BeautifulSoup(res.text, 'html.parser')
BeautifulSoupオブジェクトを操作する
BeautifulSoupオブジェクトに対して、操作を行います。
例えば、Webページのタイトルである文字列を取得したい場合は、次のような操作を行います。
h1_obj = soup.h1
title = h1_obj.string
特定のすべてのタグを取得したい場合は、次のようなコードを書きます。
h2_obj = soup.find_all('h2')
また特定のタグから特定のidやclassで取得したい場合は、次のように記載します。
id_obj = soup.find_all('h2', id='heading')
class_obj = soup.find_all('h2', class_='heading')