Beautiful Soupの使い方を解説【Python】

Beautiful Soupとは?

Beautiful Soupとは、Pythonライブラリの一種です。HTMLデータであるWebスクレイピングを効率良く行えるようになります。

標準でインストールされていないライブラリであるため、利用する方はインストールを行う必要があります。

Beautiful Soupをインストールする

pipコマンドを利用してBeautiful Soupをインストールできます。

php
pip install beautifulsoup4

Beautiful Soupの使い方

Beautiful Soupの使い方を簡単に説明すると以下になります。

  1. BeautifulSoupクラスをインポートする
  2. BeautifulSoupクラスのオブジェクトを作成する
  3. BeautifulSoupオブジェクトを操作する

BeautifulSoupクラスをインポートする

Pythonファイルに次のimport文を記載します。

php
from bs4 import BeautifulSoup

BeautifulSoupクラスのオブジェクトを作成する

HTMLリクエストを行うために、import文でrequestsを記載します。

そして取得したHTMLデータから、BeautifulSoupオブジェクトを作成します。

python
import requests

res = requests.get('https://example.com')
soup = BeautifulSoup(res.text, 'html.parser')

BeautifulSoupオブジェクトを操作する

BeautifulSoupオブジェクトに対して、操作を行います。

例えば、Webページのタイトルである文字列を取得したい場合は、次のような操作を行います。

php
h1_obj = soup.h1
title = h1_obj.string

特定のすべてのタグを取得したい場合は、次のようなコードを書きます。

php
h2_obj = soup.find_all('h2')

また特定のタグから特定のidやclassで取得したい場合は、次のように記載します。

php
id_obj = soup.find_all('h2', id='heading')
class_obj = soup.find_all('h2', class_='heading')

関連記事