Beautiful Soupの使い方を解説【Python】

目次

Beautiful Soupとは?

Beautiful Soupとは、Pythonライブラリの一種です。HTMLデータであるWebスクレイピングを効率良く行えるようになります。

標準でインストールされていないライブラリであるため、利用する方はインストールを行う必要があります。

Beautiful Soupをインストールする

pipコマンドを利用してBeautiful Soupをインストールできます。

pip install beautifulsoup4

Beautiful Soupの使い方

Beautiful Soupの使い方を簡単に説明すると以下になります。

  1. BeautifulSoupクラスをインポートする
  2. BeautifulSoupクラスのオブジェクトを作成する
  3. BeautifulSoupオブジェクトを操作する

BeautifulSoupクラスをインポートする

Pythonファイルに次のimport文を記載します。

from bs4 import BeautifulSoup

BeautifulSoupクラスのオブジェクトを作成する

HTMLリクエストを行うために、import文でrequestsを記載します。

そして取得したHTMLデータから、BeautifulSoupオブジェクトを作成します。

import requests

res = requests.get('https://example.com')
soup = BeautifulSoup(res.text, 'html.parser')

BeautifulSoupオブジェクトを操作する

BeautifulSoupオブジェクトに対して、操作を行います。

例えば、Webページのタイトルである文字列を取得したい場合は、次のような操作を行います。

h1_obj = soup.h1
title = h1_obj.string

特定のすべてのタグを取得したい場合は、次のようなコードを書きます。

h2_obj = soup.find_all('h2')

また特定のタグから特定のidやclassで取得したい場合は、次のように記載します。

id_obj = soup.find_all('h2', id='heading')
class_obj = soup.find_all('h2', class_='heading')
目次