PetLoversCentre.comから商品情報をスクレイピングする方法
By hientd, at: 2024年10月10日11:07
Estimated Reading Time: __READING_TIME__ minutes


Webスクレイピングは、ウェブサイトから情報を自動的に収集するための強力なツールです。この記事では、Python(requests + BeautifulSoup)を使用してPetLoversCentre.comから製品情報をスクレイピングする方法を説明します。製品名、価格、ブランド、画像リンクなどの製品詳細の抽出に焦点を当てます。
要件
開始する前に、システムにPythonと必要なライブラリがインストールされていることを確認してください。必要なライブラリはpipを使用してインストールできます。
pip install requests beautifulsoup4
スクレイピングスクリプト
製品詳細をスクレイピングするためのサンプルスクリプトを使用したステップバイステップガイドを次に示します。
import requests
from bs4 import BeautifulSoup
# 製品ページのURL
url = "https://www.petloverscentre.com/products/dog-adult-hypoallergenic-duck-grain-free-2kg"
# URLへのGETリクエストを送信
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 製品情報の抽出
name = soup.find('div', class_='prod-details-top').find('h1').text.strip()
price = soup.find('p', class_='price').text.strip()
brand = soup.find('div', class_='prod-details-top').find('p', class_='small-name').text.strip()
image_link = soup.find('img', id='zoom_product')['src']
# 抽出された情報を表示
print("Name:", name)
print("Price:", price)
print("Brand:", brand)
print("Image Links:", image_link)
解説
-
ライブラリのインポート:Webページのコンテンツの取得には
requests
を、HTMLの解析とデータの抽出にはBeautifulSoup
を使用します。 -
リクエストの送信:スクリプトは製品ページのURLにGETリクエストを送信して、HTMLコンテンツを取得します。
-
HTMLの解析:
BeautifulSoup
はHTMLを解析し、ドキュメントツリーをナビゲートして必要な情報を抽出できるようにします。 -
情報の抽出:
- 名前:製品名は、
prod-details-top
div内の< h1 >
タグ内にあります。 - 価格:価格は、クラス
price
を持つ< p >
タグから抽出されます。 - ブランド:ブランドは、
prod-details-top
div内のsmall-name
クラス内にあります。 - 画像リンク:メイン製品の画像リンクは、
id='zoom_product'
を持つimg
タグのsrc
属性から抽出されます。
- 名前:製品名は、
結論
Pythonを使用してPetLoversCentre.comから製品情報を抽出する方法の簡単な例をこのスクリプトは示しています。必要に応じて、セレクタとロジックを変更して、他の詳細や追加のページをスクレイピングできます。データのスクレイピングを行う際には、常にウェブサイトの利用規約を遵守してください。
より包括的なスクレイピングタスク(複数の製品の繰り返し処理や、CSVやデータベースなどの構造化された形式でのデータの保存など)のために、このスクリプトを拡張してください。