PetLoversCentre.comから商品情報をスクレイピングする方法
By hientd, at: 2024年10月10日11:07
Estimated Reading Time: __READING_TIME__ minutes


PetLoversCentre.comから商品情報をスクレイピングする方法
ウェブスクレイピングは、ウェブサイトから情報を自動的に収集するための強力なツールです。この記事では、Python(requests + BeautifulSoup)を使用してPetLoversCentre.comから商品情報をスクレイピングする方法を説明します。商品名、価格、ブランド、画像リンクなどの商品詳細の抽出に焦点を当てます。
必要条件
開始する前に、システムにPythonと必要なライブラリがインストールされていることを確認してください。必要なライブラリはpipを使用してインストールできます。
pip install requests beautifulsoup4
スクレイピングスクリプト
以下は、商品詳細をスクレイピングするためのサンプルスクリプトを使用したステップバイステップガイドです。
import requests
from bs4 import BeautifulSoup
# 商品ページのURL
url = "https://www.petloverscentre.com/products/dog-adult-hypoallergenic-duck-grain-free-2kg"
# URLへのGETリクエストを送信
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 商品情報の抽出
name = soup.find('div', class_='prod-details-top').find('h1').text.strip()
price = soup.find('p', class_='price').text.strip()
brand = soup.find('div', class_='prod-details-top').find('p', class_='small-name').text.strip()
image_link = soup.find('img', id='zoom_product')['src']
# 抽出された情報を表示
print("Name:", name)
print("Price:", price)
print("Brand:", brand)
print("Image Links:", image_link)
解説
-
ライブラリのインポート: ウェブページのコンテンツを取得するために
requests
を、HTMLを解析してデータを取り出すためにBeautifulSoup
を使用します。 -
リクエストの送信: スクリプトは、商品ページのURLにGETリクエストを送信してHTMLコンテンツを取得します。
-
HTMLの解析:
BeautifulSoup
はHTMLを解析し、ドキュメントツリーをナビゲートして必要な情報を抽出できるようにします。 -
情報の抽出:
- 名前: 商品名は、
prod-details-top
div内の< h1 >
タグ内にあります。 - 価格: 価格は、クラス
price
を持つ< p >
タグから抽出されます。 - ブランド: ブランドは、
prod-details-top
div内のsmall-name
クラス内にあります。 - 画像リンク: メインの商品画像リンクは、
id='zoom_product'
を持つimg
タグのsrc
属性から抽出されます。
- 名前: 商品名は、
結論
このスクリプトは、PetLoversCentre.comからPythonを使用して商品情報を抽出する方法の簡単な例を示しています。必要に応じて、セレクターとロジックを変更して、他の詳細や追加のページをスクレイピングすることができます。データのスクレイピングを行う際には、常にウェブサイトの利用規約を遵守してください。
より包括的なスクレイピングタスク(複数の商品の繰り返し処理や、CSVやデータベースなどの構造化された形式でのデータの保存など)のために、このスクリプトを拡張することができます。