Cách lấy thông tin sản phẩm từ PetLoversCentre.com
By hientd, at: 11:07 Ngày 10 tháng 10 năm 2024
Thời gian đọc ước tính: __READING_TIME__ minutes


Cách Scrape Thông Tin Sản Phẩm từ PetLoversCentre.com
Web scraping là một công cụ mạnh mẽ để thu thập thông tin từ các trang web tự động. Trong bài viết này, chúng ta sẽ hướng dẫn bạn cách scrape thông tin sản phẩm từ PetLoversCentre.com bằng Python (requests + BeautifulSoup). Chúng ta sẽ tập trung vào việc trích xuất các chi tiết sản phẩm như tên, giá, thương hiệu và liên kết hình ảnh.
Yêu cầu
Trước khi bắt đầu, hãy đảm bảo bạn đã cài đặt Python trên hệ thống của mình cùng với các thư viện cần thiết. Bạn có thể cài đặt các thư viện cần thiết bằng pip:
pip install requests beautifulsoup4
Script Scrape
Đây là hướng dẫn từng bước sử dụng một script mẫu để scrape chi tiết sản phẩm:
import requests
from bs4 import BeautifulSoup
# URL của trang sản phẩm
url = "https://www.petloverscentre.com/products/dog-adult-hypoallergenic-duck-grain-free-2kg"
# Gửi yêu cầu GET đến URL
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# Trích xuất thông tin sản phẩm
name = soup.find('div', class_='prod-details-top').find('h1').text.strip()
price = soup.find('p', class_='price').text.strip()
brand = soup.find('div', class_='prod-details-top').find('p', class_='small-name').text.strip()
image_link = soup.find('img', id='zoom_product')['src']
# In thông tin đã trích xuất
print("Name:", name)
print("Price:", price)
print("Brand:", brand)
print("Image Links:", image_link)
Giải thích
-
Nhập thư viện: Chúng ta sử dụng
requests
để lấy nội dung trang web vàBeautifulSoup
để phân tích cú pháp và trích xuất dữ liệu từ HTML. -
Gửi yêu cầu: Script gửi yêu cầu GET đến URL trang sản phẩm để lấy nội dung HTML.
-
Phân tích cú pháp HTML:
BeautifulSoup
phân tích cú pháp HTML, cho phép chúng ta điều hướng cây tài liệu và trích xuất thông tin cần thiết. -
Trích xuất thông tin:
- Tên: Tên sản phẩm được tìm thấy bên trong thẻ
< h1 >
bên trong divprod-details-top
. - Giá: Giá được trích xuất từ thẻ
< p >
có lớpprice
. - Thương hiệu: Thương hiệu được tìm thấy bên trong lớp
small-name
trong divprod-details-top
. - Liên kết hình ảnh: Liên kết hình ảnh sản phẩm chính được trích xuất từ thuộc tính
src
của thẻimg
cóid='zoom_product'
.
- Tên: Tên sản phẩm được tìm thấy bên trong thẻ
Kết luận
Script này cung cấp một ví dụ đơn giản về cách trích xuất thông tin sản phẩm từ PetLoversCentre.com bằng Python. Bạn có thể sửa đổi các bộ chọn và logic để scrape các chi tiết khác hoặc các trang bổ sung nếu cần. Luôn đảm bảo tuân thủ các điều khoản dịch vụ của trang web khi scrape dữ liệu.
Cảm thấy tự do để mở rộng script này cho các tác vụ scrape toàn diện hơn, chẳng hạn như lặp lại nhiều sản phẩm hoặc lưu trữ dữ liệu ở định dạng có cấu trúc như CSV hoặc cơ sở dữ liệu.