TheFirstEdition.comからのデータスクレイピング方法 ― ステップバイステップガイド

How to Scrape The First Edition site - A Sample Code Walkthrough

ウェブサイトからデータをスクレイピングすることは、研究のためのデータ収集、リストの集約の作成、またはウェブベースの製品の構築など、多くの場合に役立つスキルです。The First Edition、希少な本の豊富なカタログを持つサイトに掲載されている書籍をスクレイピングする方法を、このガイドでは説明します。SKU、タイトル、著者、価格、版、説明、場所、発行日、ISBNなどの情報を収集するための問題解決アプローチについて説明します。

1. サンプル問題

The First Editionから書籍情報を収集することを目標とします。各書籍について、SKU、タイトル、著者、価格、版、説明、場所、発行日、ISBNなどの重要な詳細情報を抽出することを目指します。このデータが分析に必要であるか、アプリで書籍データを表示する必要があるシナリオを想定してみましょう。

書籍のサンプル出力は次のようになります。

{

  "sku": "12345",

  "title": "To Kill a Mockingbird",

  "author": "Harper Lee",

  "price": "$1,250.00",

  "edition": "First Edition",

  "description": "A rare first edition of Harper Lee's 'To Kill a Mockingbird' with original dust jacket.",

  "location": "New York, USA",

  "date_published": "1960",

  "isbn": "978-0-06-112008-4"

}

2. 問題の分析と解決策手順の構築

Webスクレイピングタスクに取り組む際には、問題を分解することが重要です。以下は、私たちが従う手順です。

データの特定：Webページの構造を見て、必要なデータを含む正確な要素を見つけます。
ページネーションの理解：ほとんどのEコマースページには、複数のページのリストがあります。これらのページをどのように移動するかを理解する必要があります。
スクレイパーの構造化：単一の書籍ページからデータを取り出す関数を作成し、それを拡張して複数の書籍とページにわたってデータをスクレイピングします。
データのコンパイル：スクレイピングされたデータを（例：CSV）構造化された形式で保存して、さらに分析します。

3. 解決策の実装

ステップ1：必要なライブラリのインポートとヘッダーの設定

人間のブラウザ訪問を模倣するために、リクエストにHTTPヘッダーを使用します。

import requests from bs4 import BeautifulSoup import pandas as pd import time

# ウェブサイトのベースURL base_url = "https://thefirstedition.com"

# ブラウザ訪問を模倣するためのヘッダー headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" }

ステップ2：ページネーションを処理する関数の定義

スクレイパーがいつ停止するかを知るために、各カテゴリのページの総数を見つける必要があります。

def get_total_pages(category_url):

    response = requests.get(category_url, headers=headers)

    soup = BeautifulSoup(response.content, "html.parser")

    # ページネーション要素を見つけ、ページの総数を抽出します

    pagination = soup.find("nav", class_="woocommerce-pagination")

    if pagination:

        pages = pagination.find_all("a")

        if pages:

            last_page = pages[-2].get_text()

            return int(last_page)

    return

ステップ3：書籍詳細の抽出

各書籍ページには、SKU、タイトル、著者、価格、説明などの詳細情報を保持する特定の要素が含まれています。これらの要素を取得する方法を次に示します。

def extract_book_details(book_url):

    response = requests.get(book_url, headers=headers)

    soup = BeautifulSoup(response.content, "html.parser")

    details = {}

    # SKUの抽出

    sku = soup.find("span", class_="sku")

    details["SKU"] = sku.get_text(strip=True) if sku else None

    # タイトルの抽出

    title = soup.find("h1", class_="product_title")

    details["Title"] = title.get_text(strip=True) if title else None

    # 価格の抽出

    price = soup.find("p", class_="price")

    details["Price"] = price.get_text(strip=True) if price else None

    # 説明の抽出

    description = soup.find("div", class_="woocommerce-product-details__short-description")

    details["Description"] = description.get_text(strip=True) if description else None

    return details

ステップ4：カテゴリ内の複数のページをスクレイピングする

カテゴリのページをループしてデータ収集するには、ページネーション関数を使用します。

def scrape_category(category_url):

    books = []

    total_pages = get_total_pages(category_url)

    for page in range(1, total_pages + 1):

        print(f"Scraping page {page} of {total_pages} in category {category_url}")

        page_url = f"{category_url}/page/{page}/"

        response = requests.get(page_url, headers=headers)

        soup = BeautifulSoup(response.content, "html.parser")

        # ページ上のすべての書籍リンクを見つけます

        book_links = soup.find_all("a", class_="woocommerce-LoopProduct-link")

        for link in book_links:

            book_url = link.get("href")

            print(f"Scraping book: {book_url}")

            book_details = extract_book_details(book_url)

            books.append(book_details)

            time.sleep(1)  # サーバーへの負担を避けるための遅延

    return books

4. すべてをまとめ、カテゴリリンクのデモを行う

これで、スクレイパーを1つのカテゴリに適用し、出力をCSVファイルに保存できます。

# スクラップするカテゴリを選択します category_url = "https://thefirstedition.com/product-category/literature-classics/"

# 選択したカテゴリをスクラップします books_data = scrape_category(category_url)

# 書籍のリストをDataFrameに変換します df = pd.DataFrame(books_data)

# CSVに保存します df.to_csv("the_first_edition_books.csv", index=False) print("Scraping completed. Data saved to 'the_first_edition_books.csv'")

上記のコードを実行すると、選択したカテゴリの各書籍の指定された詳細が収集され、the_first_edition_books.csvに保存されます。

完全なコードスニペットはこちらに保存されています

5. 教訓

敬意を払うスクレイピング：スクレイピングを行う際には、敬意を払うことが不可欠です。サーバーへの負担を避けるために、リクエスト間には常に遅延を追加してください。サイトのrobots.txtガイドラインに従ってください。
エラー処理：すべてのページが同じ構造になっているわけではありません。スクレイパーを構築する際には、欠落しているフィールドや予期しないレイアウトを処理するためのチェックを追加します。
ページネーションロジック：複数ページのコンテンツをナビゲートすることは、包括的なデータ収集に不可欠です。すべてのアイテムが確実に取得されるように、ページネーションロジックを慎重にテストしてください。
データ構造：スクレイピングされたデータを意味のある方法で整理します。CSVやデータベースなどの構造化された形式を使用すると、後でデータの分析や使用が容易になります。

このガイドでは、Webスクレイピングの問題を効率的に分解して解決する方法を示し、構造化されたデータとWebスクレイパーの構築に関する洞察の両方を提供します。楽しいスクレイピングを！

今後の展望：カテゴリリンクからの書籍リンクのリストと、書籍リンクからの書籍詳細のスクレイピング方法についてのみ説明しました。「サイトからカテゴリリンクのリストを取得する方法」については説明していません。ぜひ挑戦してみてください。