ذخیره JSON در Scrapy: راهنمای عملی اسکریپینگ

مقدمه

در این راهنما نکات عملی ذخیره‌سازی خروجی‌های وب اسکریپینگ با Scrapy را مرور می‌کنیم. فرض می‌کنیم برنامه‌نویس پایتون در سطح متوسط هستید؛ در پایان خواهید توانست نتایج اسکریپ کردن را به JSON یا JSON Lines صادر کنید، تنظیمات FEEDS را پیکربندی کنید، فایل‌ها را به صورت بچ‌بندی ذخیره کنید و مشکلات رایج عملکرد و امنیت را حل کنید.

Feed Exporters چیست؟

Scrapy یک مجموعه آماده به‌نام Feed Exporters دارد که روش‌های متنوعی برای نوشتن آیتم‌های استخراج‌شده به فرمت‌ها و مقاصد مختلف فراهم می‌کند.

فرمت‌های رایج خروجی:

JSON و JSON Lines
CSV
XML
pickle

مقاصد ذخیره‌سازی:

فایل محلی
FTP
Amazon S3
Google Cloud Storage
STDOUT

JSON یا JSON Lines؟

برای داده‌های کوچک، JSON آرایه‌ای مناسب است، اما برای حجم‌های بزرگ توصیه می‌شود از JSON Lines استفاده کنید چون امکان نوشتن استریم و پردازش افزایشی را فراهم می‌کند و از بار زیاد حافظه جلوگیری می‌کند.

مثال JSON آرایه (برای داده‌های کوچک):

[
    { "name": "Color TV", "price": "1200" },
    { "name": "DVD player", "price": "200" }
]

مثال JSON Lines (هر خط یک شیء مستقل):

{"name": "Color TV", "price": "1200"}
{"name": "DVD player", "price": "200"}

مزیت‌ها:

JSON Lines اجازهٔ نوشتن incremental و تقسیم فایل‌ها را می‌دهد.
در پردازش دسته‌ای یا استریم، حافظه مصرفی پایین می‌ماند.

خروجی‌گیری از طریق خط فرمان

ساده‌ترین روش اضافه کردن فلگ -o یا -O به دستور scrapy crawl است.

scrapy crawl bookspider -o bookspider_data.json
scrapy crawl bookspider -o bookspider_data.jsonl
scrapy crawl bookspider -o file:///path/to/project/bookspider_data.json

تفاوت پرچم‌ها:

-o: اگر فایل وجود داشته باشد، آیتم‌های جدید را به آن الحاق می‌کند.
-O: فایل موجود را بازنویسی می‌کند.

نکات عملی: برای اجرای زمان‌بندی شده یا CI از این روش استفاده نکنید مگر کنترل نام فایل و رخدادهای overwrite را داشته باشید.

پیکربندی FEEDS در settings.py

روش مرتب‌تر کنترل خروجی استفاده از تنظیم FEEDS در settings.py است. این تنظیم یک دیکشنری می‌پذیرد که کلید آن URI فایل و مقدار آن دیکشنری تنظیمات مربوط به آن فید است.

# settings.py
FEEDS = {
    'data.jsonl': {'format': 'jsonlines'}
}

مثال تنظیم در داخل یک اسپایدر با custom_settings:

# bookspider.py
import scrapy
from myproject.items import BookItem

class BookSpider(scrapy.Spider):
    name = 'bookspider'
    start_urls = ['http://books.toscrape.com']

    custom_settings = {
        'FEEDS': {
            'data/bookspider.jsonl': {'format': 'jsonlines'},
        }
    }

    def parse(self, response):
        for article in response.css('article.product_pod'):
            book_item = BookItem(
                url=article.css('h3 > a::attr(href)').get(),
                title=article.css('h3 > a::attr(title)').get(),
                price=article.css('.price_color::text').get(),
            )
            yield book_item

در این مثال ورودی‌ها: پاسخ HTTP؛ خروجی: آیتم‌های تولیدشده که توسط Feed Exporter به فایل منتقل می‌شوند. خط به خط: گرفتن URL، عنوان و قیمت از CSS سلکتورها و ساختن آیتم.

گزینهٔ overwrite و پیش‌فرض‌ها

می‌توانید با افزودن کلید overwrite در تعریف FEEDS رفتار بازنویسی را کنترل کنید:

# settings.py
FEEDS = {
    'data.jsonl': {'format': 'jsonlines', 'overwrite': True}
}

پیش‌فرض در ذخیرهٔ محلی معمولاً overwrite=False است؛ بنابراین اگر قصد بازنویسی دارید صریحاً آن را تنظیم کنید.

نام‌گذاری داینامیک فایل‌ها

برای جلوگیری از جمع شدن همه داده‌ها در یک فایل، از قالب‌های جایگزین‌گذاری استفاده کنید مثل %(name)s و %(time)s. این پارامترها هنگام ایجاد فید با ویژگی‌های اسپایدر جایگزین می‌شوند.

FEEDS = {
    'data/%(name)s/%(name)s_%(time)s.jsonl': {'format': 'jsonlines'}
}

مثال نتیجه: data/bookspider/bookspider_2022-05-18T07-47-03.jsonl

بچ‌بندی فایل‌ها (batch_item_count)

برای تقسیم داده به قطعات مساوی از کلید batch_item_count استفاده کنید و یکی از placeholderهای %(batch_time)s یا %(batch_id)d را در نام فایل قرار دهید.

FEEDS = {
    'data/%(name)s/%(name)s_batch_%(batch_id)d.jsonl': {
        'format': 'jsonlines',
        'batch_item_count': 10
    }
}

با این تنظیم هر فایل حداکثر ۱۰ آیتم خواهد داشت و Scrapy هنگام رسیدن به حد جدید یک فایل جدید می‌سازد.

گزینه‌های تکمیلی و نکات عملکردی

مهم‌ترین کلیدهایی که ارزش تنظیم دارند:

encoding: مشخص کردن انکدینگ خروجی (مثلاً 'utf8').
fields: لیست فیلدهایی که می‌خواهید صادر شوند تا فقط دادهٔ لازم ذخیره شود.
item_classes و item_filter: برای محدود کردن نوع آیتم‌هایی که صادر می‌شوند.
indent: برای خواناتر کردن JSON های کوچک.
store_empty: آیا خروجی خالی باید ذخیره شود یا نه.
postprocessing: پلاگین‌های پس‌پردازشی مانند فشرده‌سازی یا ارسال به سرویس‌های ثالث.
item_export_kwargs: برای کنترل جزئیات export مثل export_empty_fields.

نکات عملکرد و امنیت:

برای دادهٔ بزرگ از JSON Lines و batch_item_count استفاده کنید تا حافظه را کنترل کنید.
احراز هویت برای S3/GCS را از طریق متغیرهای محیطی یا سرویس مدیریت اسرار نگه‌دارید؛ هرگز کلیدها را در ریپوزیتوری قرار ندهید.
برای خروجی‌های بحرانی، از تنظیم overwrite=False و نام‌گذاری داینامیک یا بررسی وجود فایل قبل از نوشتن استفاده کنید.
اگر سرعت تولید آیتم از سرعت نوشتن بیشتر شد، از صف‌ها یا سیستم ذخیره‌سازی همزمان استفاده کنید تا از افت یا از دست رفتن داده جلوگیری کنید.

جمع‌بندی

خلاصهٔ عملی: برای پروژه‌های کوچک می‌توانید با -o/-O شروع کنید، اما برای کنترل دقیق و production از FEEDS استفاده کنید. برای حجم‌های بالا همیشه jsonlines و batch_item_count را در نظر بگیرید، تنظیمات encoding و fields را استفاده کنید و کلیدهای محرمانه را ایمن نگه دارید.