ذخیره‌سازی در اسکریپینگ با Scrapy

مقدمه

این مقاله عملی و مرحله‌به‌مرحله به شما نشان می‌دهد چطور داده‌های استخراج‌شده با Scrapy را ذخیره کنید. پس از خواندن این مطلب می‌دانید چه روش‌هایی برای خروجی‌گیری (فایل‌های CSV/JSON، S3، یا پایگاه‌داده) وجود دارد، چه نکات امنیتی و عملکردی را باید رعایت کنید و چگونه یک Item Pipeline برای ذخیره در MySQL یا PostgreSQL بنویسید.

استفاده از Feed Exporters

Scrapy به‌صورت داخلی قابلیت‌هایی برای صادر کردن خروجی دارد که به آن‌ها «Feed Exporters» گفته می‌شود. این قابلیت برای خروجی‌های سریع و یک‌بار‌مصرف بسیار مناسب است.

فرمت‌های رایج خروجی: JSON، CSV، XML و pickle.
محل ذخیره: فایل محلی، FTP، Amazon S3، Google Cloud Storage یا استاندارد خروجی (stdout).

Feed Exporter مناسب کارهای ساده یا زمانی است که نیاز به پردازش پیچیده روی هر آیتم ندارید. برای منطق ذخیره‌سازی پیشرفته‌تر از Item Pipelines استفاده کنید.

ذخیره به فرمت JSON یا CSV

برای کارهای ساده و یک‌باره می‌توانید از فلگ‌های خط فرمان استفاده کنید. توجه کنید بین -o و -O تفاوت وجود دارد: -o به خروجی اضافه می‌کند (append) و -O فایل را بازنویسی (overwrite) می‌کند.

مثال ذخیره به JSON:

scrapy crawl chocolatespider -o my_scraped_chocolate_data.json

مثال ذخیره با مسیر کامل و نوع مشخص:

scrapy crawl chocolatespider -O file:///path/to/project/my_scraped_chocolate_data.json:json

ذخیره به CSV:

scrapy crawl chocolatespider -o my_scraped_chocolate_data.csv
# یا با مسیر کامل
scrapy crawl chocolatespider -O file:///path/to/project/my_scraped_chocolate_data.csv:csv

نکات عملی:

اگر تعداد زیادی آیتم دارید و حافظه مهم است، از فرمت jsonlines (.jl) استفاده کنید تا هر آیتم در یک خط ذخیره شود و نیازی به بارگذاری کل لیست در حافظه نباشد.
برای فایل‌های CSV به encoding (معمولاً UTF-8) و علامت‌گذاری کاراکترها توجه کنید تا کاراکترهای فارسی و نمادها به‌درستی ذخیره شوند.

ذخیره مستقیم به Amazon S3

برای ارسال خروجی مستقیم به S3 باید یکی از کتابخانه‌های AWS مثل botocore یا boto3 را نصب کنید. با این کار می‌توانید URI مقصد را با قالب s3:// مشخص کنید. مثال نصب:

pip3 install botocore

مثال اجرای کرال و ارسال خروجی به S3 (پارامترها را با مقادیر خودتان جایگزین کنید):

scrapy crawl chocolatespider -O s3://AWS_KEY:AWS_SECRET@mybucket/path/myscrapeddata.csv:csv

روش امن‌تر: ذخیره کردن کلیدها در فایل تنظیمات پروژه:

AWS_ACCESS_KEY_ID = 'myaccesskeyhere'
AWS_SECRET_ACCESS_KEY = 'mysecretkeyhere'

هشدارهای امنیتی و عملکردی:

هرگز کلیدها را در ریپازیتوری عمومی قرار ندهید؛ بهتر است از متغیرهای محیطی (Environment Variables) یا نقش‌های IAM (در صورت اجرای روی EC2 یا سرویس‌های مدیریت‌شده) استفاده کنید.
Feed Exporter برای S3 از delayed file delivery استفاده می‌کند: ابتدا فایل محلی ساخته می‌شود و پس از پایان اجرا به S3 آپلود می‌شود؛ پس در صورت کرش یا قطع شدن فرایند موقتاً فایل ممکن است ناقص باشد.

ذخیره در MySQL: Item Pipeline گام‌به‌گام

برای ذخیره در پایگاه‌داده بهتر است از Item Pipelines استفاده کنید تا هر آیتم هنگام استخراج، پردازش و ذخیره شود. مراحل کلی:

نصب درایور مربوطه (mysql-connector-python یا هر درایور مناسب).
ایجاد جدول در پایگاه‌داده.
نوشتن کلاس Pipeline با متدهای create_connection، process_item و ذخیره‌ساز.

نمونه DDL برای ایجاد جدول (مثال):

CREATE TABLE IF NOT EXISTS chocolate_products (
    id INT AUTO_INCREMENT PRIMARY KEY,
    name VARCHAR(255),
    price VARCHAR(255),
    url TEXT
);

نمونه پیاده‌سازی ساده Pipeline برای MySQL (پارامترها را از متغیرهای محیطی بخوانید؛ هرگز مقادیر را هاردکد نکنید):

import mysql.connector
import os

class SavingToMySQLPipeline(object):
    def __init__(self):
        self.create_connection()

    def create_connection(self):
        # ورودی‌ها: پارامترهای اتصال از محیط یا settings
        self.connection = mysql.connector.connect(
            host=os.getenv('DB_HOST', 'localhost'),
            user=os.getenv('DB_USER', 'root'),
            password=os.getenv('DB_PASS', ''),
            database=os.getenv('DB_NAME', 'chocolate_scraping')
        )
        self.curr = self.connection.cursor()

    def process_item(self, item, spider):
        # این متد توسط Scrapy برای هر آیتم صدا زده می‌شود
        self.store_db(item)
        return item

    def store_db(self, item):
        # استفاده از query پارامتری برای جلوگیری از SQL injection
        sql = "INSERT INTO chocolate_products (name, price, url) VALUES (%s, %s, %s)"
        values = (item.get('name'), item.get('price'), item.get('url'))
        self.curr.execute(sql, values)
        self.connection.commit()

توضیح خط‌ها:

create_connection: اتصال به DB را برقرار می‌کند؛ بهتر است از متغیرهای محیطی استفاده کنید.
process_item: نقطه ورود Scrapy که مسئول فوروارد آیتم به تابع ذخیره است و در پایان باید آیتم را بازگرداند.
store_db: اجرای دستور INSERT به‌صورت پارامتری و commit برای ثبت تغییرات.

نکات عملی برای MySQL:

برای بارگذاری تعداد زیاد آیتم، از batch insert (جمع‌آوری چند آیتم و insert گروهی) استفاده کنید تا عملکرد بهتری داشته باشید.
در سناریوهای حساس به تأخیر، استفاده از صف (مثلاً Redis یا Kafka) و سپس مصرف‌کننده‌ای برای نوشتن در DB می‌تواند پایایی را افزایش دهد.

ذخیره در PostgreSQL: Pipeline و تفاوت‌ها

برای PostgreSQL باید درایور psycopg2 را نصب کنید و در queryها دقت کنید که placeholderها در psycopg2 هم از %s استفاده می‌کنند.

pip install psycopg2

نمونه اتصال و pipeline برای PostgreSQL:

import psycopg2
import os

class SavingToPostgresPipeline(object):
    def __init__(self):
        self.create_connection()

    def create_connection(self):
        self.connection = psycopg2.connect(
            host=os.getenv('DB_HOST', 'localhost'),
            database=os.getenv('DB_NAME', 'chocolate_scraping'),
            user=os.getenv('DB_USER', 'postgres'),
            password=os.getenv('DB_PASS', '')
        )
        self.curr = self.connection.cursor()

    def process_item(self, item, spider):
        self.store_db(item)
        return item

    def store_db(self, item):
        try:
            self.curr.execute(
                "INSERT INTO chocolate_products (name, price, url) VALUES (%s, %s, %s)",
                (item.get('name'), item.get('price'), item.get('url'))
            )
            self.connection.commit()
        except Exception as e:
            # لاگ‌برداری خطا و rollback در صورت لزوم
            print(e)
            self.connection.rollback()

نکات خاص PostgreSQL:

برای بارگذاری بالا، استفاده از COPY یا کتابخانه‌هایی مثل psycopg2.extras.execute_batch می‌تواند کارایی را به‌طور قابل‌توجهی افزایش دهد.
در عملیات حساس به سازگاری داده، از تراکنش‌ها و rollback استفاده کنید.

مدیریت Pipelines و تنظیمات

پس از نوشتن Pipeline فراموش نکنید آن را در settings.py ثبت کنید تا Scrapy آن را اجرا کند. مثال:

ITEM_PIPELINES = {
    'chocolatescraper.pipelines.PriceToUSDPipeline': 100,
    'chocolatescraper.pipelines.DuplicatesPipeline': 200,
    'chocolatescraper.pipelines.SavingToMySQLPipeline': 300,
}

ترتیب عددی مشخص‌کننده اولویت اجرا است؛ عدد پایین‌تر زودتر اجرا می‌شود.

نکات عملکردی، امنیتی و پایداری

هرگز رمز عبور یا کلیدها را در کد هاردکد نکنید؛ از متغیرهای محیطی یا سرویس‌های مدیریت محرمانگی استفاده کنید.
برای جریان‌های داده با حجم بالا از batching، queue، یا سرویس‌های استریم استفاده کنید تا فشار روی پایگاه‌داده کاهش یابد.
در عملیات نوشتن به S3 یا DB، مدیریت خطا (retries با backoff)، لاگ‌گیری و بررسی وضعیت نهایی را پیاده کنید تا از از دست رفتن داده جلوگیری شود.
از اتصال‌های پایدار یا connection pool استفاده کنید تا سربار ایجاد و بستن اتصال به حداقل برسد.

جمع‌بندی و قدم‌های بعدی

خلاصه: اگر نیاز به خروجی ساده دارید از Feed Exporter استفاده کنید؛ برای منطق ذخیره‌سازی پیچیده، پاکسازی پیشرفته یا ذخیره در DB بهتر است از Item Pipelines بهره ببرید. برای ارسال به S3 از کتابخانه AWS مناسب و مکانیسم‌های امن نگهداری کلیدها استفاده کنید. در نهایت عملکرد و پایداری را با batching، retry و استفاده از نقش‌های IAM/متغیرهای محیطی بهبود دهید.

قدم بعدی منطقی شما می‌تواند مدیریت User-Agentها، پراکسی‌ها و استقرار (deployment) کرال‌ها باشد تا ربات‌تان در محیط تولیدی پایدار و امن اجرا شود.

خدمات