مقدمه
در این مقاله قدمبهقدم میفهمیم چگونه با Scrapy یک اسپایدر بسازیم که «نظرات محصول» در Amazon را اسکریپ کند. هدف این راهنما تولید خروجی قابل استفاده (CSV/DB)، عبور از صفحات نظرات (pagination)، مدیریت بلاک و مانیتورینگ است. در پایانِ این مقاله شما: 1) ساختار یک اسپایدر برای پیدا کردن صفحه محصول و استخراج نظرات را میدانید، 2) روش ذخیرهسازی داده و پیکربندی FEEDS را بلدید، و 3) با روشهای معمول عبور از محافظتهای ضدبات آشنا میشوید.
ایده کلی و استراتژی
چالش اصلی در اسکریپ کردن نظرات Amazon این است که دسترسی مستقیم به مسیر «product-reviews» معمولاً به ریدایرکت لاگین یا صفحات محافظتشده منجر میشود. راه حل پایدارتر این است که ابتدا از صفحهٔ جستجو (search) برای پیدا کردن آدرس واقعی محصول استفاده کنیم و سپس صفحهٔ نظرات آن محصول را دنبال کنیم. این روش باعث میشود آدرس صحیح محصول را گرفته و ریدایرکتهای محافظتی را دور بزنیم.
سرمایهگذاری اولیه: لیست ASIN و ساخت URL جستجو
ورودی اصلی اسپایدر، فهرستی از ASIN است. به ازای هر ASIN ابتدا یک درخواست به صفحهٔ جستجو میفرستیم تا لینک محصول در نتایج را استخراج کنیم. سپس با آن لینک به صفحهٔ نظرات میرویم.
مثال کامل اسپایدر (نمونه پایتون)
import scrapy
from urllib.parse import urljoin
class AmazonReviewsSpider(scrapy.Spider):
name = 'amazon_reviews'
def start_requests(self):
# ورودی: لیست ASINها
asin_list = ['B09G9FPHY6']
AMAZON_BASE = 'AMAZON_BASE_URL' # مقدار واقعی را در پروژه قرار دهید
for asin in asin_list:
# ساخت URL جستجو؛ این رشتهها نمونه هستند و باید با دامنه واقعی جایگزین شوند
search_url = f"{AMAZON_BASE}/s?k={asin}"
yield scrapy.Request(url=search_url,
callback=self.discover_product_urls,
meta={'asin': asin, 'page': 1})
def discover_product_urls(self, response):
# ورودی: response صفحهٔ نتایج جستجو
# خروجی: درخواست به صفحهٔ محصول (که به parse_reviews متصل است)
asin = response.meta['asin']
# انتخاب نتایج جستجو؛ سلکتورها ممکن است بسته به قالب صفحه تغییر کنند
search_products = response.css('div.s-result-item[data-component-type=s-search-result]')
for product in search_products:
relative_url = product.css('a::attr(href)').get()
if not relative_url:
continue
product_url = urljoin('AMAZON_BASE_URL', relative_url).split('?')[0]
yield scrapy.Request(url=product_url,
callback=self.parse_reviews,
meta={'asin': asin, 'retry_count': 0})
def parse_reviews(self, response):
# ورودی: response صفحهٔ محصول یا صفحهٔ نظرات
# خروجی: آیتمهای دیکشنری هر نظر
asin = response.meta.get('asin')
# انتخاب عناصر نظر؛ سلکتورها را براساس HTML واقعی صفحه تطبیق دهید
review_elements = response.css('li[data-hook="review"]')
for review_element in review_elements:
product_data = {
'asin': asin,
'text': ''.join(review_element.css('span[data-hook=review-body] ::text').getall()).strip(),
'title': review_element.css('*[data-hook=review-title]>span::text').get(),
'location_and_date': review_element.css('span[data-hook=review-date] ::text').get(),
'verified': bool(review_element.css('span[data-hook=avp-badge-linkless] ::text').get()),
'rating': review_element.css('*[data-hook*=review-star-rating] ::text').re_first(r"(\d+\.*\d*)")
}
# نقش هر بخش:
# - asin: ASIN ورودی تا مرجع را نگه داریم
# - text: متن کامل نظر، با حذف فاصلههای اضافی
# - title: عنوان نظر
# - location_and_date: متن تاریخ/مکان
# - verified: بولین برای نشان دادن اینکه خرید تاییدشده است یا خیر
# - rating: نمره عددی استخراجشده از متن
print(product_data) # برای دیباگ؛ در تولیدی میتوانید این را حذف کنید
yield product_data
# مدیریت صفحهبندی: اگر لینک صفحهٔ نظرات بعدی وجود داشت، آن را دنبال کنید
next_page = response.css('ul.a-pagination li.a-last a::attr(href)').get()
if next_page:
next_url = urljoin('AMAZON_BASE_URL', next_page)
yield scrapy.Request(url=next_url, callback=self.parse_reviews, meta={'asin': asin})توضیح مرحلهای کد:
- start_requests: ورودیها — لیست ASIN؛ خروجی — درخواستهایی به صفحهٔ جستجو برای هر ASIN.
- discover_product_urls: ایده — از نتایج جستجو URL محصول را استخراج کند و درخواست جدیدی به آن بفرستد. در این مرحله رفع ابهامات ناشی از ریدایرکت انجام میشود.
- parse_reviews: عناصر مربوط به هر نظر را جمعآوری و یک دیکشنری خروجی تولید میکند؛ سپس اگر لینک صفحهٔ بعدی وجود داشت ادامه میدهد.
- نکته: سلکتورهای CSS بسته به منطقه، زبان و تغییرات صفحه ممکن است متفاوت باشند؛ همواره با inspector مرورگر خود، سلکتورها را تست کنید.
نکات مهم دربارهٔ pagination و پایداری
صفحات نظرات معمولاً به صورت صفحهای ارائه میشوند؛ برای پوشش کامل باید لینک «بعدی» را دنبال کنید. اگر API یا پارامترهای جاوااسکریپتی وجود دارد که صفحهبندی را کنترل میکنند، میتوان از rendering با headless browser یا از آن پارامترها استفاده کرد.
برای پایداری بهتر:
- حداکثر تلاش (retry) را به ازای هر درخواست کنترل کنید و از backoff نمایی استفاده کنید.
- درخواستها را با محدودیت نرخ (rate limit) و تأخیر تصادفی ارسال کنید تا الگوهای انسانی تقلید شود.
- حواستان به تغییرات DOM باشد و تستهای خودکار برای سلکتورها بنویسید.
ذخیرهسازی: پیکربندی FEEDS در settings.py
با قابلیت Feed Export در Scrapy میتوانید خروجی را مستقیم به فایل CSV، JSON یا به سیستمی مانند S3 ارسال کنید. نمونهٔ پیکربندی ساده:
FEEDS = {
'data/%(name)s_%(time)s.csv': {'format': 'csv'},
}توضیح: این تنظیم هنگام اجرای اسپایدر یک فایل در پوشهٔ data میسازد که نام آن شامل نام اسپایدر و زمان اجراست. برای ارسال به S3 یا دیتابیس باید تنظیمات مخصوص آن سرویس و کلیدها را در پروژه اضافه کنید (در محیطهای تولیدی از متغیرهای محیطی برای نگهداری کلیدهای محرمانه استفاده کنید).
عبور از محافظتهای ضدبات (Anti-bot)
Amazon از مکانیزمهای مختلف برای تشخیص باتها استفاده میکند: نرخ درخواست، کپچا، fingerprint مرورگر و ریدایرکتهای لاگین. چند راهکار عملی:
- استفاده از پراکسیهای چرخشی (rotating proxies) تا IP تغییر کند.
- چرخش User-Agent و هدرهای مرورگر برای هر درخواست.
- در صورت نیاز رندر کردن جاوااسکریپت با headless browser و مدیریت cookie/session.
- پیادهسازی تشخیص بن شدن (ban detection) و منطق آبشاری برای پراکسیها.
نمونهٔ دستور آزمایشی برای تست پروکسی (از نامگذاری جایگزین برای URLها استفاده کنید):
curl "PROXY_API_ENDPOINT?api_key=YOUR_API_KEY&url=TARGET_URL"نکته امنیتی: هرگز کلیدهای API را در کد منبع عمومی قرار ندهید؛ از متغیرهای محیطی یا سرویسهای مدیریت اسرار استفاده کنید.
ادغام با پکیجهای پروکسی و مانیتورینگ
اگر از یک SDK یا middleware آماده استفاده میکنید (مثلاً یک Proxy SDK برای Scrapy)، معمولاً به این شکل آن را در settings.py فعال میکنید:
SCRAPEOPS_API_KEY = 'YOUR_API_KEY'
SCRAPEOPS_PROXY_ENABLED = True
DOWNLOADER_MIDDLEWARES = {
'scrapeops_scrapy_proxy_sdk.scrapeops_scrapy_proxy_sdk.ScrapeOpsScrapyProxySdk': 725,
}برای مانیتورینگ نیز میتوانید یک اکستنشن اضافه کنید تا لاگها و متریکها به داشبورد ارسال شوند:
EXTENSIONS = {
'scrapeops_scrapy.extension.ScrapeOpsMonitor': 500,
}
DOWNLOADER_MIDDLEWARES.update({
'scrapeops_scrapy.middleware.retry.RetryMiddleware': 550,
'scrapy.downloadermiddlewares.retry.RetryMiddleware': None,
})توضیح: با این تنظیمات، منطق retry و پروکسی از SDK استفاده میکند و دادههای مانیتورینگ ارسال میشود. مقداردهی صحیح اولویتها (اعداد) مهم است؛ ترتیب اجرای میدلورها به این مقادیر وابسته است.
مدیریت خطا، همزمانی و performance
برای بهینهسازی عملکرد و کاهش ریسک بن شدن:
- مقادیر CONCURRENT_REQUESTS و DOWNLOAD_DELAY را تنظیم کنید.
- برای هر پراکسی نرخ مجاز جداگانه در نظر بگیرید.
- از پردازش استریم (streaming) برای نوشتن مستقیم به فایل/DB استفاده کنید تا حافظه مصرف نشود.
- در صورتی که نیاز به پردازش متن (NLP، sentiment) بعد از جمعآوری دارید، آن را در یک خط لولهی جدا اجرا کنید تا اسکریپر سبک بماند.
اجرای لوکال و در کلود؛ زمانبندی
برای اجرا در محیط تولید، اسپایدر را روی سرور یا سرویس زمانبندیشده اجرا کنید. راهکارهای معمول:
- اجرای دورهای با Cron یا job scheduler داخلی سرویس ابری
- استفاده از سرویسهای CI/CD یا job schedulers که اجرا و مانیتورینگ را یکپارچه میکنند
نکتهی عملی: ابتدا اجرای آزمایشی با حجم کم و مانیتورینگ کامل راهاندازی کنید و سپس تعداد همزمانی و دفعات اجرا را افزایش دهید تا رفتار محافظتهای سایت مشخص شود.
نکات اخلاقی و حقوقی
هنگام اسکریپ کردن دادهها به قوانین مالکیت محتوا، شرایط استفاده سایت و حریم خصوصی کاربران توجه کنید. برای دسترسی خودکار در مقیاس بالا بهتر است از API رسمی (در صورت وجود) استفاده کنید یا مجوزهای لازم را کسب کنید.
جمعبندی
این راهنما یک مسیر عملی برای اسکریپ کردن نظرات Amazon با Scrapy نشان داد: از استفاده از ASINها و جستجو برای کشف آدرس محصول تا استخراج نظرات، مدیریت صفحهبندی، ذخیرهسازی خروجی و عبور از مکانیزمهای ضدبات. توصیههای کلیدی: سلکتورهای خود را مرتباً تست کنید، از پراکسی و چرخش هدرها استفاده کنید، خروجی را با FEEDS مدیریت کنید و مانیتورینگ برای پایداری تولیدی فراهم کنید. با رعایت این موارد میتوانید یک pipeline قابل اتکا برای اسکریپ کردن نظرات بسازید.




