مقدمه
اسکرپینگ وب در سال ۲۰۲۵ بیش از هر زمان دیگری به دو چیز نیاز دارد: انتخاب ابزار درست و استفادهی هدفمند. اگر دنبال استخراج سریع چند فیلد از صفحهای ساده هستید، نیازی نیست یک مرورگر کامل را بالا بیاورید. اگر با وباپلیکیشنی پویا طرفید که محتوایش پس از اجرای جاوااسکریپت بارگذاری میشود، کتابخانههای پارس ساده کافی نیستند. و اگر پروژهتان به دهها یا صدها هزار صفحه در روز میرسد، چارچوبی میخواهید که مدیریت صف، خطا، کش، و موازیسازی را بهصورت ساختاریافته انجام دهد.
در این راهنما سه ابزار شاخص پایتون را مرور میکنیم: Scrapy برای خزش مقیاسپذیر، Beautiful Soup برای پارس سادهی HTML (معمولاً همراه با Requests/HTTPX)، و Playwright برای رندر سمتکاربر و تعاملات پیچیده. معیارهای انتخاب، موارد استفادهی ایدهآل، مزایا و معایب هرکدام، و در انتها یک نقشهی تصمیمگیری ارائه میشود.
چطور انتخاب کنیم؟ معیارهای کلیدی
- ماهیت صفحه: استاتیک است یا برای نمایش داده نیاز به اجرای جاوااسکریپت دارد؟
- حجم و مقیاس: چند صفحه در ساعت/روز؟ نیاز به صفبندی، ذخیرهسازی و مانیتورینگ دارید؟
- پیچیدگی استخراج: فقط چند انتخابگر CSS ساده یا فرایندی با ورود/کلیک/اسکرول و چند مرحله؟
- زمان توسعه: آیا باید سریع یک Proof of Concept بسازید یا پروژهای پایدار و بلندمدت میخواهید؟
- پایداری و نگهداشت: ابزار، افزونه و جامعهی کاربری بالغ دارد؟
۱) Scrapy: چارچوب تخصصی خزش در مقیاس بالا
Scrapy یک فریمورک کامل برای خزش وب و استخراج داده است. نکتهی کلیدی آن این است که تنها یک کتابخانهی «پارس» نیست؛ بلکه همهچیز را از مدیریت درخواستها، اولویتبندی، کش، پایپلاینهای پاکسازی و خروجیگرفتن از دادهها تا میانافزارها برای هدرها و پروکسیها پوشش میدهد. برای پروژههای دادهمحور، پایدار و بزرگ انتخاب ایدهآل است.
چه زمانی از Scrapy استفاده کنیم؟ وقتی دهها/صدها هزار URL دارید، باید سرعت و مقاومت در برابر خطا بالا باشد، و میخواهید منطق استخراج در ساختاری تمیز و قابلآزمون بماند.
مزایا:
- مقیاسپذیری و کارایی بالا با معماری غیرهمزمان.
- پایپلاینهای داخلی برای پاکسازی/اعتبارسنجی داده و خروجیهای JSON/CSV/SQL.
- میانافزارها برای ریتلیمیت، چرخش User-Agent/پروکسی، کش، و مدیریت خطا.
محدودیتها: رندر JS بهصورت پیشفرض ندارد (برای صفحات پویا معمولاً نیاز به ادغام با ابزارهای رندر مانند Playwright یا Splash دارید). منحنی یادگیری نسبت به کتابخانههای سبک بیشتر است.
نمونهکد کوتاه Scrapy
# نصب:
# pip install scrapy
# ساخت پروژه:
# scrapy startproject quotes
# cd quotes
# scrapy genspider quotes_spider quotes.toscrape.com
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes_spider"
start_urls = ["https://quotes.toscrape.com/"]
def parse(self, response):
for q in response.css(".quote"):
yield {
"text": q.css(".text::text").get(),
"author": q.css(".author::text").get(),
"tags": q.css(".tag::text").getall(),
}
next_page = response.css("li.next a::attr(href)").get()
if next_page:
yield response.follow(next_page, callback=self.parse)
این ساختار از همان ابتدا شما را به سمت یک معماری «قابل نگهداشت» هدایت میکند؛ چیزی که در پروژههای بزرگ ارزش طلایی دارد.
۲) Beautiful Soup (بههمراه Requests/HTTPX): بهترین انتخاب برای کارهای سبک و سریع
Beautiful Soup کتابخانهای است برای پارس HTML/XML که با نحو ساده و Pythonic نوشتن انتخابگرها و ناوبری در درخت DOM را آسان میکند. بهتنهایی درخواست HTTP نمیفرستد، بنابراین معمولاً همراه با requests یا httpx استفاده میشود.
چه زمانی از BS4 استفاده کنیم؟ وقتی صفحه استاتیک است (یا HTML نهایی بهسادگی در پاسخ برمیگردد)، استخراج چند فیلد محدود دارید، و میخواهید سریع نمونه اولیه بسازید یا تکهاسکریپتهای کوچک داشته باشید.
مزایا:
- یادگیری فوقالعاده سریع و API بسیار خوانا.
- تحمل HTMLهای معیوب و ارائهی توابع کارآمد برای جستوجو و پیمایش.
- ابزار ایدهآل برای اسکریپتهای یکباره یا پردازش آفلاین اسنپشاتهای HTML.
محدودیتها: برای حجم بالا طراحی نشده، مدیریت صف/بازپخش/کش داخلی ندارد، و رندر JS انجام نمیدهد.
نمونهکد کوتاه Beautiful Soup
# نصب:
# pip install beautifulsoup4 requests
import requests
from bs4 import BeautifulSoup
resp = requests.get("https://example.com/blog")
soup = BeautifulSoup(resp.text, "html.parser")
items = []
for card in soup.select(".post-card"):
items.append({
"title": card.select_one("h2").get_text(strip=True),
"url": card.select_one("a")["href"],
"summary": card.select_one(".excerpt").get_text(strip=True)
})
print(items)
اگر بعداً حجم بالا رفت، میتوانید همین منطق انتخابگرها را بهراحتی درون یک Spider در Scrapy منتقل کنید.
۳) Playwright: رندر کامل برای صفحات پویا و تعاملات پیچیده
Playwright در اصل ابزار اتوماسیون مرورگر است (Chromium/Firefox/WebKit) که در حالت هدلس هم اجرا میشود. برای صفحاتی که داده پس از اجرای JS و درخواستهای XHR/Fetch ظاهر میشود—یا وقتی باید دکمهای کلیک، اسکرول بینهایت مدیریت، یا فرمی ارسال کنید—Playwright انتخابی قدرتمند است.
چه زمانی از Playwright استفاده کنیم؟ وقتی محتوای هدف بدون اجرای JS در HTML اولیه نیست، یا نیاز به شبیهسازی رفتار کاربر (کلیک، تایپ، انتظار برای سلکتور) دارید.
مزایا:
- رندر واقعی DOM و اجرای کامل JS؛ مناسب وباپهای مدرن.
- API تمیز برای انتظارهای صریح (explicit waits)، مدیریت تبها و مسیرهای شبکه.
- پشتیبانی از مرورگرهای مختلف و حالت هدلس.
محدودیتها: سنگینتر و کندتر از رویکردهای بدون مرورگر است؛ نیاز به منابع بیشتر دارد. برای مقیاس بالا معمولاً باید صفبندی، کانتینرسازی و مدیریت همزمانی را جداگانه طراحی کنید.
نمونهکد کوتاه Playwright
# نصب:
# pip install playwright
# playwright install
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch(headless=True)
page = browser.new_page()
page.goto("https://example.com/app", wait_until="networkidle")
# مثال: ورود و استخراج داده
# page.fill("#username", "user"); page.fill("#password", "pass"); page.click("text=Login")
page.wait_for_selector(".row")
data = [el.inner_text() for el in page.query_selector_all(".row .title")]
print(data)
browser.close()
جدول مقایسهی سریع
- سادگی شروع: Beautiful Soup > Playwright > Scrapy
- مقیاس و مدیریت پروژه: Scrapy > Playwright > Beautiful Soup
- صفحات JS-محور: Playwright > (ادغام Scrapy+Playwright) > Beautiful Soup
- سرعت/هزینه اجرا برای صفحات ساده: Beautiful Soup > Scrapy > Playwright
الگوی تصمیمگیری پیشنهادی
- اول بررسی کنید آیا داده در HTML اولیه موجود است. اگر بله، از Beautiful Soup شروع کنید.
- اگر حجم/تناوب زیاد شد یا چندین منبع دارید، منطق استخراج را به Scrapy منتقل کنید تا از صف، پایپلاین و مانیتورینگ بهره ببرید.
- اگر داده فقط پس از اجرای JS ظاهر میشود یا تعاملات پیچیده لازم است، Playwright را وارد کنید؛ در صورت نیاز آن را با Scrapy ادغام کنید (مثلاً رندر URLهای خاص).
بهترین شیوهها (Best Practices)
- قانونی و اخلاقی: شرایط استفادهی وبسایت و سیاست دادهها را بخوانید. به
robots.txtاحترام بگذارید و نرخ درخواستها را کنترل کنید. این متن مشاورهی حقوقی نیست. - پایداری: برای خطاهای موقتی استراتژی Retry/Backoff داشته باشید. لاگگیری شفاف و مانیتورینگ اضافه کنید.
- کارایی: کش پاسخها، محدودکردن همزمانی متناسب با سرور مقصد، و استفاده از انتخابگرهای دقیق CSS/XPath بهجای پردازش سنگین.
- ضدرباتها: چرخش User-Agent/پروکسی، فاصلهگذاری انسانی بین درخواستها، و پرهیز از الگوهای رفتاری رباتگونه. در Playwright از انتظارهای صریح و رویدادمحور استفاده کنید.
- کیفیت داده: اعتبارسنجی فیلدها در پایپلاین Scrapy، مدیریت نالها و یکتاسازی رکوردها قبل از ذخیره.
- ذخیرهسازی: خروجی JSON/CSV برای سادهسازی، یا مستقیماً به پایگاهداده/پیامصف (Kafka, RabbitMQ) در پروژههای بزرگ.
نمونه معماری عملی
برای یک خزندهی قیمت فروشگاهها: با BS4 نمونه کوچک بزنید، بعد با Scrapy به چندین دامنه توسعه دهید، سیستم صف و ذخیرهسازی خروجی را اضافه کنید، و تنها برای صفحاتی که محتوای قیمت با JS رندر میشود Playwright را وارد کنید. این رویکرد هزینهی اجرا را پایین نگه میدارد و در عین حال پوشش کامل میدهد.
نکات ریز اما مؤثر
- در Scrapy از AutoThrottle و کش دیسکی استفاده کنید تا فشار بر سرور مقصد کاهش یابد.
- در BS4، قبل از پارس، HTML را با
lxmlبهعنوان پارسر سریعتر کنید (pip install lxml). - در Playwright، از
wait_for_selectorیا"wait_until="networkidleاستفاده کنید تا با DOM پایدار کار کنید.
جمعبندی
یک قاعدهی ساده اما قدرتمند: ساده شروع کنید، فقط در صورت نیاز پیچیده شوید. Beautiful Soup برای اسکریپتهای سبک و سریع، Scrapy برای سیستمهای بالغ و در مقیاس، و Playwright برای جاوااسکریپت و تعاملات پیچیده. با ترکیب هوشمندانهی این سه، تقریباً تمام سناریوهای متداول اسکرپینگ وب را پوشش میدهید.





