مقدمه
در این مقاله قدمبهقدم میخواهیم یک اسپایدر عملی با Scrapy بسازیم تا پروفایلهای عمومی شرکتها در LinkedIn را استخراج کند. اگر توسعهدهنده پایتون در سطح متوسط هستید، پس از خواندن این راهنما باید بتوانید:
- اسپایدری بسازید که فیلدهای کلیدی شرکت را بخواند.
- با مشکلات رایج بلاک و fingerprinting آشنا شوید و استراتژیهای مقابله را پیاده کنید.
- اسپایدر را مانیتور و در محیطهای ابری زمانبندی کنید.
ایده کلی و ساخت اسپایدر پایه
ایده ساده است: فهرستی از آدرسهای پروفایل شرکت داشته باشیم، برای هر آدرس یک درخواست ارسال کنیم و در پاسخ HTML، با response.css دادهها را استخراج کنیم. در عمل باید با مواردی مثل المانهای گمشده، تغییرات ساختاری صفحه و محدودیت سرعت نیز برخورد کنیم.
import scrapy
class LinkedCompanySpider(scrapy.Spider):
name = 'linkedin_company_profile'
# فهرست اولیه آدرسهای شرکت (ورودی)
company_pages = [
'https://www.linkedin.com/company/usebraintrust/',
'https://www.linkedin.com/company/centraprise/',
]
def start_requests(self):
# هر URL را درخواست میکنیم؛ میتوانید هدر، کوکی یا روتر پراکسی را اینجا اضافه کنید
for url in self.company_pages:
yield scrapy.Request(url=url, callback=self.parse_response, meta={'source_url': url})
def parse_response(self, response):
# خروجی: یک دیکشنری با فیلدهای شرکت
company_item = {}
# فیلدهای پایه
company_item['name'] = response.css('.top-card-layout__entity-info h1::text').get(default='').strip()
company_item['summary'] = response.css('.top-card-layout__entity-info h4 span::text').get(default='').strip()
try:
details = response.css('.core-section-container__content .mb-2')
company_item['industry'] = details[1].css('.text-md::text').getall()[1].strip()
company_item['size'] = details[2].css('.text-md::text').getall()[1].strip()
company_item['founded'] = details[5].css('.text-md::text').getall()[1].strip()
except Exception:
# بررسیها و هشدارها؛ در تولید بهتر است لاگ و metric ارسال شود
self.logger.warning('Some company fields missing for %s', response.url)
yield company_item
توضیح اجزای مهم:
- start_requests: ورودیها (فهرست URL) را میگیرد و درخواستها را ایجاد میکند. میتوانید در اینجا هدرها (مانند User-Agent)، کوکیها یا پراکسی را تنظیم کنید.
- parse_response: پاسخ HTML را دریافت و با селکتورهای CSS مقادیر را استخراج میکند. خروجی یک دیکشنری است که قابل ذخیره در JSON Lines یا پایگاه داده است.
- خطاها: از تلاش برای دسترسی ایندکسهای خارج از محدوده پرهیز کنید و از get(default='') استفاده کنید تا Null-safe باشد.
نکات عملی برای استخراج دقیقتر
چند توصیه مهم که عملکرد و پایداری اسپایدر را بالا میبرد:
- قبل از انتشار، ساختار صفحه را با چند نمونه بررسی کنید؛ گاهی ایندکسها یا کلاسها تغییر میکنند.
- خروجیها را در فرمت قابل ایندکس نگه دارید؛ مثلاً JSON Lines برای وارد کردن به دیتابیس راحت است.
- برای دادههای حجیم از استریم نتایج به فایل یا سرویس ابری استفاده کنید تا حافظه کنترل شود.
- همیشه فرض کنید بعضی فیلدها موجود نیستند؛ لاگ و متریک برای این حالات ثبت کنید.
نمونه خروجی
{
'name': 'Braintrust',
'summary': 'Braintrust is the first decentralized Web3 talent network ...',
'industry': 'Software Development',
'size': '11-50 employees',
'founded': '2018'
}
مقابله با سیستمهای ضدربات LinkedIn
LinkedIn از ترکیبی از کنترل IP، هدرها، fingerprinting مرورگر و CAPTCHA برای شناسایی رباتها استفاده میکند. برای کاهش احتمال بلاک شدن میتوانید از ترکیب راهکارهای زیر استفاده کنید:
- پراکسیهای چرخشی با کیفیت (ترجیحاً residential/mobile) تا تغییر IP و توزیع درخواستها.
- چرخاندن User-Agent و دیگر هدرهای مرورگر به همراه تطابق با کوکیها و رفتار واقعی مرورگر.
- استفاده از headless browser (مثل Playwright یا Puppeteer) با پروفایلهای واقعی و تاخیرهای انسانی برای رندرهای جاوااسکریپتدار.
- پیادهسازی backoff و محدودیت نرخ درخواست (rate limiting) و تنظیمات concurrency در Scrapy.
- تشخیص بلاک (مثلاً برگشت صفحه لاگین یا صفحه CAPTCHA) و ثبت متریک برای تحلیل.
اگر نخواهید همه این موارد را خودتان پیاده کنید، میتوانید از راهکارهای پراکسیِ هوشمند استفاده کنید که مدیریت روتیشن، تشخیص بن و بایپس CAPTCHA را تسهیل میکنند. برای تست سریع، یک نمونه درخواست curl به API پراکسی میتواند به شکل زیر باشد:
curl 'https://proxy.example.io/v1/?api_key=YOUR_API_KEY&url=https://www.linkedin.com/in/reidhoffman/'
برای ادغام پراکسی با Scrapy معمولاً یک Downloader Middleware نصب و فعال میشود؛ همچنین باید کلید API و تنظیمات مرتبط را در محیط یا فایل تنظیمات نگهداری کنید.
پلاگینها و تنظیمات نمونه (پراکسی و مانیتورینگ)
نمونهای از نصب بستهها و تنظیمات اولیه در settings.py:
pip install scrapeops-scrapy
pip install scrapeops-scrapy-proxy-sdk
# settings.py (نمونه)
SCRAPEOPS_API_KEY = 'YOUR_API_KEY'
SCRAPEOPS_PROXY_ENABLED = True
DOWNLOADER_MIDDLEWARES = {
'scrapeops_scrapy_proxy_sdk.scrapeops_scrapy_proxy_sdk.ScrapeOpsScrapyProxySdk': 725,
}
EXTENSIONS = {
'scrapeops_scrapy.extension.ScrapeOpsMonitor': 500,
}
# در صورت نیاز، جایگزین کردن RetryMiddleware برای گزارشگیری بهتر
DOWNLOADER_MIDDLEWARES.update({
'scrapeops_scrapy.middleware.retry.RetryMiddleware': 550,
'scrapy.downloadermiddlewares.retry.RetryMiddleware': None,
})
توضیح: در نمونه بالا SCRAPEOPS_API_KEY را از متغیر محیطی یا سیستم مدیریت اسرار بارگذاری کنید تا کلید در کد ذخیره نشود.
مانیتورینگ اسپایدر
مانیتورینگ در تولید بسیار مهم است: خطاهای 4xx/5xx، نرخ موفقیت صفحهها، میانگین زمان پاسخ و نرخ تبدیل (pages → items) را مانیتور کنید. ابزارهای مانیتورینگ مخصوص Scrapy میتوانند این متریکها را جمعآوری و هشدار ارسال کنند.
- همه لاگها و exception ها را با سطح مناسب ثبت کنید.
- متریکهای سفارشی (مثلاً count of CAPTCHAs) تولید کنید و به داشبورد بفرستید.
- برای هشدار از Threshold و نرخ افزایشی خطا استفاده کنید تا قبل از گسترده شدن مشکل مطلع شوید.
اجرای اسپایدر و زمانبندی در کلود
برای تولید معمولاً اسپایدر را در سرور یا سرویسهای ابری اجرا و زمانبندی میکنند. گزینهها:
- اجرای دورهای در یک سرور با cron یا systemd timers.
- کانتینرایز کردن با Docker و اجرای آن در کلاستر یا سرویسهای زمانبندی شغلی.
- استفاده از سرویسهای Job Scheduler که اجرا، مانیتور و لاگ را مدیریت میکنند.
مثال اجرای محلی:
scrapy crawl linkedin_company_profile
نکات عملی برای اجرا در کلود:
- کلیدهای API و اسرار را از طریق متغیر محیطی یا سرویسهای مدیریت اسرار تزریق کنید.
- نتایج را به صورت قابل بازیابی ذخیره کنید: JSON Lines، پایگاه داده رابطهای یا ذخیرهساز شیء مثل S3.
- مکانیسمهای idempotency و deduplication برای جلوگیری از پردازش تکراری اضافه کنید (مثلاً با چک کردن URL یا شناسه یونیک).
- مقیاسپذیری: محدودیتهای API و ظرفیت پراکسی را در طراحی لحاظ کنید و از صفها برای کنترل نرخ استفاده کنید.
جمعبندی
در این راهنما یک اسپایدر پایه برای استخراج پروفایلهای عمومی شرکت در LinkedIn با Scrapy نوشتیم، به روشهای مقابله با سیستمهای ضدربات پرداختیم و نکات عملی برای مانیتورینگ و عملیات در کلود را مرور کردیم. مهمترین نکات:
- ابتدا اسپایدر را ساده و مستحکم بسازید (خطایاب و لاگگذاری) و سپس قابلیتهای پیچیدهتر مثل پراکسی و headless browser را اضافه کنید.
- برای مقابله با بلاک، از پراکسیهای با کیفیت، چرخش هدر و رفتار شبیهسازی مرورگر استفاده کنید.
- مانیتورینگ و مدیریت اسرار را فراموش نکنید—این موارد در محیط تولید تفاوت زیادی ایجاد میکنند.
اگر میخواهید، میتوانم نسخهای از این اسپایدر را طوری تغییر دهم که خروجی در PostgreSQL یا یک فایل NDJSON بنویسد، یا نشان دهم چطور Playwright را برای رندر جاوااسکریپت به جریان کاری اضافه کنید.




