خانه/مقالات/وب اسکریپینگ با Pyppeteer و پراکسی‌ها
استخراج داده
پروکسی و چرخش IP
Playwright
برگشت به صفحه مقاله ها
وب اسکریپینگ با Pyppeteer و پراکسی‌ها

وب اسکریپینگ با Pyppeteer و پراکسی‌ها

در این راهنما یاد می‌گیرید چگونه در اسکریپرهای Pyppeteer از پراکسی‌های ساده، احراز هویت‌شده و proxy port استفاده کنید؛ همراه با مثال‌های پایتون، نکات امنیتی، روش‌های عیب‌یابی و توصیه‌های عملکردی برای ساخت اسکریپ‌های پایدارتر در وب اسکریپینگ.
امیر حسین حسینیان
امیر حسین حسینیان
1404-11-24

مقدمه

در این مقاله یاد می‌گیریم چگونه در یک اسکریپر مبتنی بر Pyppeteer از پراکسی‌ها استفاده کنیم. هدف این راهنما طراحی اسکریپ‌های قابل‌اعتمادتر است: از افزودن یک پراکسی ساده تا استفاده از پراکسی‌های احراز هویت‌شده و ادغام با پروکسی‌‌APIها (proxy port). در پایان این مطلب شما قادر خواهید بود پراکسی را به مرورگر سرنشین‌شده توسط Pyppeteer اضافه کنید، احراز هویت را تنظیم کنید، و نکات عملی مربوط به performance، خطاها و امنیت را رعایت نمایید.

ایده‌ی کلی و چک‌لیست گام‌ها

  • پراکسی ساده: اضافه کردن --proxy-server به آرگومان‌های launch.
  • پراکسی احراز هویت‌شده: پس از ساخت صفحه با page.authenticate نام‌کاربری/رمز را ارسال کنید.
  • پراکسی API مقابل proxy port: در صورت وجود از پورت پراکسی استفاده کنید تا مشکل لینک‌های نسبی حل شود.

پراکسی HTTP ساده (بدون احراز هویت)

اگر پراکسی فقط یک آدرس IP:PORT دارد و نیاز به نام‌کاربری/رمز ندارد، ساده‌ترین روش اضافه کردن آن به لیست آرگومان‌های launch است. مثال زیر یک اسکریپ پایهٔ پایتون نشان می‌دهد:

import asyncio
from pyppeteer import launch

proxy_url = '11.456.448.110:8080'
launch_options = {
    'args': [f'--proxy-server={proxy_url}']
}

async def main():
    browser = await launch(launch_options)
    page = await browser.newPage()
    await page.goto('https://httpbin.org/ip')
    page_content = await page.evaluate('() => document.body.innerText')
    print(page_content)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

توضیح کد:

  • proxy_url: آدرس پراکسی به صورت IP:PORT یا host:port. این ورودی توسط آرگومان --proxy-server به کروم داده می‌شود.
  • launch_options: دیکشنری‌ای که هنگام launch به Pyppeteer پاس داده می‌شود؛ مهم‌ترین قسمت همین لیست args است.
  • در main ابتدا مرورگر را راه‌اندازی می‌کنیم، یک صفحه جدید می‌سازیم، به یک سرویس تستی می‌رویم و خروجی IP را می‌خوانیم.
  • خروجی: صفحهٔ httpbin نشان می‌دهد درخواست‌ها از آدرس پراکسی ارسال شده‌اند.

پراکسی‌های احراز هویت‌شده (username/password)

برای سرویس‌هایی که نیاز به احراز هویت دارند، باز هم --proxy-server را استفاده می‌کنیم اما قبل از درخواست به وب‌سایت باید page.authenticate را فراخوانی کنیم تا مرورگر بتواند با آن پراکسی لاگین کند.

import asyncio
from pyppeteer import launch

proxy_url = '201.88.548.330:8080'
username = 'PROXY_USERNAME'
password = 'PROXY_PASSWORD'
launch_options = {
    'args': [f'--proxy-server={proxy_url}']
}

async def main():
    browser = await launch(launch_options)
    page = await browser.newPage()
    await page.authenticate({'username': username, 'password': password})
    await page.goto('https://httpbin.org/ip')
    print(await page.evaluate('() => document.body.innerText'))
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

شرح نکات فنی و امنیتی:

  • page.authenticate باید قبل از درخواست‌هایی که به اینترنت می‌زنید انجام شود، تا کروم هنگام برقراری اتصال پراکسی، هدرهای احراز هویت را ارسال کند.
  • نام‌کاربری و رمز را هرگز در سورس کنترل ذخیره نکنید؛ از متغیرهای محیطی یا سرویس‌های مدیریت secret استفاده کنید.
  • در برخی پیاده‌سازی‌ها، اگر پراکسی از نوع NTLM یا پروتکل‌های خاص دیگری استفاده کند، ممکن است نیاز به پیکربندی اضافه یا استفاده از یک لایهٔ میانی (مانند یک proxy agent) داشته باشید.

ادغام Proxy APIها و تفاوت proxy port با endpoint

چندین سرویس پراکسی امروزه یک API هوشمند فراهم می‌کنند که روتیشن، تشخیص بن و retry را مدیریت می‌کند. این سرویس‌ها معمولا دو روش می‌دهند: ارسال درخواست به یک endpoint یا اتصال به یک پورت پراکسی.

مشکل اصلی استفاده از endpoint مستقیم با مرورگرهای headless زمانی رخ می‌دهد که سایت از لینک‌های نسبی استفاده می‌کند؛ Pyppeteer ممکن است آدرس نسبی را به آدرس endpoint متصل کند و صفحه درست لود نشود. به همین دلیل، اگر سرویس پراکسی، گزینهٔ proxy port را دارد، آن را ترجیح دهید چون مثل یک پراکسی سنتی عمل می‌کند و کمتر با مسائل لینک نسبی درگیر می‌شوید.

import asyncio
from pyppeteer import launch

proxy_url = 'proxy.scrapeops.io:5353'  # مثال proxy port
SCRAPEOPS_API_KEY = 'YOUR_API_KEY'
launch_options = {
    'args': [f'--proxy-server={proxy_url}']
}

async def main():
    browser = await launch({**launch_options, 'ignoreHTTPSErrors': True})
    page = await browser.newPage()
    # نام‌کاربری معمول برای این نوع ادغام ممکن است ثابت باشد
    await page.authenticate({'username': 'scrapeops', 'password': SCRAPEOPS_API_KEY})
    await page.goto('https://httpbin.org/ip')
    print(await page.evaluate('() => document.body.innerText'))
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

نکتهٔ مهم: هنگام کار با برخی proxy APIها نیاز است که ignoreHTTPSErrors: true تنظیم شود تا اشکالات گواهی‌نامهٔ SSL که به‌خاطر واسط پراکسی ایجاد می‌شود، مانع لود صفحه نشوند.

نکات عملی، بهینه‌سازی و رفع خطا

  • Retry و backoff: برای درخواست‌های شکست‌خورده از استراتژی retry با افزایش تاخیر (exponential backoff) استفاده کنید تا از بلوکه شدن‌های موقتی جلوگیری شود.
  • همزمانی: اگر قصد دارید چند تب/instance همزمان باز کنید، پهنای باند، میزان اتصال به پراکسی و نرخ درخواست‌ها را کنترل کنید تا سرویس پراکسی دچار throttle نشود.
  • هدرها و fingerprint: پراکسی به تنهایی کافی نیست؛ برای فرار از تشخیص بهتر است هدرهای مرورگر و رفتار (mouse, viewport, timeouts) را شبیه مرورگر واقعی کنید.
  • لاگ‌گیری: لاگ IPهای خروجی، وضعیت پاسخ و زمان پاسخ را ثبت کنید تا در صورت بروز بن یا خطا سریع تشخیص دهید مشکل از پراکسی است یا خود سایتِ هدف.
  • مدیریت secrets: کلیدها و رمزها را در متغیر محیطی یا سرویس مدیریت کلید ذخیره کنید، نه در کد منبع.

موارد رایج خطا و نحوهٔ عیب‌یابی

  1. صفحه لود نمی‌شود یا لینک‌های نسبی مشکل دارند: از proxy port استفاده کنید یا یک درخواست اولیه بدون تغییر مسیر نسبی بسازید.
  2. احراز هویت پراکسی خطا می‌دهد: مطمئن شوید page.authenticate قبل از فراخوانی page.goto اجرا شده و رمز/نام‌کاربری صحیح است.
  3. خطاهای SSL: از ignoreHTTPSErrors: true فقط در شرایط لازم استفاده کنید و پیامدهای امنیتی آن را درک کنید.
  4. سرعت پایین یا زمان‌بر بودن پاسخ: محدودیت همزمانی را کم کنید، یا از pool پراکسی بزرگتری استفاده کنید.

جمع‌بندی و توصیه‌ها

اضافه کردن پراکسی به Pyppeteer در اغلب موارد کافی‌ست برای تغییر IP خروجی و کاهش احتمال بن شدن، اما برای پایداری بالا ترکیب چند تکنیک لازم است: استفاده از proxy port زمانی که در دسترس است، مدیریت همزمانی، پیاده‌سازی retry/ backoff و نگهداری امن کلیدها. همیشه قبل از اجرای گسترده، سناریوهای real-world را با چند آدرس تست کنید تا رفتار سایت هدف تحت پراکسی را بشناسید.

نکات سریع برای اجرا:

  • برای پراکسی ساده: --proxy-server کافی است.
  • برای پراکسی احراز هویت: از page.authenticate استفاده کنید.
  • اگر سرویس پراکسی API دارد و مشکل لینک نسبی دارید، از proxy port استفاده کنید.
  • رمزها را امن نگه دارید و از لاگ‌گیری هوشمند برای عیب‌یابی بهره ببرید.

با رعایت این اصول می‌توانید اسکریپ‌های Pyppeteer قابل‌اعتمادتری بنویسید که هم از نظر پایداری و هم از نظر امنیت مناسب‌تر باشند.

مقاله‌های مرتبط
مدیریت پروکسی و چرخش IP
1404-10-03
راهنمای سریع اسکریپ با پراکسی در Node.js
در این راهنمای تازه و عملی یاد می‌گیرید چگونه پراکسی‌ها را در Node.js با کتابخانه‌هایی مانند Node-Fetch، Got، Axios، Request-Promise و SuperAgent به کار ببرید، روش‌های احراز هویت و سه فرمت رایج پراکسی (لیست چرخشی، درگاه، API) را ادغام کنید و نکات لازم برای پایدارسازی، مانیتورینگ و امنیت را اجرا کنید.
مدیریت پروکسی و چرخش IP
1404-09-21
گام‌به‌گام: ساخت و سفارشی‌سازی پروکسی با Node-Unblocker برای وب اسکریپینگ
در این راهنمای فارسی و فنی یاد می‌گیرید چگونه با Node-Unblocker یک پروکسی شخصی برای وب اسکریپینگ بسازید، آن را مستقر کنید، یک شبکهٔ پراکسی بسازید و با استفاده از میان‌افزارها درخواست‌ها و پاسخ‌ها را سفارشی‌سازی و بهینه کنید. همچنین بهترین‌روش‌های امنیتی، مقیاس‌پذیری و نکات عیب‌یابی مطرح شده‌اند.
مدیریت پروکسی و چرخش IP
1404-09-18
راهنمای عملی وب اسکریپینگ با پراکسی در Java — OkHttp و Apache HttpClient
این راهنمای فارسی جامع نشان می‌دهد چگونه در پروژه‌های Java با استفاده از OkHttp و Apache HttpClient پراکسی‌ها را یکپارچه، احراز هویت کنید و در سه فرم رایج (لیست IP، گیت‌وی و API) آن‌ها را مدیریت و چرخش دهید — همراه با مثال‌های کد، نکات امنیتی، مدیریت خطا و بهترین‌روش‌های عملی.