وب اسکریپینگ با Playwright و پراکسی در NodeJS

مقدمه

این مقاله به‌صورت عملی توضیح می‌دهد چطور در یک اسکریپر NodeJS مبتنی بر Playwright از پراکسی‌ها استفاده کنید. بعد از مطالعهِ مقاله خواهید دانست چه انواع پراکسی‌ای وجود دارد، چگونه پراکسی ساده یا دارای احراز هویت را به chromium.launch اضافه کنید، چرا برخی «APIهای پراکسی» با مرورگرهای هدلس مشکل دارند و چه نکات عملی برای پایداری، امنیت و عملکرد باید رعایت شود.

انواع پراکسی و انتخاب روش

پیش از شروع کدنویسی بهتر است انواع پراکسی را بشناسید:

پراکسی ساده HTTP(S) بدون احراز هویت (IP:PORT)
پراکسی با username و password (معمول در سرویس‌های تجاری)
پراکسی‌های «API/Smart» که به‌جای پورت مستقیم یک endpoint HTTP ارائه می‌کنند (معمولاً با rotation و ban-detection)

برای اسکریپ‌های مبتنی بر مرورگر، بهترین گزینه زمانی که فراهم است، استفاده از «پورت پراکسی» است زیرا مرورگرها هنگام مواجهه با آدرس‌های نسبی در صفحه ممکن است endpointهای API را به‌اشتباه به عنوان مبنا در نظر بگیرند و برخی منابع صفحه لود نشوند.

پراکسی ساده (بدون احراز هویت)

فرض کنید یک پراکسی ساده مانند 11.456.448.110:8080 دارید. برای اضافه کردن آن به Playwright کافی است در launchOptions شیء proxy را ست کنید:

const { chromium } = require('playwright');

const PROXY_SERVER = 'http://11.456.448.110:8080';

const launchOptions = {
  proxy: { server: PROXY_SERVER }
};

(async () => {
  const browser = await chromium.launch(launchOptions);
  const page = await browser.newPage();
  await page.goto('https://httpbin.org/ip');
  const pageContent = await page.textContent('body');
  console.log(pageContent);
  await browser.close();
})();

توضیح ورودی/خروجی و نقش توابع:

PROXY_SERVER: آدرس پراکسی به‌صورت 'http://IP:PORT' یا 'IP:PORT'.
launchOptions.proxy.server: به Playwright می‌گوید ترافیک مرورگر از چه پراکسی‌ای عبور کند.
chromium.launch: مرورگر را با گزینه‌های مشخص‌شده راه‌اندازی می‌کند؛ خروجی یک شیء browser است.
page.goto: صفحه را بارگذاری می‌کند؛ اگر پراکسی کار کند، درخواست از طریق آن ارسال می‌شود.

نکته: برای فایرفاکس کافی است chromium را با firefox جایگزین کنید و از firefox.launch استفاده کنید.

پراکسی با احراز هویت (username/password)

سرویس‌های تجاری اغلب یک نقطهٔ ورود واحد می‌دهند و احراز هویت را از طریق نام کاربری و رمز عبور انجام می‌دهند. ساختار کد شبیه حالت قبل است، اما فیلدهای username و password را اضافه می‌کنیم:

const { chromium } = require('playwright');

const proxyUrl = '11.456.448.110:8080';
const proxyUsername = 'PROXY_USERNAME';
const proxyPassword = 'PROXY_PASSWORD';

const launchOptions = {
  proxy: {
    server: proxyUrl,
    username: proxyUsername,
    password: proxyPassword
  }
};

(async () => {
  const browser = await chromium.launch(launchOptions);
  const page = await browser.newPage();
  await page.goto('https://httpbin.org/ip');
  const pageContent = await page.textContent('body');
  console.log(pageContent);
  await browser.close();
})();

توضیحات خط به خط (خلاصه):

تعریف آدرس پراکسی و اطلاعات کاربری.
قرار دادن این اطلاعات داخل launchOptions.proxy.
راه‌اندازی مرورگر؛ Playwright هنگام برقراری اتصال از این credentials استفاده می‌کند.

ادغام Proxy APIها و تفاوت Port vs Endpoint

بعضی ارائه‌دهندگان پراکسی، یک API هوشمند ارائه می‌دهند که خودش rotation، بررسی بن و retry را انجام می‌دهد. این APIها معمولاً یک URL endpoint دارند. مسئله این است که وقتی مرورگر صفحه‌ای با لینک‌های نسبی دریافت می‌کند، Playwright ممکن است آن لینک‌ها را نسبت به آدرس پراکسی (endpoint) تفسیر کند و منابع صفحه درست لود نشوند.

راه‌حل: اگر ارائه‌دهنده پورت پراکسی (proxy port) ارائه می‌دهد، از آن استفاده کنید تا مرورگر مانند یک پراکسی معمولی عمل کند و آدرس‌های نسبی به درستی کار کنند. به عنوان مثال، در حالت پورت شما همانند نمونه‌های بالا آدرس proxy را به شکل 'proxy.example.io:5353' به launchOptions.proxy.server می‌دهید و نام کاربری/کلید API را در فیلد password قرار می‌دهید.

// مثال ادغام با proxy port و کلید API
const { chromium } = require('playwright');

const proxyUrl = 'proxy.scrapeops.io:5353';
const SCRAPEOPS_API_KEY = 'YOUR_API_KEY';

const launchOptions = {
  ignoreHTTPSErrors: true, // بعضی proxyها نیاز به نادیده گرفتن خطاهای SSL دارند
  proxy: {
    server: proxyUrl,
    username: 'scrapeops',
    password: SCRAPEOPS_API_KEY
  }
};

(async () => {
  const browser = await chromium.launch(launchOptions);
  const page = await browser.newPage();
  await page.goto('https://httpbin.org/ip');
  const pageContent = await page.textContent('body');
  console.log(pageContent);
  await browser.close();
})();

نکته SSL: بعضی proxyهای API برای هدایت ترافیک نیاز دارند که خطاهای گواهی‌نامهٔ TLS نادیده گرفته شوند (ignoreHTTPSErrors: true). این را فقط وقتی که مطمئن هستید به سرویس‌های قابل اعتماد متصل می‌شوید فعال کنید.

نکات عملی برای پایداری، خطاها و عملکرد

برای پروژه‌های واقعی این موارد را در نظر بگیرید:

Rotation و Pools: از مجموعه‌ای از پراکسی‌ها استفاده کنید تا ریسک بن‌شدن کاهش یابد.
Session‌ و کوکی‌ها: برای هر session یا user یک context جداگانه بسازید تا ایزولاسیون کوکی و cache داشته باشید (browser.newContext).
Retry و backoff: در مقابل خطاهای شبکه یا 5xx از retry با exponential backoff استفاده کنید.
Rate limiting: سرعت درخواست‌ها را کنترل کنید تا از throttling سمت سرور جلوگیری شود.
Timeout و cleanup: برای جلوگیری از منابع بلااستفاده، timeout مناسب برای page.goto و زمان‌بندی بستن مرورگر تعیین کنید.

نمونهٔ ساده برای wrapper retry که می‌توانید هنگام page.goto استفاده کنید:

async function withRetries(fn, attempts = 3, delay = 1000) {
  let lastErr;
  for (let i = 0; i < attempts; i++) {
    try {
      return await fn();
    } catch (err) {
      lastErr = err;
      const wait = delay * Math.pow(2, i); // exponential backoff
      await new Promise(r => setTimeout(r, wait));
    }
  }
  throw lastErr;
}

// استفاده:
await withRetries(() => page.goto('https://example.com'), 4, 500);

نکات امنیتی و مدیریت کلیدها

چند اصل مهم:

کلیدهای API و رمزهای پراکسی را در متغیرهای محیطی نگه دارید، نه در کد منبع.
دسترسی‌ها را محدود کنید و در صورت امکان از سرویس‌های مدیریت اسرار (vault) استفاده کنید.
هنگام استفاده از ignoreHTTPSErrors: true احتیاط کنید؛ تنها زمانی فعال شود که به endpoint مورد اعتماد متصل هستید.

موارد پیشرفته و مقایسه روش‌ها

وقتی انتخاب بین استفاده از پراکسی‌ها روی پورت و استفاده از API دارید، عوامل زیر را در نظر بگیرید:

سازگاری با مرورگرها: پورت پراکسی معمولاً با لینک‌های نسبی و منابع داخلی صفحات سازگارتر است.
کارایی و تاخیر: بعضی APIها ممکن است لایه‌های اضافی داشته باشند؛ تست عملکرد انجام دهید.
قابلیت‌هایی مثل هوشمندسازی retry و تشخیص بن: APIها این امکانات را ارائه می‌دهند اما باید مطمئن باشید که با مرورگر هماهنگ‌اند.

جمع‌بندی

اضافه کردن پراکسی به اسکریپرهای Playwright کاری مستقیم است: کافی است launchOptions.proxy را تنظیم کنید. برای پراکسی‌های احراز هویت فیلدهای username و password را اضافه کنید و در صورت استفاده از proxy APIها، تا جای ممکن از پورت پراکسی استفاده کنید تا مشکلات لینک‌های نسبی پیش نیاید. در نهایت، مدیریت خطا، rotation، و حفاظت از کلیدها، نقش کلیدی در پایداری و امنیت اسکریپر شما دارند.