خانه/مقالات/اسکرپینگ وب چیست؟ یک توضیح ساده و بامزه برای همه
وب اسکریپینگ
وب‌کراولینگ
برگشت به صفحه مقاله ها
اسکرپینگ وب چیست؟ یک توضیح ساده و بامزه برای همه

اسکرپینگ وب چیست؟ یک توضیح ساده و بامزه برای همه

با مثال‌های روزمرهٔ ایرانی می‌فهمیم اسکرپینگ یعنی چه، به چه درد می‌خورد، و چطور با رعایت ادب اینترنتی انجامش دهیم.
امیر حسین حسینیان
امیر حسین حسینیان
1404-06-27

اسکرپینگ وب چیست؟

فرض کن می‌خواهی قیمت زعفران را از چند فروشگاه آنلاین چک کنی، چند خبر کوتاه دربارهٔ تیم محبوبت جمع کنی، یا لیستی از کافه‌های یک محله داشته باشی. اگر این کار را دستی انجام دهی، باید دانه‌دانه سایت‌ها را باز کنی، بخوانی و یادداشت کنی. اسکرپینگ وب یعنی همین کارِ جمع‌آوری اطلاعات را با کمک یک «ربات کوچک» به شکل خودکار انجام بدهیم؛ رباتی که صفحات را می‌بیند، متن‌ها و عددها را برمی‌دارد و برایمان مرتب می‌کند.

 

اسکرپینگ به زبان خیلی ساده

اسکرپینگ مثل «سبدچیـدن در بازار» است. تو به بازار تجریش یا بازار بزرگ می‌روی، از هر مغازه کمی اطلاعات برمی‌داری: قیمت پسته، زرشک، چای… بعد کنار هم می‌گذاری تا تصمیم بگیری. در دنیای وب هم ربات‌ها همین کار را می‌کنند: صفحه را می‌آورند (دانلود می‌کنند) و تکه‌های لازم را جدا می‌کنند تا تبدیل به یک جدول یا فایل مرتب شود.

 

فرق اسکرپینگ با کراولینگ

گاهی این دو تا قاطی می‌شوند. کراولینگ یعنی گشتنِ ربات بین لینک‌ها و پیدا کردن صفحه‌های جدید (مثل قدم‌زدن در بازار و سرزدن به همهٔ کوچه‌ها). اسکرپینگ یعنی از همان صفحه‌ها اطلاعات مشخص برداشتن (مثل نوشتن قیمت یا آدرس روی کاغذ). معمولاً این دو دست در دست هم‌اند؛ اول می‌گردیم، بعد برداشت می‌کنیم.

اسکرپینگ دقیقاً به چه درد می‌خورد؟

  • مقایسهٔ قیمت‌ها: از بلیت پرواز تا لوازم خانگی؛ با چند منبع کنار هم تصمیم بهتری می‌گیری.
  • رصد خبر و محتوا: تیترهای مهم را جمع می‌کند تا سریع مرور کنی.
  • پژوهش و تحلیل: دادهٔ خام از سایت‌های عمومی جمع می‌شود تا تبدیل به گزارش و نمودار شود.
  • به‌روزرسانی فهرست‌ها: مثلاً لیست رستوران‌های یک محله یا نمایشگاه‌های هنری.

چه چیزهایی نیست؟

اسکرپینگ «هک کردن» نیست؛ قفل نمی‌شکند و وارد بخش‌های خصوصی نمی‌شود. اسکرپینگ خوب، سراغ اطلاعاتی می‌رود که عمومی دیده می‌شوند و با رعایت قوانین سایت‌ها انجام می‌شود. اگر جایی ورود با رمز لازم است یا محتوایی کپی‌رایت سخت دارد، این‌ها حوزهٔ اسکرپینگِ سالم نیستند.

چهار قانون طلایی «ادب اینترنتی» در اسکرپینگ

  1. اول قوانین را ببین: فایل robots.txt و شرایط استفادهٔ سایت را نگاه کن. این فایل معمولاً می‌گوید کدام بخش‌ها را ربات‌ها می‌توانند ببینند و با چه سرعتی.
  2. فشار نیاور: بین درخواست‌ها فاصله بگذار؛ مثل مشتریی که پشت سر هم ده‌ها پرسش نمی‌پرسد.
  3. منصف باش: اگر سایت API یا خروجی مرتب دارد، از همان استفاده کن؛ تمیزتر و محترمانه‌تر است.
  4. حق مؤلف را رعایت کن: اگر می‌خواهی محتوای متنی را بازنشر کنی، به منبع اشاره کن یا اجازه بگیر.

نمونه‌های روزمرهٔ «ایرانی‌پسند»

  • جمع‌کردن قیمت لبنیات یا آجیل از چند فروشگاه آنلاین برای یک خرید ماهانهٔ بهینه.
  • فهرست‌کردن رویدادهای فرهنگی تهران در آخر هفته، از چند سایت گوناگون.
  • چک‌کردن قیمت بلیت‌های مسیرهای پرتردد مثل تهران–مشهد برای پیدا کردن بازه‌های به‌صرفه.

 

ابزارها را فقط اسم ببریم (بدون دردسر فنی)

اگر روزی خواستی وارد فاز عملی شوی، اسم چند ابزار محبوب را داشته باش: برای صفحات ساده، برنامه‌نویس‌ها معمولاً از ترکیب Requests و BeautifulSoup استفاده می‌کنند؛ برای صفحات پویا (که با جاوااسکریپت ساخته می‌شوند)، سراغ Selenium می‌روند؛ و اگر پروژه بزرگ شد، فریم‌ورک Scrapy کمک می‌کند همه‌چیز مرتب و حرفه‌ای پیش برود. لازم نیست الان کدنویسی بدانی؛ فقط بدان هرکدام برای چه موقعیتی به‌درد می‌خورند.

یک سناریو خیالی، اما ملموس

تصور کن می‌خواهی لیست کافه‌های یک محله را با آدرس و ساعت کاری داشته باشی. ربات کوچک تو به یک صفحهٔ فهرست می‌رود، هر کافه را باز می‌کند، نام و آدرس و امتیاز را برمی‌دارد و در یک جدول جمع می‌کند. اگر سایت اجازه داده باشد، این کار هر روز یا هر هفته تکرار می‌شود تا لیست همیشه تازه بماند.

سؤالات رایج کوتاه

 

۱) آیا اسکرپینگ قانونی است؟
پاسخ کوتاه: بستگی دارد. اگر از صفحات عمومی با رعایت قوانین و بدون سوءاستفاده برداشت کنی، معمولاً مشکلی نیست؛ اما همیشه باید شرایط استفادهٔ سایت و حقوق محتوا را چک کنی. در صورت تردید، حتماً از یک مشاور حقوقی کمک بگیر.

 

۲) آیا اسکرپینگ به سایت‌ها آسیب می‌زند؟
اگر بی‌ملاحظه و پرسرعت عمل کند، بله؛ سرورها را خسته می‌کند. اما با سرعت منطقی، فاصله‌گذاری و احترام به robots.txt، هم تو به هدفت می‌رسی و هم میزبان اذیت نمی‌شود.

 

۳) آیا همهٔ سایت‌ها اجازه می‌دهند؟
خیر. بعضی سایت‌ها صراحتاً محدودیت می‌گذارند یا مسیرهای خاص را برای ربات‌ها می‌بندند. بعضی‌ها هم API رسمی می‌دهند تا کار تمیزتر انجام شود.

 

چرا این همه حساسیت؟

روزبه‌روز اطلاعات بیشتری در وب منتشر می‌شود و کسب‌وکارها به داده حساس‌ترند. بعضی‌ها از اسکرپینگ برای کارهای نادرست مثل کپی محتوای دیگران یا جمع‌کردن داده‌های حساس استفاده می‌کنند و همین باعث می‌شود میزبان‌ها مراقب‌تر شوند. پس اگر کارِ خوب و شفاف انجام دهیم، فضا برای همه سالم‌تر می‌ماند.

 

جمع‌بندیِ خیلی خلاصه

اسکرپینگ یعنی جمع‌کردن خودکارِ اطلاعات از وب برای تصمیم‌گیری بهتر. مثل خرید هوشمندانه با یک فهرست مرتب. راه و رسمش ساده است اما ادب اینترنتی دارد: قوانین را بخوان، آرام حرکت کن، از مسیرهای رسمی استقبال کن و به حقوق دیگران احترام بگذار. اگر روزی خواستی فنی‌تر شوی، ابزارهای محبوب هم کنارت هستند؛ اما تا آن موقع همین شناخت ساده، برای شروع کافی است.

مقاله‌های مرتبط