خانه/مقالات/مقایسه و راهنمای عملی ۶ پارسر HTML برای C#/.NET
وب اسکریپینگ
استخراج داده
برگشت به صفحه مقاله ها
مقایسه و راهنمای عملی ۶ پارسر HTML برای C#/.NET

مقایسه و راهنمای عملی ۶ پارسر HTML برای C#/.NET

این مقاله شش پارسر HTML محبوب در اکوسیستم C#/.NET را معرفی و مقایسه می‌کند، همراه با مثال‌های کد، توضیح ورودی/خروجی و نکات عملی در مورد عملکرد، امنیت و بهترین‌روش‌ها برای وب اسکریپینگ. با خواندن راهنما می‌توانید بر اساس نیاز (سازگاری با HTML خراب، پشتیبانی CSS، سرعت یا مصرف حافظه) مناسب‌ترین ابزار را انتخاب و آن را به‌صورت ایمن و پایدار در پروژه‌تان به‌کار بگیرید.
امیر حسین حسینیان
امیر حسین حسینیان
1404-09-11

مقدمه

در این مقاله تمرکز روی کتابخانه‌ها و ابزارهای رایج برای پردازش و استخراج محتوا از صفحات HTML در اکوسیستم C#/.NET است. هدف این راهنما این است که به عنوان یک توسعه‌دهندهٔ پایتون سطح متوسط (با تجربهٔ برنامه‌نویسی) بتوانید انتخابی آگاهانه برای پروژه‌های وب اسکریپینگ خود داشته باشید: از استخراج سادهٔ داده تا سناریوهای پیچیدهٔ سازگاری با HTML5 و CSS3. در پایان هر بخش مثال کدی، توضیح ورودی/خروجی و نکات عملی دربارهٔ عملکرد، مدیریت خطا و امنیت خواهید دید.

مرور اجمالی و معیارهای مقایسه

در عمل انتخاب پارسر بر اساس چند معیار انجام می‌شود: پایداری در برابر HTML خراب (malformed)، پشتیبانی از انتخابگرهای CSS یا XPath، تطابق با استانداردهای مدرن، سرعت و مصرف حافظه، سهولت استفاده و میزان نگهداری (active maintenance). لیست پارسرهایی که بررسی می‌کنیم:

  • HtmlAgilityPack
  • CsQuery
  • AngleSharp
  • HtmlParserSharp
  • Fizzler (CSS selector engine)
  • NSoup

در ادامه هر گزینه را معرفی، کد نمونه و نکات عملی را می‌آوریم و در انتها جمع‌بندیِ تصمیم‌گیری خواهیم داشت.

HtmlAgilityPack

HtmlAgilityPack یک کتابخانهٔ قدیمی و محبوب است که حالتی tolerant نسبت به HTML خراب دارد و از XPath و LINQ پشتیبانی می‌کند. برای اسکریپ کردن صفحات نامنظم یا گرفتن بخش‌های مشخص (مثلاً المان‌هایی که تگ‌ها درست بسته نشده‌اند) انتخاب مناسبی است.

using HtmlAgilityPack;
using System;
public static void Main()
{
    var url = "https://quotes.toscrape.com/";
    var web = new HtmlWeb();
    var doc = web.Load(url);
    var quotes = doc.DocumentNode.SelectNodes("//div[@class='quote']");
    foreach (var quote in quotes)
    {
        var text = quote.SelectSingleNode(".//span[@class='text']");
        Console.WriteLine(text.InnerText);
    }
}

توضیح کوتاه:

  • ورودی: url به‌صورت رشته.
  • خروجی: چاپ متن هر quote روی کنسول.
  • نقش هر تابع: HtmlWeb.Load سند HTML را دانلود و به DOM تبدیل می‌کند؛ SelectNodes با XPath المان‌ها را انتخاب می‌کند.

نکات خط‌به‌خط: ابتدا HTML بارگذاری می‌شود، سپس با XPath المان‌های مورد نظر انتخاب و متن داخلی استخراج می‌گردد. اگر SelectNodes برنگردد باید null-check انجام دهید تا NullReferenceException نگیرید.

نکات عملی و محدودیت‌ها:

  • مزیت: تحمل HTML نامنظم و API آشنا (XPath / LINQ).
  • عیب: در پروژه‌های خیلی سنگین ممکن است کندتر از گزینه‌های سبک باشد؛ نگهداری پروژه در برخی مخازن کمتر فعال است.
  • بهترین روش‌ها: قبل از پردازش، null-check و مدیریت استثناها را اضافه کنید؛ برای تعداد زیادی درخواست از HttpClient و pool کردن استفاده کنید تا فشار روی منابع کاهش یابد.

CsQuery

CsQuery سینتکس شبیه jQuery دارد و برای کسانی که با انتخابگرهای CSS و jQuery آشنا هستند یادگیری آسان است. معمولاً در پردازش سریع و استخراج‌های دسته‌ای عملکرد خوبی دارد.

using CsQuery;
using System;
public static void Main()
{
    var url = "https://quotes.toscrape.com/";
    var dom = CQ.CreateFromUrl(url);
    var quotes = dom[".quote"];
    foreach (var quote in quotes)
    {
        var text = quote.Cq().Find(".text").Text();
        Console.WriteLine(text);
    }
}

توضیح:

  • ورودی: URL و DOM ساخته‌شده توسط CQ.CreateFromUrl.
  • خروجی: متن هر quote.
  • نحوه کار: با استفاده از سینتکس CSS، المان‌ها انتخاب و متن استخراج می‌شوند.

نکات عملی:

  • مزیت: سینتکس آشنا و سرعت مناسب برای پردازش‌های متداول.
  • عیب: پشتیبانی از HTML خراب به اندازهٔ HtmlAgilityPack قوی نیست و ممکن است در مواجهه با صفحات خیلی ناپایدار مشکل داشته باشد.
  • بهترین روش: برای حجم‌های بالا، تست حافظه و سرعت را انجام دهید و در صورت نیاز از streaming یا پردازش تکه‌ای استفاده کنید.

AngleSharp

AngleSharp تمرکز روی انطباق با استانداردهای مدرن وب (HTML5/CSS3) دارد و API قدرتمند و انعطاف‌پذیری برای پردازش و حتی رندرینگ (تا حدی) ارائه می‌کند. اگر نیاز به پشتیبانی دقیق از CSS یا تجزیهٔ مدرن دارید، AngleSharp گزینهٔ اول است.

using AngleSharp;
using AngleSharp.Dom;
using System;
public static void Main()
{
    var url = "https://quotes.toscrape.com/";
    var config = Configuration.Default.WithDefaultLoader();
    var context = BrowsingContext.New(config);
    var document = context.OpenAsync(url).GetAwaiter().GetResult();
    var quotes = document.QuerySelectorAll(".quote");
    foreach (var quote in quotes)
    {
        var text = quote.QuerySelector(".text");
        Console.WriteLine(text.InnerHtml);
    }
}

توضیح:

  • ورودی: Configuration و URL.
  • خروجی: محتوای HTML یا متن المان‌ها.
  • نکته: این کتابخانه به‌صورت async طراحی شده؛ از بلوک‌های مسدودکننده مانند .GetAwaiter().GetResult() صرفاً در نمونه‌های ساده استفاده کنید و در اپلیکیشن واقعی از async/await بهره ببرید.

نکات عملی:

  • مزیت: سازگاری بالا با استانداردهای وب، پشتیبانی از CSS selectors و API انعطاف‌پذیر.
  • عیب: یادگیری و پیکربندی ممکن است پیچیده باشد و در برخی موارد سنگین‌تر از گزینه‌های ساده‌تر عمل کند.
  • بهترین روش: برای صفحات پویا که نیاز به تجزیهٔ دقیق CSS یا محاسبهٔ استایل دارند، AngleSharp را در اولویت قرار دهید؛ همواره از نسخه‌های async و مدیریت صحیح منابع استفاده کنید.

HtmlParserSharp

HtmlParserSharp یک پارسر سبک و بسیار سریع است که برای تحلیل صفحات بزرگ مناسب است. اگر اولویت شما پردازش سریع و کم‌حجم است و به قابلیت‌های پیچیدهٔ DOM نیاز ندارید، این کتابخانه گزینهٔ مناسبی است.

using HtmlParserSharp;
using System;
public static void Main()
{
    var url = "https://quotes.toscrape.com/";
    var parser = new HtmlParserSharp.HtmlParser();
    var document = parser.ParseUrl(url);
    var quotes = document.SelectNodes("//div[@class='quote']");
    foreach (var quote in quotes)
    {
        var text = quote.SelectSingleNode(".//span[@class='text']");
        Console.WriteLine(text.InnerText);
    }
}

توضیح:

  • ورودی: URL و شیء HtmlParser.
  • خروجی: مجموعهٔ نودها مطابق XPath.

نکات عملی:

  • مزیت: سرعت و مصرف پایین حافظه در پردازش اسناد بزرگ.
  • عیب: مجموعهٔ امکانات کمتر نسبت به HtmlAgilityPack یا AngleSharp؛ API ممکن است کمابیش قدیمی یا محدود باشد.
  • بهترین روش: برای پروژ‌ه‌هایی با پردازش دسته‌ای بزرگ یا جایی که حافظه محدود است، HtmlParserSharp را آزمون کنید و معیارهای عملکرد (benchmark) را حتماً بسنجید.

Fizzler (موتور انتخابگر CSS)

Fizzler خودِ یک پارسر مستقل نیست؛ بلکه یک موتور CSS selector است که معمولاً در کنار HtmlAgilityPack یا سایر پارسرها استفاده می‌شود تا قابلیت QuerySelector-style را اضافه کند. اگر با CSS selectors راحت‌اید و می‌خواهید آن‌ها را به HtmlAgilityPack اضافه کنید، Fizzler راه‌حل مناسبی است.

using Fizzler.Systems.HtmlAgilityPack;
using HtmlAgilityPack;
using System;
public static void Main()
{
    var url = "https://quotes.toscrape.com/";
    var web = new HtmlWeb();
    var doc = web.Load(url);
    var quotes = doc.DocumentNode.QuerySelectorAll(".quote");
    foreach (var quote in quotes)
    {
        var text = quote.QuerySelector(".text");
        Console.WriteLine(text.InnerText);
    }
}

توضیح:

  • ورودی: DOM ساخته‌شده توسط HtmlAgilityPack.
  • خروجی: انتخاب المان‌ها با syntax مشابه CSS.

نکات عملی:

  • مزیت: استفاده از انتخابگرهای CSS و آشنایی برای توسعه‌دهندگان وب.
  • عیب: وابستگی به دیگر کتابخانه‌ها می‌تواند در صورت ناسازگاری نسخه‌ها مشکل‌ساز شود.
  • بهترین روش: نسخه‌های وابسته را قفل کنید (lock) و تست‌های سازگاری بنویسید.

NSoup

NSoup پورتی از Jsoup (جاوا) به دنیای .NET است و برای کسانی که با Jsoup آشنا هستند API مشابهی را فراهم می‌کند. برای اسکریپ کردن سریع صفحات و کسانی که سابقهٔ Jsoup دارند مناسب است.

using NSoup;
using System;
public static void Main()
{
    var url = "https://quotes.toscrape.com/";
    var doc = NSoupClient.Connect(url).Get();
    var quotes = doc.Select(".quote");
    foreach (var quote in quotes)
    {
        var text = quote.Select(".text").First();
        Console.WriteLine(text.Text());
    }
}

توضیح:

  • ورودی: اتصال به URL با NSoupClient.
  • خروجی: مجموعهٔ المان‌ها و متن آن‌ها.

نکات عملی:

  • مزیت: API ساده و شباهت به Jsoup، عملکرد مناسب در بسیاری از موارد.
  • عیب: محبوبیت کمتر و منابع کمتر برای رفع اشکال نسبت به کتابخانه‌های بزرگ‌تر.

ملاحظات مشترک، بهترین‌ روش‌ها و نکات امنیتی

صرف‌نظر از انتخاب پارسر، مجموعه‌ای از ملاحظات فنی و حقوقی وجود دارد که باید رعایت کنید تا فرایند وب اسکریپینگ پایدار و امن باشد:

  1. مدیریت درخواست‌ها: از HttpClient با reuse و محدودیت concurrency استفاده کنید. برای AngleSharp از loader async بهره ببرید.
  2. احترام به سایت‌ها: نرخ درخواست (rate limiting)، تأخیر بین درخواست‌ها و بررسی فایل robots.txt که الزامی یا قانونی نیست اما اخلاقی است.
  3. هدرها و شناسایی: تنظیم مناسب User-Agent و مدیریت کوکی/سشن در صورت نیاز؛ از ارسال اطلاعات حساس خودداری کنید.
  4. مقاومت در برابر خطا: پیاده‌سازی retry با backoff نمایی، catch کردن استثناهای شبکه و timeout مناسب.
  5. پردازش حافظه‌دوست: برای اسناد خیلی بزرگ از پارسرهای سبک یا پردازش استریم استفاده کنید تا OutOfMemory رخ ندهد.
  6. امنیت محتوای ورودی: هر زمان HTML را به سیستم داخلی وارد می‌کنید، خروجی را پاک‌سازی (sanitize) کنید تا از حملات XSS یا تزریق کد جلوگیری شود.
  7. همزمانی و Async: در اپلیکیشن‌های مدرن از async/await استفاده کنید؛ از مسدودسازی thread-pool خودداری کنید.

چگونه بین این گزینه‌ها انتخاب کنیم؟

یک تصمیم‌گیری سریع:

  • اگر HTML نامنظم و XPath/ LINQ برایتان مهم است: HtmlAgilityPack.
  • برای سینتکس شبیه jQuery و سرعت مناسب: CsQuery.
  • برای سازگاری دقیق با HTML5/CSS3 و نیاز به قابلیت‌های پیشرفته: AngleSharp.
  • برای پردازش اسناد بسیار بزرگ و کم‌مصرف: HtmlParserSharp.
  • اگر می‌خواهید CSS selectors را به HtmlAgilityPack اضافه کنید: Fizzler.
  • اگر از Jsoup در جاوا آمده‌اید و API مشابه می‌خواهید: NSoup.

همچنین ترکیب‌ها کاربردی‌اند؛ مثلاً استفاده از HtmlAgilityPack + Fizzler یا ترجیح AngleSharp برای صفحات پیچیده و HtmlParserSharp برای پردازش دسته‌ای حجیم.

جمع‌بندی

هر پارسر مزایا و معایب خودش را دارد و انتخاب صحیح بستگی به نیاز پروژه (سازگاری با HTML خراب، نیاز به CSS/CSSOM، سرعت، مصرف حافظه و سهولت توسعه) دارد. برای پروژه‌های انعطاف‌پذیر و نیازمند پشتیبانی از CSS پیشرفته، AngleSharp را امتحان کنید؛ برای مواردی که HTML نامنظم غالب است HtmlAgilityPack مناسب‌تر است؛ و اگر کار شما پردازش عظیم است HtmlParserSharp می‌تواند مزیت عملکردی بدهد. در همهٔ حالات، مدیریت درخواست‌ها، رعایت اخلاق اسکریپ کردن، و پیاده‌سازی مناسب retry و timeout از ضروریات فنی هستند.

مقاله‌های مرتبط