C#编写HttpClient爬虫程序示例

要写一个使用C#和HttpClient的爬虫程序。首先,我需要了解HttpClient的基本用法。HttpClient是用来发送HTTP请求和接收响应的类,对吧?我记得在C#中使用它的时候需要注意一些事情,比如最好使用单例实例,而不是频繁创建和销毁,这样可以避免端口耗尽的问题。

以下是使用C#和HttpClient编写的爬虫程序示例,包含详细注释和扩展说明:

csharp 复制代码
using System;
using System.Net.Http;
using System.Threading.Tasks;
using HtmlAgilityPack; // 需要安装NuGet包
​
class WebCrawler
{
    private static readonly HttpClient _httpClient = new HttpClient();
​
    static async Task Main(string[] args)
    {
        // 配置HTTP客户端
        _httpClient.DefaultRequestHeaders.UserAgent.ParseAdd("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36");
        _httpClient.Timeout = TimeSpan.FromSeconds(30);
​
        try
        {
            string url = "https://example.com";
            
            // 发送HTTP GET请求
            HttpResponseMessage response = await _httpClient.GetAsync(url);
            response.EnsureSuccessStatusCode(); // 检查状态码
​
            // 读取响应内容
            string htmlContent = await response.Content.ReadAsStringAsync();
            
            // 解析HTML内容
            var htmlDoc = new HtmlDocument();
            htmlDoc.LoadHtml(htmlContent);
​
            // 示例:提取所有链接
            foreach (HtmlNode link in htmlDoc.DocumentNode.SelectNodes("//a[@href]"))
            {
                string hrefValue = link.GetAttributeValue("href", string.Empty);
                Console.WriteLine($"发现链接: {hrefValue}");
            }
​
            // 示例:提取页面标题
            string pageTitle = htmlDoc.DocumentNode.SelectSingleNode("//title")?.InnerText;
            Console.WriteLine($"页面标题: {pageTitle}");
        }
        catch (HttpRequestException ex)
        {
            Console.WriteLine($"HTTP请求失败: {ex.Message}");
        }
        catch (TaskCanceledException ex)
        {
            Console.WriteLine($"请求超时: {ex.Message}");
        }
        catch (Exception ex)
        {
            Console.WriteLine($"发生错误: {ex.Message}");
        }
    }
}

关键组件说明

  1. HttpClient配置

    • 单例模式:避免短时间创建多个实例导致端口耗尽
    • 用户代理:模拟浏览器行为避免被屏蔽
    • 超时设置:30秒请求超时限制
  2. HTML解析

    • 使用HtmlAgilityPack(需通过NuGet安装)
    • XPath查询语法提取特定元素
  3. 异常处理

    • 专用HTTP异常处理
    • 超时单独处理
    • 通用异常捕获

扩展增强建议

  1. 代理支持

    ini 复制代码
    var handler = new HttpClientHandler
    {
        Proxy = new WebProxy("http://proxy-server:8080"),
        UseProxy = true
    };
    var client = new HttpClient(handler);
  2. 请求限速

    arduino 复制代码
    await Task.Delay(TimeSpan.FromSeconds(2)); // 每次请求间隔
  3. Cookie管理

    ini 复制代码
    var cookieContainer = new CookieContainer();
    var handler = new HttpClientHandler { CookieContainer = cookieContainer };
  4. 内容过滤

    less 复制代码
    if (hrefValue.EndsWith(".pdf")) // 过滤PDF文件

注意事项

  1. 法律合规

    • 遵守目标网站的robots.txt协议
    • 尊重版权和隐私条款
  2. 性能优化

    • 使用HttpClientFactoryASP.NET Core环境)
    • 并行请求控制
  3. 反爬对策

    • 随机化请求间隔
    • 使用代理池轮换
    • 处理验证码(需要额外服务)

安装HtmlAgilityPack:

csharp 复制代码
dotnet add package HtmlAgilityPack

注意:C# 7.1+ 支持异步Main方法,需在.csproj中添加:

xml 复制代码
<PropertyGroup>
<LangVersion>latest</LangVersion>
</PropertyGroup>

这个爬虫框架可根据具体需求扩展更多功能,建议在实际使用中遵守目标网站的服务条款和相关法律法规。

相关推荐
KaMeidebaby3 小时前
卡梅德生物技术快报|蛋白 N 端测序在重组贻贝融合蛋白表征中的应用,解决原核表达序列偏移工艺难题
前端·人工智能·物联网·算法·百度
kyriewen5 小时前
我筛了 1400 个 Claude Code Skills,留下 5 个天天在用的
前端·ai编程·claude
JNX_SEMI5 小时前
AT2401C 2.4GHz 全集成射频前端单芯片技术解析
前端·单片机·嵌入式硬件·物联网·硬件工程
anOnion5 小时前
Agentic 前端开发之 实时显示 AI Agent 终端输出
前端·javascript·人工智能
随风一样自由5 小时前
【前端领域】2026最新前端领域全梳理(框架/工具/AI/跨端/底层标准/就业趋势)
前端·人工智能·前端框架
这是个栗子5 小时前
【前端性能优化】优化数据加载:用 Promise.all 从串行到并行
前端·javascript·性能优化·异步编程·前端优化·promise.all
fei_sun6 小时前
黑洞路由(Null Route/空接口路由)
服务器·前端·javascript
大爱一家盟6 小时前
告别卡点BGM同质化 2026原创卡点音乐素材下载网站 TOP5 推荐
大数据·前端·人工智能
彦为君6 小时前
算法思维与经典智力题
java·前端·redis·算法
aa小小7 小时前
localhost 访问异常排查笔记
前端