Rust爬虫实战：用reqwest+select打造高效网页抓取工具

在数据驱动的时代，网页爬虫已成为获取公开信息的重要工具。相比Python的requests库，Rust凭借其内存安全性和并发优势，特别适合构建高稳定性的爬虫系统。本文将以books.toscrape.com为例，演示如何使用reqwest发送HTTP请求、select解析HTML，并实现分页抓取与数据存储功能。

一、环境搭建：三分钟启动项目

1.1 创建新项目

打开终端执行以下命令，自动生成Rust项目模板：

arduino 复制代码

cargo new book_scraper
cd book_scraper

1.2 添加依赖

编辑Cargo.toml文件，添加三个核心库：

ini 复制代码

[dependencies]
reqwest = { version = "0.11", features = ["blocking"] }  # 同步HTTP客户端
select = "0.5"                                          # CSS选择器库
anyhow = "1.0"                                          # 错误处理工具
csv = "1.1"                                             # CSV文件操作（可选）

reqwest选择blocking特性简化同步请求处理
select提供类似jQuery的CSS选择器语法
anyhow实现链式错误传播

二、基础爬虫实现：五步抓取图书数据

2.1 发送HTTP请求

rust 复制代码

use anyhow::{Context, Result};
use select::document::Document;
use select::predicate::{Class, Name};
 
fn main() -> Result<()> {
    let url = "http://books.toscrape.com/";
    let response = reqwest::blocking::get(url)
        .with_context(|| format!("Failed to fetch {}", url))?;
    
    if !response.status().is_success() {
        anyhow::bail!("Request failed with status: {}", response.status());
    }
    // 后续处理...
}
with_context为错误添加描述信息

显式检查HTTP状态码

2.2 解析HTML文档

ini 复制代码

let html_content = response.text()
    .with_context(|| "Failed to read response body")?;
let document = Document::from(html_content.as_str());

select库将HTML转换为可查询的DOM树结构，支持链式调用：

less 复制代码

for book in document.find(Class("product_pod")) {
    let title = book.find(Name("h3"))
        .next()
        .and_then(|h3| h3.find(Name("a")).next())
        .map(|a| a.text())
        .unwrap_or_default();
    // 提取价格和库存...
}

2.3 数据提取技巧

通过组合选择器实现精准定位：

less 复制代码

// 提取价格（带£符号）
let price = book.find(Class("price_color"))
    .next()
    .map(|p| p.text())
    .unwrap_or_default();
 
// 提取库存状态
let stock = book.find(Class("instock"))
    .next()
    .map(|s| s.text().trim().to_string())
    .unwrap_or_else(|| "未知库存".to_string());

unwrap_or_default处理缺失字段
trim()清除多余空白字符

2.4 完整代码示例

rust 复制代码

fn main() -> Result<()> {
    let url = "http://books.toscrape.com/";
    let response = reqwest::blocking::get(url)?;
    
    let html_content = response.text()?;
    let document = Document::from(html_content.as_str());
 
    println!("开始爬取: {}", url);
    println!("{:-^50}", "图书列表");
 
    for book in document.find(Class("product_pod")) {
        let title = extract_title(&book);
        let price = extract_price(&book);
        let stock = extract_stock(&book);
 
        println!("书名: {}", title);
        println!("价格: {}", price);
        println!("库存: {}", stock);
        println!("{}", "-".repeat(40));
    }
 
    println!("爬取完成! 共找到 {} 本书", document.find(Class("product_pod")).count());
    Ok(())
}
 
// 提取函数封装
fn extract_title(book: &select::node::Node) -> String {
    book.find(Name("h3"))
        .next()
        .and_then(|h3| h3.find(Name("a")).next())
        .map(|a| a.text())
        .unwrap_or_default()
}
// 其他提取函数类似...

三、进阶功能实现：从基础到专业

3.1 数据持久化（CSV存储）

添加csv依赖后，实现结构化存储：

rust 复制代码

use csv::Writer;
 
fn main() -> Result<()> {
    let mut wtr = Writer::from_path("books.csv")?;
    wtr.write_record(&["书名", "价格", "库存"])?;
 
    // 在循环内替换println为：
    wtr.write_record(&[&title, &price, &stock])?;
 
    wtr.flush()?;
    println!("数据已保存到 books.csv");
    Ok(())
}

3.2 自动翻页实现

通过分析分页按钮结构，实现全站抓取：

rust 复制代码

let mut page = 1;
loop {
    let url = format!("http://books.toscrape.com/catalogue/page-{}.html", page);
    let response = reqwest::blocking::get(&url)?;
    let document = Document::from(response.text()?.as_str());
 
    // 原有提取逻辑...
 
    // 检查下一页按钮
    if document.find(Class("next")).next().is_none() {
        break;
    }
    page += 1;
    std::thread::sleep(std::time::Duration::from_secs(1)); // 礼貌性延迟
}

3.3 异常处理增强

添加重试机制应对网络波动：

rust 复制代码

fn fetch_with_retry(url: &str, max_retries: u8) -> Result<String> {
    let mut retries = 0;
    loop {
        match reqwest::blocking::get(url).and_then(|r| r.text()) {
            Ok(content) => return Ok(content),
            Err(e) => {
                retries += 1;
                if retries > max_retries {
                    anyhow::bail!("Max retries exceeded: {}", e);
                }
                std::thread::sleep(std::time::Duration::from_secs(2));
            }
        }
    }
}

四、性能优化与最佳实践

4.1 异步版本改造

使用tokio实现并发请求：

rust 复制代码

#[tokio::main]
async fn main() -> Result<()> {
    let urls = vec![
        "http://books.toscrape.com/",
        "http://books.toscrape.com/catalogue/page-2.html"
    ];
 
    let mut handles = vec![];
    for url in urls {
        let handle = tokio::spawn(async move {
            let response = reqwest::get(url).await?;
            let content = response.text().await?;
            Ok::<_, anyhow::Error>(content)
        });
        handles.push(handle);
    }
 
    for handle in handles {
        let content = handle.await??;
        // 处理每个页面的内容...
    }
    Ok(())
}

4.2 反爬策略应对

User-Agent伪装：

ini 复制代码

let client = reqwest::Client::builder()
    .user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")
    .build()?;
let response = client.get(url).send()?;

请求间隔控制：

rust 复制代码

use rand::Rng;
fn random_delay() {
    let delay = rand::thread_rng().gen_range(1000..3000); // 1-3秒随机延迟
    std::thread::sleep(std::time::Duration::from_millis(delay));
}

4.3 内存优化技巧

对于大规模抓取：

使用scraper::Html替代select::Document减少内存占用

流式处理大文件：

ini 复制代码

let response = reqwest::get(url).send()?;
let stream = response.bytes_stream();
// 分块处理数据流...

五、实战案例：完整爬虫系统

整合所有功能的完整实现：

rust 复制代码

use anyhow::{Context, Result};
use csv::Writer;
use select::document::Document;
use select::predicate::{Class, Name};
use std::thread;
use std::time::Duration;
 
#[tokio::main]
async fn main() -> Result<()> {
    let mut wtr = Writer::from_path("all_books.csv")?;
    wtr.write_record(&["书名", "价格", "库存"])?;
 
    let mut page = 1;
    loop {
        let url = format!("http://books.toscrape.com/catalogue/page-{}.html", page);
        let content = fetch_with_retry(&url, 3).await?;
        let document = Document::from(content.as_str());
 
        let mut book_count = 0;
        for book in document.find(Class("product_pod")) {
            let title = extract_field(&book, Name("h3"), Name("a"))?;
            let price = extract_field(&book, Class("price_color"), None)?;
            let stock = extract_field(&book, Class("instock"), None)?;
 
            wtr.write_record(&[&title, &price, &stock])?;
            book_count += 1;
        }
 
        println!("第{}页抓取完成，共{}本书", page, book_count);
        if document.find(Class("next")).next().is_none() {
            break;
        }
 
        page += 1;
        thread::sleep(Duration::from_secs(1));
    }
 
    wtr.flush()?;
    println!("所有数据已保存到 all_books.csv");
    Ok(())
}
 
async fn fetch_with_retry(url: &str, max_retries: u8) -> Result<String> {
    // 实现带重试的异步获取...
}
 
fn extract_field(
    node: &select::node::Node,
    primary: impl Into<select::predicate::Predicate>,
    secondary: Option<impl Into<select::predicate::Predicate>>,
) -> Result<String> {
    // 通用字段提取逻辑...
}

六、总结与展望

通过reqwest+select的组合，我们实现了：

完整的HTTP请求生命周期管理
灵活的HTML解析与数据提取
自动化的分页抓取机制
健壮的错误处理与重试策略
多样化的数据持久化方案

对于更复杂的场景，可考虑：

使用scraper库处理JavaScript渲染页面
结合scrapingbee等API应对高级反爬
集成serde实现JSON数据序列化
部署为云函数实现分布式爬取

Rust的强类型系统和内存安全特性，使其成为构建企业级爬虫系统的理想选择。通过本文的实践，相信读者已掌握核心开发技巧，能够根据实际需求开发出高效稳定的网页抓取工具。