爬虫增量更新：基于时间戳与哈希去重

在网络爬虫的实际应用中，全量爬取不仅浪费服务器资源、降低爬取效率，还会出现大量重复数据，影响后续数据清洗与分析。增量更新 是解决这一问题的核心方案，而时间戳控制爬取范围 + 哈希去重保证数据唯一，是轻量、稳定、易落地的最佳实践。

传统全量爬取存在明显缺陷：

增量更新的核心目标：只爬取新增 / 变更数据，跳过已存在数据。

时间戳是最直观的增量控制手段，适用于带发布时间、更新时间的页面。

思路：
1. 本地记录上一次爬取成功的时间戳 last_crawl_time；
2. 爬取时只抓取发布 / 更新时间 > last_crawl_time 的内容；
3. 爬取完成后更新 last_crawl_time 为当前时间。
优点：
- 实现简单，几乎所有站点都提供时间字段；
- 能精准过滤旧数据，大幅减少请求量。
适用场景：新闻、公告、文章、商品、评论等带时间属性的数据。

部分场景没有明确时间字段，或数据会被修改但时间不变，此时需要哈希去重。

思路：
1. 对每条数据的关键字段（标题 + 正文摘要、ID、链接等）拼接成唯一字符串；
2. 使用 MD5/SHA1 生成哈希值，作为数据唯一标识；
3. 将哈希存入布隆过滤器、Redis 集合或数据库唯一索引；
4. 爬取时先判断哈希是否存在，存在则跳过，不存在则入库并记录哈希。
优点：
- 不依赖时间，可应对内容修改、无时间字段场景；
- 哈希长度固定，检索速度极快，适合高并发爬取。

生产环境推荐组合使用，兼顾效率与准确性：

流程：启动爬虫 → 读取上次爬取时间 → 筛选新页面 → 提取数据生成哈希 → 校验哈希是否存在 → 不存在则入库 → 更新时间戳。

基于时间戳与哈希去重的增量更新，是爬虫工程化的基础优化：

在实际开发中，可根据数据特征、并发量与存储条件，选择合适的存储与哈希策略，让爬虫从 "暴力全量" 升级为 "精准增量"。