引言
一份来自 Cloudflare 的 2025 年度互联网回顾报告,撕开了互联网表面平静下的一道裂缝:ChatGPT 的爬虫 GPTBot,已成为全球被封锁次数最多的网络机器人。
事件背景
GPTBot 成为众矢之的
2025 年 7 月 1 日,互联网安全和 CDN 服务巨头 Cloudflare 宣布了一系列新措施,专门针对 AI 爬虫的无限制抓取。
这背后是一组让 AI 公司尴尬的数据:在 2025 年,ChatGPT 的爬虫 GPTBot 是全球被网站屏蔽次数最多的网络机器人,甚至超过了专门做爬虫生意的灰产团队。更有意思的是,Cloudflare 的分析指出,在各大 AI 爬虫中,Anthropic 的 Claude 对网站所有者的"互惠价值"是最低的------拿了内容,却几乎不回馈流量。
深度分析
为什么传统 IP 封锁开始失效
过去,网站对付爬虫的套路很成熟:封 IP、拉入黑名单、控制请求频率。但 AI 爬虫把这套玩法逼到了极限。
原因一:IP 池规模超出常规认知
AI 公司,特别是资金充裕的大厂,可以轻松部署数千甚至数万个 IP 地址轮换访问。传统的"封一个 IP 就少一个"策略,在这种体量面前相当于用茶杯舀大海。
原因二:AI 爬虫会"伪装身份"
传统爬虫通常使用固定 User-Agent 或少量变种,容易被识别。但 AI 爬虫会主动模拟真实浏览器的请求特征,包括完整的请求头序列、鼠标移动轨迹(通过无头浏览器)、TLS 指纹等。它们不是在"假装是人",而是在技术上越来越接近人。
原因三:绕过 robots.txt 的灰色地带
robots.txt 协议本质上是一份"君子协定",没有任何技术强制力。一个爬虫完全可以无视 robots.txt 的声明------法律上这是否构成侵权,至今仍存在争议。这给了 AI 公司"选择性遵守"的空间,也给了网站主不信任的理由。
封锁大战的三层演进
网站对 AI 爬虫的防御正在从单一维度走向多层次:
第一层:IP 封锁(最原始)
基于 IP 地址的访问频率、地理来源、ASN 信息进行封禁。这是所有防护的基础,但面对大厂级别的 IP 池,效果有限。
第二层:行为分析(主流趋势)
不再只看 IP,而是分析访问行为模式。同一 IP 段在极短时间内大量访问、请求之间缺乏自然时间间隔、总是访问文章列表但从不滚动页面------这些行为特征会被机器学习模型捕捉。
第三层:AI 对抗 AI
这是最新的战场。一些网站开始部署专门的 AI 模型,用于实时判断来访者是否为 AI 爬虫,并根据判断结果返回差异化内容(真内容、假内容,或直接拦截)。用魔法对抗魔法。

技术延伸
爬虫被封后的常见"越狱"手段
技术层面,AI 爬虫运营方也有自己的应对之道:
手段一:代理 IP 池轮换
通过数以万计的住宅代理或数据中心代理轮换访问来源,分散请求压力,降低单一 IP 被封的概率。这也是为什么IP 地理位置和 IP 类型识别(IP是否为代理、IP是否为数据中心 IP)变得前所未有的重要------而这正是 IP 数据服务发挥作用的地方。
手段二:无头浏览器模拟
使用 Puppeteer、Playwright 等工具模拟完整浏览器环境,让爬虫在 JavaScript 执行层看起来和真实用户无异。传统的 IP + 请求头检测对此完全失效。
手段三:伪造客户端指纹
主动伪造 TLS 指纹、Canvas 指纹、WebGL 渲染特征,使网站无法通过设备指纹技术识别爬虫。

解决方案
在 AI 爬虫与网站封禁的攻防中,IP 数据能力是容易被忽视但极其关键的一环。
如何补齐 IP 维度判断
面对 AI 爬虫的高伪装能力,传统的单点检测(只看 IP 或只看行为)已经不够用了。将 IP 维度数据纳入整体风控体系,是更务实的思路。
例如,通过IP数据云的接口可以查询某个 IP 地址是否为已知的数据中心 IP、是否来自代理服务商、其地理定位是否与用户声明相符。IP是否为代理、查询IP所在地这些能力,可以和网站现有的行为分析系统形成交叉验证------当行为特征模棱两可时,IP 维度数据可以作为最后一道判断依据。
总结
AI 爬虫与网站封禁的战争,本质上是一场关于互联网内容所有权的定义权之争。
robots.txt 老了,IP 封锁不够用了,AI 爬虫让网站主意识到:过去三十年维持互联网内容流通的"君子协定",在 AI 时代已经失效了。
新的规则正在生长:法律层面,版权诉讼和新型协议(RSL)正在被提上日程;技术层面,AI 对抗 AI 的攻防将持续升级;而在数据层面,IP 维度的判断力------识别代理、验证地理位置、交叉验证访问行为------将成为网站主手里越来越重要的牌。
谁赢?这场战争还远没有到终点。但有一点可以确定:AI 爬虫躺着"免费读书"的时代,正在走向终结。
参考资料:
- Cloudflare 2025 年度互联网回顾报告(2025 年 7 月)
- IT之家:Cloudflare 推出新举措助力网站抵御 AI 爬虫(2025 年 7 月 1 日)
- 腾讯网:ChatGPT 成为互联网最受阻止的爬虫机器人(2025 年 12 月 17 日)
- 凤凰网:为训大模型不择手段的 AI 公司打破古老互联网协议(2024 年 2 月 20 日)
- 企鹅号:在线媒体品牌希望新协议能阻止未授权 AI 爬虫(2025 年 9 月 12 日)