AI 爬虫肆虐,OpenAI 等大厂不讲武德!开发者打造「神级武器」宣战

【新智元导读】AI 爬虫是互联网最顽固的「蟑螂」,不讲规则、压垮网站,令开发者深恶痛绝。面对这种 AI 时代的「DDoS 攻击」,极客们用智慧反击:或设「神之审判」Anubis,或制造数据陷阱,以幽默和代码让机器人自食其果。这场攻防战,正演变成一场精彩绝伦的网络博弈。

AI 网络爬虫是互联网上的「蟑螂」,几乎所有软件开发者都会这样认为的。

「爬虫」是一种网络自动程序,用来浏览互联网、获取网页内容。

而在 AI 时代,爬虫的威胁到了让开发者不得不封锁掉某个地区所有人的访问。

Triplegangers 是一家仅仅由七名员工运营的公司,他们花费十多年时间建立了自称是网络上最大的「人类数字替身」的数据库,即从实际人体扫描得到的 3D 图像文件。

2025 年 2 月 10 日,公司 CEO Oleksandr Tomchuk 突然发现他们公司的电商网站「崩了」。

「OpenAI 使用了 600 个 IP 来抓取数据,日志还在分析中,可能远不止这些」,Tomchuk 最终发现,导致他们网站崩溃的元凶竟然是 OpenAI 的爬虫机器人。

「他们的爬虫正在压垮我们的网站,这就是一次 DDoS 攻击!」

OpenAI 没有回应此次事件,该事件过去仅仅不到两个月,但 AI 爬虫机器人仍然活跃在网络上。

AI 爬虫不遵循「古老传统」,阻止他们是徒劳的

其实爬虫最早并不是 AI 时代为了获取训练语料而诞生的。

早在搜索引擎时代,就已经有「搜索引擎机器人」,那个「古老年代」的机器人还约定俗成的遵循各个网站上会存在的一份文件------robots.txt。

这个文件告诉了机器人不要爬取哪些内容,哪些内容可以爬取。

但这份传统随着互联网的发展似乎已经被遗忘,爬虫和发爬虫也演变为一场攻防战役。

而到了如今的「大模型时代」,互联网的信息已经被 LLMs 吞噬一空。

阻止 AI 爬虫机器人是徒劳的,因为它们会撒谎、更改用户代理、使用住宅 IP 地址作为代理来骗过网络「防守」。

「他们会不断地抓取你的网站,直到它崩溃,然后还会继续抓取。他们会点击每一个页面上的每一个链接上,一遍又一遍地查看相同的页面」,开发者在帖子中写道。

AI 机器人除了「免费」爬取信息外,还会额外增加所爬网站企业的运营费用------在这个云服务的时代,几乎所有被爬取的企业都在云上,大量的爬虫流量不仅无法带来收益,还会增加他们的云服务器账单。

更加无法预料的一点是,对于那些被「白嫖」的网站来说,甚至确切的知道被白嫖了哪些信息。

一些开发者决定开始以巧妙且幽默的方式进行反击。

程序员打造爬虫的「神之墓地」

FOSS 开发者 Xe Iaso 在博客中描述了 AmazonBot 如何不断攻击一个 Git 服务器网站,导致 DDoS 停机。

所以 Iaso 决定用智慧反击,他构建了一个名为 Anubis 的工具。

Anubis 是一个工作量证明检查的反向代理,请求必须通过该检查才能访问 Git 服务器。

它阻止机器人,但允许人类操作的浏览器通过。

Iaso 关于 Anubis 工作原理的简单介绍。

本质上,Anubis 确保的是「真实人类使用的浏览器」在访问目标网站,而不是 AI 爬虫------除非这个爬虫伪装的足够「先进」,就像通过图灵测试一样。

有趣的部分是:Anubis 是埃及神话中引导死者接受审判的神的名字。

「Anubis 称量了你的灵魂(心脏),如果它比一根羽毛重,你的心脏就会被吃掉,然后你就彻底死了」。

这个项目的名字带有讽刺意味,在自由开源软件社区中像风一样传播开来。

Iaso 在 3 月 19 日将其分享到 GitHub 上,仅几天时间就获得了 2000 个星标、20 位贡献者和 39 个分支。

用「复仇」的方式防御 AI 爬虫

Anubis 的迅速流行表明 Iaso 的痛苦并非个例。

事实上,还有很多故事:

  • SourceHut 的创始人兼 CEO Drew DeVault 描述说,他每周要花费「20% 到 100% 的时间来大规模缓解过于激进的 LLM 爬虫」,并且「每周经历数十次短暂的服务中断」。

  • Jonathan Corbet,一位著名的 FOSS 开发者,他运营着 Linux 行业新闻网站 LWN,警告称他的网站正受到「来自 AI 抓取机器人的 DDoS 级别的流量」影响而变慢。

  • Kevin Fenzi,庞大的 Linux Fedora 项目的系统管理员,表示 AI 抓取机器人变得如此激进,他不得不封锁整个巴西的访问。

除了像 Anubis 一样「衡量」网络请求者的灵魂外,其他开发者认为复仇是最好的防御。

几天前在 Hacker News 上,用户 xyzal 建议用「大量关于喝漂白剂好处的文章」或「关于感染麻疹对床上表现的积极影响的文章」来加载 robots.txt 禁止的页面。

这样 AI 爬虫获取的信息都是这种大量且无用的「替代品」。

「我们认为需要让机器人访问我们的陷阱时获得负的效用值,而不仅仅是零价值」,xyzal 解释说。

一月份,一位名为 Aaron 的匿名创作者发布了一个名为 Nepenthes 的工具,其目的正是如此。

它将爬虫困在一个无尽的虚假内容迷宫中,无法像爬虫「主人」返回任何信息。

而作为网友心目中的「赛博菩萨」的 Cloudflare,也许是提供多种工具来抵御 AI 爬虫的最大商业玩家,上周发布了一个名为 AI Labyrinth 的类似工具。

它的目的是「减慢、迷惑并浪费不遵守禁止爬取指令的 AI 爬虫和其他机器人的资源」,Cloudflare 在其博客文章中描述道。

「当 AI 爬虫跟随这些链接时,它们会浪费宝贵的计算资源处理无关内容,而不是提取合法网站数据。这大大降低了它们收集足够有用信息以有效训练模型的能力」。

相比起反击,另一种观点是「Nepenthes 有一种令人满意的正义感,因为它向爬虫提供无意义的内容并污染它们的数据源,但最终 Anubis 是对网站有效的解决方案」。

拒绝或者反击也许都不是最佳的途径。

DeVault 也公开发出了一则诚恳的请求,希望有一个更直接的解决办法:「请停止将 LLMs 或 AI 图像生成器任何这类垃圾合法化。恳求停止使用它们,停止谈论它们,停止制造新的,就这么停下」。

但是,想让 LLM 厂商主动停止爬虫这种情况的可能性几乎为零。

毕竟 AI 的「智能」都来自于不断「吞噬」互联网上的各种数据和信息。

不论是给禁止 AI 爬虫访问网站、给 AI「投喂垃圾」还是将 AI 爬虫拉入「无线虚空」。

开发者们,尤其是在开源软件领域,正在用智慧和「极客幽默」进行反击。

如果你是网站管理者和开发者,你会如何「出招」?

参考资料:

techcrunch.com/2025/03/27/...

相关推荐
訾博ZiBo1 小时前
AI日报 - 2025年4月8日
人工智能
James. 常德 student1 小时前
深度学习之微调
人工智能·深度学习
liuyunshengsir1 小时前
chromadb 安装和使用
人工智能·大模型
FIT2CLOUD飞致云1 小时前
全面支持MCP协议,开启便捷连接之旅,MaxKB知识库问答系统v1.10.3 LTS版本发布
人工智能·开源
云水木石2 小时前
ChatGPT-4o 在汉字显示上进步巨大
人工智能·chatgpt
Mr_LeeCZ2 小时前
PyTorch 深度学习 || 7. Unet | Ch7.1 Unet 框架
人工智能·深度学习·机器学习
James. 常德 student2 小时前
多GPU训练
人工智能·pytorch·深度学习
Jozky862 小时前
大语言模型在端到端智驾中的应用
人工智能·语言模型·自然语言处理
脑洞专家2 小时前
基于改进的点线融合和关键帧选择的视觉SLAM 方法
人工智能·机器学习·计算机视觉
明月看潮生4 小时前
青少年编程与数学 02-015 大学数学知识点 09课题、专业相关性分析
人工智能·青少年编程·数据科学·编程与数学·大学数学