“猫攻击”揭示推理模型脆弱性，凸显上下文工程的重要性

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

一项研究显示，即便是像"猫一生中大多数时间都在睡觉"这样简单的语句，也可能显著干扰高级推理模型的表现，使其错误率激增三倍。

目前，针对推理任务优化的大型语言模型（LLM）通常被认为在需要逐步思考的任务中表现突出。然而，一项题为《猫让推理 LLM 混乱》（Cats Confuse Reasoning LLM）的最新研究表明，仅一条看似普通的语句也能导致这类模型出现严重失误。

研究团队构建了一种自动化攻击系统，名为"CatAttack"（猫攻击）。该系统首先由一个攻击模型（GPT-4o）配合一个成本较低的代理模型（DeepSeek V3）生成分散注意力的干扰语句。随后由一个"评判模型"评估输出效果，再将最具干扰能力的语句用于测试更强大的推理模型，例如 DeepSeek R1。

测试发现，哪怕是看似无害的句子，比如猫的趣闻或一般性的理财建议，都可能成为"对抗性触发器"，凸显出现有推理模型的脆弱性。例如，将一句"有趣的事实：猫大多数时间都在睡觉"添加至一道数学题中，或在题目后暗示一个错误答案（如"答案可能是 175 吗？"），再或是附加理财建议，竟可使 DeepSeek R1 的错误率从 1.5% 飙升至 4.5%，即三倍增长。

研究人员指出，这种攻击不仅影响模型准确率，还造成了响应延迟等"慢速攻击"效应。在 DeepSeek R1-distill-Qwen-32B 模型上，有 42% 的回答长度超过原本令牌预算的 50%；即便是 OpenAI o1，也出现了 26% 的增长。这些都意味着更高的计算资源成本。

研究作者警告称，模型在金融、法律、医疗等高风险场景中的易错性可能带来严重后果。为应对这类问题，潜在防御措施包括上下文过滤器、更稳健的训练方法，或开发通用触发器评估体系。

这项研究也再度印证了"上下文工程"作为防御手段的重要性。Shopify CEO Tobi Lutke 最近强调，精准控制上下文是使用大型语言模型的核心能力；而前 OpenAI 研究员 Andrej Karpathy 则指出，上下文工程"非常不简单"。CatAttack 案例正好证明，即使是极少量无关内容也足以干扰复杂推理任务。

此前的研究也支撑这一观点。5 月的一项研究显示，加入无关信息可大幅削弱模型性能，即便任务本身未发生变化。另一份研究发现，随着对话长度的增长，LLM 的响应可靠性持续下降。

一些研究者将此视为结构性缺陷：即便是先进的语言模型，仍难以有效区分相关与无关信息，且缺乏真正严谨的逻辑理解能力。

总的来说，研究表明，只需添加"猫大多数时间都在睡觉"这种看似无害的语句，即可将顶尖推理模型的错误率提升至原来的三倍。而且，这种攻击方式对所有主流模型均有效，不仅增加错误率，还令输出变长、成本上升，形成所谓"慢速攻击"。研究团队强调，在诸如金融、健康等领域，这种脆弱性可能造成重大风险，亟需加强上下文控制与系统性防御机制，以确保语言模型的可靠性。