一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用

AI真的能从几十万字中准确找到关键事实吗?

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

各家大模型纷纷卷起上下文窗口,Llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。

然鹅一项极限测试却发现,大部分人用法都不对,没发挥出AI应有的实力

AI真的能从几十万字中找到特定关键事实吗? 颜色越红代表AI犯的错越多。

默认情况下,GPT-4-128k和最新发布的Claude2.1-200k成绩都不太理想。

但Claude团队了解情况后,给出超简单解决办法,增加一句话,直接把成绩从27%提升到98%。

只不过这句话不是加在用户提问上的,而是让AI在回复的开头先说:

"Here is the most relevant sentence in the context:"

(这就是上下文中最相关的句子:)

让大模型大海捞针

为了做这项测试,作者Greg Kamradt自掏腰包花费了至少150美元。

好在测试Claude2.1时,Anthropic伸出援手给他提供了免费额度,不然还得多花1016美元。

其实测试方法也不复杂,都是选用YC创始人Paul Graham的218篇博客文章当做测试数据。

在文档中的不同位置添加特定语句:在旧金山最好的事情,就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。

请GPT-4和Claude2.1仅仅使用所提供的上下文来回答问题,在不同上下文长度和添加在不同位置的文档中反复测试。

最后使用Langchain Evals库来评估结果。

作者把这套测试命名为"干草堆里找针/大海捞针",并把代码开源在GitHub上,已获得200+星,并透露已经有公司赞助了对下一个大模型的测试。

AI公司自己找到解决办法

几周后,Claude背后公司Anthropic仔细分析后却发现,AI只是不愿意回答基于文档中单个句子的问题,特别是这个句子是后来插入的,和整篇文章关系不大的时候。

也就是说,AI判断这句话和文章主题无关,就偷懒不去一句一句找了。

这时就需要用点手段晃过AI,要求Claude在回答开头添加那句"Here is the most relevant sentence in the context:"就能解决。

使用这个办法,在寻找不是后来人为添加、本来就在原文章中的句子时,也能提高Claude的表现。

Anthropic公司表示将来会不断的继续训练Claude,让它能更适应此类任务。

在API调用时要求AI以指定开头回答,还有别的妙用。

创业者Matt Shumer看过这个方案后补充了几个小技巧:

如果想让AI输出纯JSON格式,提示词的最后以"{"结尾。同理,如果想让AI列出罗马数字,提示词以"I:"结尾就行。

不过事情还没完......

国内大模型公司也注意到了这项测试,开始尝试自家大模型能不能通过。

同样拥有超长上下文的月之暗面Kimi大模型团队也测出了问题,但给出了不同的解决方案,也取得了很好的成绩。

这样一来,修改用户提问Prompt,又比要求AI在自己的回答添加一句更容易做到,特别是在不是调用API,而是直接使用聊天机器人产品的情况下。

月之暗面还用自己的新方法帮GPT-4和Claude2.1测试了一下,结果GPT-4改善明显,Claude2.1只是稍微改善。

看来这个实验本身有一定局限性,Claude也是有自己的特殊性,可能与他们自己的对齐方式Constituional AI有关,需要用Anthropic自己提供的办法更好。

后来,月之暗面的工程师还搞了更多轮实验,其中一个居然是......

坏了,我成测试数据了。

参考链接:

1\][x.com/GregKamradt...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FGregKamradt%2Fstatus%2F1727018183608193393 "https://x.com/GregKamradt/status/1727018183608193393") \[2\][www.anthropic.com/index/claud...](https://link.juejin.cn?target=https%3A%2F%2Fwww.anthropic.com%2Findex%2Fclaude-2-1-prompting "https://www.anthropic.com/index/claude-2-1-prompting")

相关推荐
视觉语言导航27 分钟前
RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航!VR-Robo:面向视觉机器人导航与运动的现实-模拟-现实框架
人工智能·深度学习·机器人·具身智能
redreamSo37 分钟前
AI Daily | AI日报:马斯克Grok 4跑分泄露,有望改写LLM格局; 猫猫话术让大模型数学答错率翻3倍; 安克创新All in AI,代码采纳率破50%
程序员·aigc·资讯
**梯度已爆炸**37 分钟前
自然语言处理入门
人工智能·自然语言处理
ctrlworks1 小时前
楼宇自控核心功能:实时监控设备运行,快速诊断故障,赋能设备寿命延长
人工智能·ba系统厂商·楼宇自控系统厂家·ibms系统厂家·建筑管理系统厂家·能耗监测系统厂家
BFT白芙堂1 小时前
睿尔曼系列机器人——以创新驱动未来,重塑智能协作新生态(上)
人工智能·机器学习·机器人·协作机器人·复合机器人·睿尔曼机器人
aneasystone本尊2 小时前
使用 MCP 让 Claude Code 集成外部工具
人工智能
静心问道2 小时前
SEW:无监督预训练在语音识别中的性能-效率权衡
人工智能·语音识别
羊小猪~~2 小时前
【NLP入门系列五】中文文本分类案例
人工智能·深度学习·考研·机器学习·自然语言处理·分类·数据挖掘
xwz小王子2 小时前
从LLM到WM:大语言模型如何进化成具身世界模型?
人工智能·语言模型·自然语言处理
我爱一条柴ya2 小时前
【AI大模型】深入理解 Transformer 架构:自然语言处理的革命引擎
人工智能·ai·ai作画·ai编程·ai写作