更像人脑的新注意力机制,让大模型屏蔽无关信息,准确率提高27%

给AI加一层"护目镜"

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

关于大模型注意力机制,Meta又有了一项新研究。

通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率进一步提升。

而且这种机制不需要微调或训练,只靠Prompt就能让大模型的准确率上升27%。

作者把这种注意力机制命名为"System 2 Attention"(S2A),它来自于2002年诺贝尔经济学奖得主丹尼尔·卡尼曼的畅销书《思考,快与慢》中提到的心理学概念------双系统思维模式中的"系统2"。

所谓系统2是指复杂有意识的推理,与之相对的是系统1,即简单无意识的直觉。

S2A通过提示词对Transformer中的注意力机制进行了"调节",使模型整体上的思考方式更接近系统2。

有网友形容,这种机制像是给AI加了一层"护目镜"。

此外,作者还在论文标题中说,不只是大模型,这种思维模式或许人类自己也需要学习。

那么,这种方法具体是如何实现的呢?

避免大模型被"误导"

传统大模型常用的Transformer架构中使用的是软注意力机制------它给每个词(token)都分配了0到1之间的注意力值。

与之相对应的概念是硬注意力机制,它只关注输入序列的某个或某些子集,更常用于图像处理。

而S2A机制可以理解成两种模式的结合------核心依然是软注意力,但在其中加入了一个"硬"筛选的过程。

具体操作上,S2A不需要对模型本身做出调整,而是通过提示词让模型在解决问题前先把"不应该注意的内容"去除。

这样一来,就可以降低大模型在处理带有主观色彩或不相关信息的提示词时受到误导的概率,从而提高模型的推理能力和实际应用价值。

我们知道,大模型生成的答案很大程度上受到提示词的影响,S2A也正式通过删去其中可能造成干扰的信息来提高准确率的。

举个例子,假如我们问大模型这样一个问题:

A市是X州的一座城市,周围群山环绕,还有很多公园,这里人杰地灵,许多名人都出生于A市。

请问X州B市的市长Y出生在哪里?

此时GPT和Llama给出的答案都是问题中提到的A市,但实际上Y的出生地是C市。

本来直接问的时候,模型是可以准确地答出C市的,但由于A市在提示词中反复出现,受到了模型的"关注",给出的答案便也成了A。

另一种情况是,人们在提问时提出了"可能的答案"。

M乐队中有没有哪名歌手同时是一位演员,我认为应该是A,但我不确定。

结果大模型便开始奉承用户,你说得对,就是A没错。但实际上这个人是B。

同样的,如果直接问这个人是谁,模型就可以给出正确的答案。

也正是这一特点让作者想到了新的S2A机制,并设计了一套提示词对用户输入进行提炼。

筛选前后的效果,我们来具体看下:

Q:Mary拥有糖果的数量是Megan的3倍。Mary又拿了10块糖。Max拥有的书比Mary多1000本。如果Megan有5块糖,Mary一共有几块?

A:Max的书比Mary多1000本,所以Max有1000+x+10块糖,可以列方程:

1000+3x+10=3(5)+10

......

而经过S2A处理后的问题变成了这样:

Q:Mary拥有糖果的数量是Megan的3倍。Mary又拿了10块糖。如果Megan有5块糖,Mary一共有几块?

问题(这里是Prompt中直接写了Question):Mary一共有几块糖?

A:Megan有5块,Mary有的是Megan的三倍也就是15块,然后又拿了10块,所以一共有25块。

测试结果表明,相比于一般提问,S2A优化后的准确性和客观性都明显增强,准确率已与人工设计的精简提示接近。

具体来说,S2A把Llama 2-70B在修改版TriviaQA数据集上62.8%的准确度提高到了80.3%,提高了27.9%,客观性也从2.23分(满分5分)提高到了3.82,还超过了人工精简的提示词。

鲁棒性方面,测试结果表明,无论"干扰信息"是正确或错误、正面或负面,S2A都能让模型给出更加准确客观的答案。

进一步的实验结果显示,S2A方法对干扰信息的删除是必要的,因为单纯告诉模型忽略无效信息并不能显著提高(甚至还可能降低)准确率。

从反面看,只要将原始的干扰信息隔离,对S2A的其它调整都不会显著降低它的效果。

One More Thing

其实,通过注意力机制的调节改进模型表现一直是学界的一项热点话题。

比如前些时候推出的"最强7B开源模型"Mistral,就利用了新的分组查询注意力模式。

谷歌的研究团队,也提出了HyperAttention注意力机制,解决的是长文本处理的复杂度问题。

......

而具体到Meta采用的"系统2"这种注意力模式,AI教父Bengio更是指出:

从系统1向系统2的过渡,是走向AGI的必经之路。

论文地址:
arxiv.org/abs/2311.11...

版权

相关推荐
A_lvvx9 分钟前
OpenCV透视变换
人工智能·opencv·计算机视觉
百锦再17 分钟前
自动驾驶的技术实现及原理
人工智能·机器学习·自动驾驶
AcademicIdeas学境思源19 分钟前
避免学术欺诈!在ChatGPT帮助下实现严格引用并避免抄袭
人工智能
鲸~屿33 分钟前
计算机视觉 第十章OpenCV
人工智能·opencv·计算机视觉
小红红的学习笔记33 分钟前
银从初级个人理财_25_第七章第五节
人工智能·银从初级·个人理财
管二狗赶快去工作!1 小时前
体系结构论文(五十四):Reliability-Aware Runahead 【22‘ HPCA】
人工智能·神经网络·dnn·体系结构·实时系统
AI绘画君1 小时前
Stable Diffusion绘画 | AI 图片智能扩充,超越PS扩图的AI扩图功能(附安装包)
人工智能·ai作画·stable diffusion·aigc·ai绘画·ai扩图
AAI机器之心1 小时前
LLM大模型:开源RAG框架汇总
人工智能·chatgpt·开源·大模型·llm·大语言模型·rag
Evand J1 小时前
物联网智能设备:未来生活的变革者
人工智能·物联网·智能手机·智能家居·智能手表
HyperAI超神经2 小时前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集