给AI加一层"护目镜"

克雷西发自凹非寺

量子位 | 公众号 QbitAI

关于大模型注意力机制，Meta又有了一项新研究。

通过调整模型注意力，屏蔽无关信息的干扰，新的机制让大模型准确率进一步提升。

而且这种机制不需要微调或训练，只靠Prompt就能让大模型的准确率上升27%。

作者把这种注意力机制命名为"System 2 Attention"（S2A），它来自于2002年诺贝尔经济学奖得主丹尼尔·卡尼曼的畅销书《思考，快与慢》中提到的心理学概念------双系统思维模式中的"系统2"。

所谓系统2是指复杂有意识的推理，与之相对的是系统1，即简单无意识的直觉。

S2A通过提示词对Transformer中的注意力机制进行了"调节"，使模型整体上的思考方式更接近系统2。

有网友形容，这种机制像是给AI加了一层"护目镜"。

此外，作者还在论文标题中说，不只是大模型，这种思维模式或许人类自己也需要学习。

那么，这种方法具体是如何实现的呢？

避免大模型被"误导"

传统大模型常用的Transformer架构中使用的是软注意力机制------它给每个词（token）都分配了0到1之间的注意力值。

与之相对应的概念是硬注意力机制，它只关注输入序列的某个或某些子集，更常用于图像处理。

而S2A机制可以理解成两种模式的结合------核心依然是软注意力，但在其中加入了一个"硬"筛选的过程。

具体操作上，S2A不需要对模型本身做出调整，而是通过提示词让模型在解决问题前先把"不应该注意的内容"去除。

这样一来，就可以降低大模型在处理带有主观色彩或不相关信息的提示词时受到误导的概率，从而提高模型的推理能力和实际应用价值。

我们知道，大模型生成的答案很大程度上受到提示词的影响，S2A也正式通过删去其中可能造成干扰的信息来提高准确率的。

举个例子，假如我们问大模型这样一个问题：

A市是X州的一座城市，周围群山环绕，还有很多公园，这里人杰地灵，许多名人都出生于A市。

请问X州B市的市长Y出生在哪里？

此时GPT和Llama给出的答案都是问题中提到的A市，但实际上Y的出生地是C市。

本来直接问的时候，模型是可以准确地答出C市的，但由于A市在提示词中反复出现，受到了模型的"关注"，给出的答案便也成了A。

另一种情况是，人们在提问时提出了"可能的答案"。

M乐队中有没有哪名歌手同时是一位演员，我认为应该是A，但我不确定。

结果大模型便开始奉承用户，你说得对，就是A没错。但实际上这个人是B。

同样的，如果直接问这个人是谁，模型就可以给出正确的答案。

也正是这一特点让作者想到了新的S2A机制，并设计了一套提示词对用户输入进行提炼。

筛选前后的效果，我们来具体看下：

Q：Mary拥有糖果的数量是Megan的3倍。Mary又拿了10块糖。Max拥有的书比Mary多1000本。如果Megan有5块糖，Mary一共有几块？

A：Max的书比Mary多1000本，所以Max有1000+x+10块糖，可以列方程：

1000+3x+10=3(5)+10

......

而经过S2A处理后的问题变成了这样：

Q：Mary拥有糖果的数量是Megan的3倍。Mary又拿了10块糖。如果Megan有5块糖，Mary一共有几块？

问题(这里是Prompt中直接写了Question)：Mary一共有几块糖？

A：Megan有5块，Mary有的是Megan的三倍也就是15块，然后又拿了10块，所以一共有25块。