为什么我们在 AI 对齐上没有变得更好？

作者：Vishal Rajput

前言： 本文作者以一种极具人文关怀的视角，从 AI 的发展历程切入，逐层揭示出当下技术狂奔背后隐藏的伦理隐患、社会裂痕与意义危机。他大胆质疑权力精英在 AI 发展中的动机，也对超级智能可能带来的"文明结构性瓦解"发出警告。这不是一篇介绍模型原理的科普文，也不是一次未来主义的乐观宣言。它更像是一面镜子，逼我们重新审视：在构建一个由算法驱动的世界时，我们是否已经遗忘了人本身？如果你关心的不只是 AI 能做什么，而是人类还能做什么、还能成为什么------那么这篇文章值得你静下心来，细细读完。

AI 对齐是我非常感兴趣的话题。过去几年我们在 AI 上取得了很多进展，但在 AI 安全和对齐方面却进展甚微。并不是说这个领域没有人在做事，而是相比于整个领域的发展速度，这些工作实在是太微不足道了。为了弄清楚 AI 到底发生了什么，我们需要稍微拉远一点视角，从远处看看这个领域，才能理解当前发展的根本所在。所以，废话不多说，我们就从最开始说起。

从特定 AI 到通用 AI

AI 并不是一个新领域，早在 1960 年代就已经出现了，但那时候的样子跟现在完全不一样。真正让普通人接触到 AI，是在 ChatGPT 发布之后。在那之前，AI 只是少数研究人员和几家公司手里的一个酷炫玩意儿。但现在，它无处不在，甚至出现在我们根本没想到的地方。它已经真正走向全球，变得像互联网一样互联互通。

早期的 AI 是孤立运作的，现在我们正在慢慢但坚定地迈向一个更互联的全球智能系统。说实话，这其实跟人类智慧的发展过程也差不了多少，都是在社区中进化出来的。

早期的 AI 试图建立知识系统，想靠足够大的内存吞下全世界的知识。我们曾经在符号系统上投入了大量精力，试图构建世界知识体系。但这个实验很快就失败了，于是我们转向开发一些更具体的系统，也就是专门为某个明确任务设计的 AI 系统。这方面的早期例子就是国际象棋引擎和其他类似系统。

几十年来我们持续构建更好、更大的系统，它们开始具有一定的泛化能力，但仍然局限在固定领域，它们的跨领域泛化能力非常差。最典型的例子就是 CNN，也就是通过监督学习训练出来的模型。CNN 可以被训练来识别某一类物体，而且这类物体可以是任何一种。

CNN

CNN 和其他类似的特定模型确实表现不错，解决了很多复杂问题，但它们仍然需要在非常特定的数据集上训练。

很快我们意识到，要打造下一代 AI 系统，就必须构建更通用、能零样本（Zero-shot）工作的系统。那什么是零样本呢？零样本模型指的是可以对完全新的一类图片或任务做出预测的模型。这类模型在训练期间从未见过任何跟测试数据类似的东西。

Zero shot

零样本是个挺有意思的想法，但现实中没有哪个模型是真正意义上的零样本。模型会用它训练数据中类似的例子来对新测试数据进行推理。甚至很有可能，人类自己也不是零样本的。

现在我们从特定 AI 进入了通用 AI 的阶段，那我们就来说说目前为止最通用的模型。

教 AI 模型学人类语言

那么，怎么让一个系统变得更通用呢？答案就是：压缩。

如果你学过计算机科学，你会知道任何形式的信息压缩，都会带来泛化。至于这种泛化是否正确，那是另一个问题。

所以问题来了，怎么教 AI 模型进行通用推理呢？答案基本上就是把整个互联网喂给模型看，这就是大型语言模型（LLMs）诞生的方式。

LLM 几乎把整个互联网都看了一遍，并把它们压缩进自己的参数里。LLM 所做的压缩是有损压缩，也就是说你无法还原出训练时模型读过的具体句子。但因为我们喂进去的数据太多了，它开始捕捉到推理的脉络，那种存在于每一句话中的东西。

你可以想象一下，如果你能模糊地记住互联网上的每一句话，只需要把不同部分的信息混合起来，你基本上就能回答别人问你的任何问题，这正是 LLM 所做的事情。

尽管看遍了整个互联网，LLM 仍然远不如人类的推理能力，至少不如聪明的人类。但后来我们找到了让它更聪明的方法，那就是用强化学习（Reinforcement Learning）。

在讲强化学习之前，LLM 光靠一些花哨的模式匹配技术，就已经学会了一些推理的脉络。模型掌握了人类语言的基础，现在只剩下让它像人一样回答问题。

更多细节你可以看这篇论文和博客（两者不一样）：arxiv.org/pdf/2409.07...

教 LLM 推理

我知道我把很多事情简化了，可能遗漏了一些重要的细节，但这篇博客的目的是给大家一个更广阔的视角，看看我们现在处于什么阶段，事情又是如何发展的。

看啊，没有强化学习，模型只能学会人类语言的基础（还不连贯），但我们用一种叫 RLHF（来自人类反馈的强化学习）的方法，让它开始给出人类风格的回答。请不要被"强化学习"这个词搞糊涂了，RLHF 里其实没啥真正的强化学习。它只是一个教模型如何像人类说话的花招，是一种教 LLM 模仿人类语言的方式。

下一步是教模型人类的推理方式，这才是真正用到了强化学习。简单说，我们让人类或正式验证者生成一段推理过程，然后让模型自己去摸索理解人类是怎么推理的。模型会看到很多选项，然后被训练去选出正确的推理路径，过程中它就学会了如何进行推理。这个过程在技术上叫做 policy（策略）。这个策略就是教模型如何推理的，到这个阶段，模型已经变得非常通用了，在大多数语言任务中可以胜过普通人。

但模型胜过人类，主要原因还不是因为它推理能力强，而是因为它见过的内容实在太多了。模型的参数里存了比任何人都多的知识。

那现在到底缺了什么？

自主性。当前的模型一点自主性都没有，只有用户给它指令它才会行动。但我觉得还有一个关键点模型也缺，那就是它并不知道该搜索什么、有趣的东西是什么，而这些对于追求一个有意义的目标来说非常重要。

模型之所以学会推理，是因为它尝试了很多条推理路径，在学习过程中筛掉了错误的那一些。但我还是怀疑模型能否创建出一致的抽象和元结构。

因为模型不像人类那样有一个"内在世界"，所以它很容易被说服相信任何东西，即使这些东西从根本上是错的，甚至跟它自身存储的知识都相矛盾。如果我在训练数据里大量放入"1+1=11"这样的样本，我也能说服它相信这个，即使这违反了加法的基本原理。在大多数时候，模型回答问题还是靠一种有趣的模式匹配方法。

人类在先进 AI 系统面前才是更危险的那一方

真正的危险，其实最先来自人类和他们的贪婪。

Sam Altman，OpenAI 的 CEO， 真的想放弃我们的隐私，只为了让他们第一个造出 AGI。对我个人来说，这正好说明了危险是什么。危险不在于 AI 本身，而在于那些制造 AI 的人会怎么用它。这比 AI 自身的能力要危险得多，至少在可预见的未来是这样。

我根本不会信任像 Sam Altman 这样的人，或者坐在那个位置上的任何人，他们没有任何动力去做到公平。很多人不知道，Sam 曾经向国会隐瞒了自己持有 OpenAI 所有公司股份的事实，却假装自己是在为人类建立这家公司。我不知道他们现在法律上到底是什么身份，但我上次查的时候，他们还打着非营利的旗号。他们根本不是非营利。

甚至连 Anthropic 的 CEO Dario 也改变了立场。你很容易看出他现在和之前观点的区别。他们不断炒作 AI，为的就是给自己公司吸更多的钱。这就是人性，贪婪。

真正花在安全和对齐上的钱其实少得可怜。每一个模型都在输出他们自己的宣传。最好的例子就是中国最新的模型 DeepSeek，它完全被审查，不能说任何对中国不利的话。

AI 模型道德检查，DeepSeek

这些只是现实的一小部分例子。他们打着和平、竞争优势、或者别的旗号，持续侵犯人类隐私，如果有需要，他们甚至不会犹豫去破坏人类的其他基本权利。

危险不止于此，制造生物武器在未来可能会变得非常容易。病毒就是另一个例子。

另一个已经开始发生的大问题，是用 AI 生成的图像进入政治领域，打破了信任。AI 色情也是一个正在快速爆炸的滥用场景。

但我想说的，是一个更危险的用例。随着 AI 能力的增长，很快我们将迎来一个社会------大多数人都沉迷在 AI 生成的内容中无法自拔。

会有一部分人，他们知道的比其他人多得多，以至于能控制整个叙事（而这一点已经在某种程度上发生了）。这次的权力斗争将由"智能"驱动，会导致一个完全分裂的社会：一边是有所成就的人，一边是被干扰的人。

AI 的快速发展，很容易导致社会、政治乃至所有维系我们正常生活的系统彻底崩塌。

AGI / 超级智能的危险

我们假设一下：所有人类都是善良的，而且我们已经实现了 AGI 或超级智能。就算没人拿 AGI 来做坏事，它仍然非常危险。我知道 AGI 和超级智能略有区别，但在这篇文章里，我们就当它们是一样的。

AGI 会带来的第一个大问题，是大规模的意义危机。不是每个人都能成为无私的人或艺术家。大多数人之所以表现得还不错，是因为如果他们不守规矩，会失去很多东西。大多数成年人如果没有工作，只是沉浸在无意义的内容消费中，会极度痛苦。我常说，艺术和社会服务是拯救者，但作为一个艺术家我可以很有信心地说，大多数人根本走不了这条艺术之路。大多数成年人如果没有一个正常的工作环境，会疯掉的。廉价的娱乐，无法带来持久的平静与安宁。

人类文明是靠苦难驱动的，而一旦拥有超级智能，生活会变得太轻松，以至于失去活下去或行动的动力，最终导致道德上的全面崩溃。

大多数人之所以学习，是为了找工作。而在一个你无法和 AI 竞争的世界里，"知识"本身就变得毫无价值。于是超级智能将会养出一代又一代的"傻瓜"。

这只是众多问题中的一个。

第二个问题是，即便从短期看，现有的经济模型也撑不起超级智能的存在。如果人们无法赚钱，他们就无法消费；而他们不消费，公司还给谁生产商品呢？

最恐怖的一点是，如果超级智能导致人类知识的消失，而人类最终沦为一群愚笨的动物，那这智能还有什么内在动机去让人类活着？你盖一栋房子的时候，不会太在意蚂蚁窝的安危吧。对超级智能来说，人类就是蚂蚁。超级智能从长远看，很可能根本不在乎人类的生存。

所以，我们真正需要的是什么？我们不需要超级智能，甚至不需要 AGI。

我们需要的是"超级 AI"，也就是完全专注于单一任务的 AI，一个人类无法解决的任务。最好的例子就是 AlphaFold 2。我们需要的是专用系统，辅助人类，而不是取代人类。重要的是，不应该让每一个任务都变成可以自动化的。

对齐问题

对齐的首要问题是，我们这个社会根本没有一套统一的原则和价值观。所以，要让 AI 去对齐某个个体或群体，是一件非常难的事。

很多人以为对齐只是一个工程问题，但其实不是。这个问题的复杂性并不主要来自对齐的数学（虽然那也很难），而是真正的复杂性来自AI 与人类社会系统的互动。你可以这样想：你有两台计算机，一台是数字的，一台是模拟的，要让这两台互相通信，会极度困难，而且无论怎么做，你都无法把模拟计算的"全部分辨率"传进数字计算中。

AI 与社会结构的互动将会产生一整套全新的问题。说真的，AI 科学家们自己根本没有能力解决这些问题，因为这不是一个纯粹的工程问题。

我们现在已经有一个类似的系统了，而且没有人知道怎么修。社交媒体已经毁掉了无数人的生活，无论从哪个衡量心理健康的标准来看都是这样，但我们却毫无头绪，不知道怎么解决这场危机，特别是对青少年而言。已经有无数研究表明社交媒体的严重负面影响，以及它如何阻碍儿童成长。当然，也有一些人确实正确使用这些工具，但更多人是被它彻底摧毁的。

推荐每一个想了解社交媒体对儿童影响的人都去读一读相关研究。

我们换一种方式来看对齐问题：通过一个案例来思考。你也许不太能完全理解这个例子，但我们还是试一试。

去一个像孟加拉国这样的国家，问问看 AI 对一个日薪工人的生活造成了什么影响。答案是：目前的 AI 对他们的生活几乎没有任何直接影响。而现在的那些影响，大多是由于社会结构的改善带来的，根本不是靠什么先进 AI 模型或推理能力去改善了那些每天靠不到 3 美元活着的人的生活。这正是问题所在：技术扩散需要几十年，而扩散时间越长，权力差距就越大。

作为人类，没有人愿意放弃手中的权力，尤其是一个国家。

我们不知道该怎么给 AI 设定合适的目标，因为我们自己都不知道什么样的目标才算合适。而一旦 AGI 实现，不可能会被公司开放给所有人用。

解决整个对齐问题太难了，那我们能不能只解决一部分子问题呢？

解决更简单的"子对齐"问题
可纠正性（Corrigibility）

这套想法是：系统应该能够纠偏，它不能只是一条从头跑到尾的固定策略，我们应该有能力在执行过程中随时暂停、播放、评估这个策略。

目前市面上已经有一些系统是拒绝纠偏的，最大的问题例子就是社交媒体的控制问题。

有界性（Boundedness）

另一个思路是：有些时候我们确实无法纠偏，那就要通过在系统中加入"有界性"来控制它。就是说，它的策略只能执行到某个阶段。

整个民主制度就是靠有界性运行的：立法、司法和其他很多体系，都是为了限制个体系统的权力。

为了构建这些系统，我们得先搞清楚系统中有哪些子结构，它们能不能被修改。LLM 所采用的有损压缩的最大问题是：几乎无法确定地从模型中移除某些错误知识。这是因为信息在模型权重中是叠加存储的。可能某一部分同时存着正确和错误的信息，在某些情况下，根本不可能只移除那部分坏知识，而不伤及好知识。

今天就先聊到这儿吧，也许以后我们会继续聊聊技术层面上的对齐问题和 AGI。