为什么我们在 AI 对齐上没有变得更好?

作者:Vishal Rajput

前言: 本文作者以一种极具人文关怀的视角,从 AI 的发展历程切入,逐层揭示出当下技术狂奔背后隐藏的伦理隐患、社会裂痕与意义危机。他大胆质疑权力精英在 AI 发展中的动机,也对超级智能可能带来的"文明结构性瓦解"发出警告。这不是一篇介绍模型原理的科普文,也不是一次未来主义的乐观宣言。它更像是一面镜子,逼我们重新审视:在构建一个由算法驱动的世界时,我们是否已经遗忘了人本身?如果你关心的不只是 AI 能做什么,而是 人类还能做什么、还能成为什么------那么这篇文章值得你静下心来,细细读完。

AI 对齐是我非常感兴趣的话题。过去几年我们在 AI 上取得了很多进展,但在 AI 安全和对齐方面却进展甚微。并不是说这个领域没有人在做事,而是相比于整个领域的发展速度,这些工作实在是太微不足道了。为了弄清楚 AI 到底发生了什么,我们需要稍微拉远一点视角,从远处看看这个领域,才能理解当前发展的根本所在。所以,废话不多说,我们就从最开始说起。

从特定 AI 到通用 AI

AI 并不是一个新领域,早在 1960 年代就已经出现了,但那时候的样子跟现在完全不一样。真正让普通人接触到 AI,是在 ChatGPT 发布之后。在那之前,AI 只是少数研究人员和几家公司手里的一个酷炫玩意儿。但现在,它无处不在,甚至出现在我们根本没想到的地方。它已经真正走向全球,变得像互联网一样互联互通。

早期的 AI 是孤立运作的,现在我们正在慢慢但坚定地迈向一个更互联的全球智能系统。说实话,这其实跟人类智慧的发展过程也差不了多少,都是在社区中进化出来的。

早期的 AI 试图建立知识系统,想靠足够大的内存吞下全世界的知识。我们曾经在符号系统上投入了大量精力,试图构建世界知识体系。但这个实验很快就失败了,于是我们转向开发一些更具体的系统,也就是专门为某个明确任务设计的 AI 系统。这方面的早期例子就是国际象棋引擎和其他类似系统。

几十年来我们持续构建更好、更大的系统,它们开始具有一定的泛化能力,但仍然局限在固定领域,它们的跨领域泛化能力非常差。最典型的例子就是 CNN,也就是通过监督学习训练出来的模型。CNN 可以被训练来识别某一类物体,而且这类物体可以是任何一种。

CNN

CNN 和其他类似的特定模型确实表现不错,解决了很多复杂问题,但它们仍然需要在非常特定的数据集上训练。

很快我们意识到,要打造下一代 AI 系统,就必须构建更通用、能零样本(Zero-shot)工作的系统。那什么是零样本呢?零样本模型指的是可以对完全新的一类图片或任务做出预测的模型。这类模型在训练期间从未见过任何跟测试数据类似的东西。

Zero shot

零样本是个挺有意思的想法,但现实中没有哪个模型是真正意义上的零样本。模型会用它训练数据中类似的例子来对新测试数据进行推理。甚至很有可能,人类自己也不是零样本的。

现在我们从特定 AI 进入了通用 AI 的阶段,那我们就来说说目前为止最通用的模型。

教 AI 模型学人类语言

那么,怎么让一个系统变得更通用呢?答案就是:压缩。

如果你学过计算机科学,你会知道任何形式的信息压缩,都会带来泛化。至于这种泛化是否正确,那是另一个问题。

所以问题来了,怎么教 AI 模型进行通用推理呢?答案基本上就是把整个互联网喂给模型看,这就是大型语言模型(LLMs)诞生的方式。

LLM 几乎把整个互联网都看了一遍,并把它们压缩进自己的参数里。LLM 所做的压缩是有损压缩,也就是说你无法还原出训练时模型读过的具体句子。但因为我们喂进去的数据太多了,它开始捕捉到推理的脉络,那种存在于每一句话中的东西。

你可以想象一下,如果你能模糊地记住互联网上的每一句话,只需要把不同部分的信息混合起来,你基本上就能回答别人问你的任何问题,这正是 LLM 所做的事情。

尽管看遍了整个互联网,LLM 仍然远不如人类的推理能力,至少不如聪明的人类。但后来我们找到了让它更聪明的方法,那就是用强化学习(Reinforcement Learning)。

在讲强化学习之前,LLM 光靠一些花哨的模式匹配技术,就已经学会了一些推理的脉络。模型掌握了人类语言的基础,现在只剩下让它像人一样回答问题。

更多细节你可以看这篇论文和博客(两者不一样):arxiv.org/pdf/2409.07...

教 LLM 推理

我知道我把很多事情简化了,可能遗漏了一些重要的细节,但这篇博客的目的是给大家一个更广阔的视角,看看我们现在处于什么阶段,事情又是如何发展的。

看啊,没有强化学习,模型只能学会人类语言的基础(还不连贯),但我们用一种叫 RLHF(来自人类反馈的强化学习)的方法,让它开始给出人类风格的回答。请不要被"强化学习"这个词搞糊涂了,RLHF 里其实没啥真正的强化学习。它只是一个教模型如何像人类说话的花招,是一种教 LLM 模仿人类语言的方式。

下一步是教模型人类的推理方式,这才是真正用到了强化学习。简单说,我们让人类或正式验证者生成一段推理过程,然后让模型自己去摸索理解人类是怎么推理的。模型会看到很多选项,然后被训练去选出正确的推理路径,过程中它就学会了如何进行推理。这个过程在技术上叫做 policy(策略)。这个策略就是教模型如何推理的,到这个阶段,模型已经变得非常通用了,在大多数语言任务中可以胜过普通人。

但模型胜过人类,主要原因还不是因为它推理能力强,而是因为它见过的内容实在太多了。模型的参数里存了比任何人都多的知识。

那现在到底缺了什么?

自主性。当前的模型一点自主性都没有,只有用户给它指令它才会行动。但我觉得还有一个关键点模型也缺,那就是它并不知道该搜索什么、有趣的东西是什么,而这些对于追求一个有意义的目标来说非常重要。

模型之所以学会推理,是因为它尝试了很多条推理路径,在学习过程中筛掉了错误的那一些。但我还是怀疑模型能否创建出一致的抽象和元结构。

因为模型不像人类那样有一个"内在世界",所以它很容易被说服相信任何东西,即使这些东西从根本上是错的,甚至跟它自身存储的知识都相矛盾。如果我在训练数据里大量放入"1+1=11"这样的样本,我也能说服它相信这个,即使这违反了加法的基本原理。在大多数时候,模型回答问题还是靠一种有趣的模式匹配方法。

人类在先进 AI 系统面前才是更危险的那一方

真正的危险,其实最先来自人类和他们的贪婪。

Sam Altman,OpenAI 的 CEO, 真的想放弃我们的隐私,只为了让他们第一个造出 AGI。对我个人来说,这正好说明了危险是什么。危险不在于 AI 本身,而在于那些制造 AI 的人会怎么用它。这比 AI 自身的能力要危险得多,至少在可预见的未来是这样。

我根本不会信任像 Sam Altman 这样的人,或者坐在那个位置上的任何人,他们没有任何动力去做到公平。很多人不知道,Sam 曾经向国会隐瞒了自己持有 OpenAI 所有公司股份的事实,却假装自己是在为人类建立这家公司。我不知道他们现在法律上到底是什么身份,但我上次查的时候,他们还打着非营利的旗号。他们根本不是非营利。

甚至连 Anthropic 的 CEO Dario 也改变了立场。你很容易看出他现在和之前观点的区别。他们不断炒作 AI,为的就是给自己公司吸更多的钱。这就是人性,贪婪。

真正花在安全和对齐上的钱其实少得可怜。每一个模型都在输出他们自己的宣传。最好的例子就是中国最新的模型 DeepSeek,它完全被审查,不能说任何对中国不利的话。

AI 模型道德检查,DeepSeek

这些只是现实的一小部分例子。他们打着和平、竞争优势、或者别的旗号,持续侵犯人类隐私,如果有需要,他们甚至不会犹豫去破坏人类的其他基本权利。

危险不止于此,制造生物武器在未来可能会变得非常容易。病毒就是另一个例子。

另一个已经开始发生的大问题,是用 AI 生成的图像进入政治领域,打破了信任。AI 色情也是一个正在快速爆炸的滥用场景。

但我想说的,是一个更危险的用例。随着 AI 能力的增长,很快我们将迎来一个社会------大多数人都沉迷在 AI 生成的内容中无法自拔。

会有一部分人,他们知道的比其他人多得多,以至于能控制整个叙事(而这一点已经在某种程度上发生了)。这次的权力斗争将由"智能"驱动,会导致一个完全分裂的社会:一边是有所成就的人,一边是被干扰的人。

AI 的快速发展,很容易导致社会、政治乃至所有维系我们正常生活的系统彻底崩塌。

AGI / 超级智能的危险

我们假设一下:所有人类都是善良的,而且我们已经实现了 AGI 或超级智能。就算没人拿 AGI 来做坏事,它仍然非常危险。我知道 AGI 和超级智能略有区别,但在这篇文章里,我们就当它们是一样的。

AGI 会带来的第一个大问题,是大规模的意义危机。不是每个人都能成为无私的人或艺术家。大多数人之所以表现得还不错,是因为如果他们不守规矩,会失去很多东西。大多数成年人如果没有工作,只是沉浸在无意义的内容消费中,会极度痛苦。我常说,艺术和社会服务是拯救者,但作为一个艺术家我可以很有信心地说,大多数人根本走不了这条艺术之路。大多数成年人如果没有一个正常的工作环境,会疯掉的。廉价的娱乐,无法带来持久的平静与安宁。

人类文明是靠苦难驱动的,而一旦拥有超级智能,生活会变得太轻松,以至于失去活下去或行动的动力,最终导致道德上的全面崩溃。

大多数人之所以学习,是为了找工作。而在一个你无法和 AI 竞争的世界里,"知识"本身就变得毫无价值。于是超级智能将会养出一代又一代的"傻瓜"。

这只是众多问题中的一个。

第二个问题是,即便从短期看,现有的经济模型也撑不起超级智能的存在。如果人们无法赚钱,他们就无法消费;而他们不消费,公司还给谁生产商品呢?

最恐怖的一点是,如果超级智能导致人类知识的消失,而人类最终沦为一群愚笨的动物,那这智能还有什么内在动机去让人类活着?你盖一栋房子的时候,不会太在意蚂蚁窝的安危吧。对超级智能来说,人类就是蚂蚁。超级智能从长远看,很可能根本不在乎人类的生存。

所以,我们真正需要的是什么?我们不需要超级智能,甚至不需要 AGI。

我们需要的是"超级 AI",也就是完全专注于单一任务的 AI,一个人类无法解决的任务。最好的例子就是 AlphaFold 2。我们需要的是专用系统,辅助 人类,而不是取代人类。重要的是,不应该让每一个任务都变成可以自动化的。

对齐问题

对齐的首要问题是,我们这个社会根本没有一套统一的原则和价值观。所以,要让 AI 去对齐某个个体或群体,是一件非常难的事。

很多人以为对齐只是一个工程问题,但其实不是。这个问题的复杂性并不主要来自对齐的数学(虽然那也很难),而是真正的复杂性来自AI 与人类社会系统的互动。你可以这样想:你有两台计算机,一台是数字的,一台是模拟的,要让这两台互相通信,会极度困难,而且无论怎么做,你都无法把模拟计算的"全部分辨率"传进数字计算中。

AI 与社会结构的互动将会产生一整套全新的问题。说真的,AI 科学家们自己根本没有能力解决这些问题,因为这不是一个纯粹的工程问题。

我们现在已经有一个类似的系统了,而且没有人知道怎么修。社交媒体已经毁掉了无数人的生活,无论从哪个衡量心理健康的标准来看都是这样,但我们却毫无头绪,不知道怎么解决这场危机,特别是对青少年而言。已经有无数研究表明社交媒体的严重负面影响,以及它如何阻碍儿童成长。当然,也有一些人确实正确使用这些工具,但更多人是被它彻底摧毁的。

推荐每一个想了解社交媒体对儿童影响的人都去读一读相关研究。

我们换一种方式来看对齐问题:通过一个案例来思考。你也许不太能完全理解这个例子,但我们还是试一试。

去一个像孟加拉国这样的国家,问问看 AI 对一个日薪工人的生活造成了什么影响。答案是:目前的 AI 对他们的生活几乎没有任何直接影响。而现在的那些影响,大多是由于社会结构的改善带来的,根本不是靠什么先进 AI 模型或推理能力去改善了那些每天靠不到 3 美元活着的人的生活。这正是问题所在:技术扩散需要几十年,而扩散时间越长,权力差距就越大。

作为人类,没有人愿意放弃手中的权力,尤其是一个国家。

我们不知道该怎么给 AI 设定合适的目标,因为我们自己都不知道什么样的目标才算合适。而一旦 AGI 实现,不可能会被公司开放给所有人用。

解决整个对齐问题太难了,那我们能不能只解决一部分子问题呢?

解决更简单的"子对齐"问题
可纠正性(Corrigibility)

这套想法是:系统应该能够纠偏,它不能只是一条从头跑到尾的固定策略,我们应该有能力在执行过程中随时暂停、播放、评估这个策略。

目前市面上已经有一些系统是拒绝纠偏的,最大的问题例子就是社交媒体的控制问题。

有界性(Boundedness)

另一个思路是:有些时候我们确实无法纠偏,那就要通过在系统中加入"有界性"来控制它。就是说,它的策略只能执行到某个阶段。

整个民主制度就是靠有界性运行的:立法、司法和其他很多体系,都是为了限制个体系统的权力。

为了构建这些系统,我们得先搞清楚系统中有哪些子结构,它们能不能被修改。LLM 所采用的有损压缩的最大问题是:几乎无法确定地从模型中移除某些错误知识。这是因为信息在模型权重中是叠加存储的。可能某一部分同时存着正确和错误的信息,在某些情况下,根本不可能只移除那部分坏知识,而不伤及好知识。

今天就先聊到这儿吧,也许以后我们会继续聊聊技术层面上的对齐问题和 AGI。

相关推荐
MiaoChuPPT5 分钟前
AI PPT哪家强?2025年4款高效工具深度测评
人工智能·powerpoint
Awesome Baron18 分钟前
A Brief History: from GPT-1 to GPT-3
人工智能·gpt·gpt-3
果冻人工智能25 分钟前
SmolDocling文档处理模型介绍
人工智能
TianFuRuanJian1 小时前
天洑参展2025全球产业科技创新与投资促进大会
人工智能·工业软件
你觉得2051 小时前
山东大学:《DeepSeek应用与部署》|附PPT下载方法
大数据·人工智能·python·机器学习·ai·aigc·内容运营
一尘之中1 小时前
不落因果与不昧因果
人工智能
本本的小橙子1 小时前
第38周:文献阅读
人工智能·深度学习·tensorflow
Wnq100721 小时前
智慧城市智慧调度系统的架构与关键技术研究
人工智能·架构·智慧城市·big data
星辰大海的精灵1 小时前
SpringAI轻松构建MCP Client-Server架构
人工智能·后端·架构
果冻人工智能1 小时前
判断 Python 代码是不是 AI 写的几个简单方法
人工智能