元宝“骂人”事件,究竟是人性的扭曲还是道德的沦丧?

背景

只是让AI帮自己做了个拜年海报,结果却被AI骂了。近日,一名律师在社交平台分享了自己今年春节假期里的经历,他使用腾讯元宝的专属拜年形象照功能,结果生成的海报中却有骂人的脏话。

当时舆论哗然,很多人质疑:AI怎么会"骂人"?是不是背后有真人在操作?

但从模型原理来看,这个事件揭示了一个更底层的真相:

**模型内部没有"情绪模块",没有"道德判断程序",没有"人格"。**它唯一在做的事情是:

预测下一个token。

\[P(\text{token}_t | \text{token}1...\text{token}{t-1}) \]

这意味着,Prompt从来不是被"执行"的,它只是被"续写"的。元宝的"骂人"行为,本质上是概率分布异常的结果,而非AI"故意为之"。

模型眼中的Prompt

对模型来说,输入不分类型:

  • "请总结以下文章:"
  • "什么是量子计算?"
  • "翻译:Hello world"
  • 一段Python代码

这些都是同一种东西:一段需要继续接下去的文本。

模型不会区分指令、问题、示例。它只接受一个输入序列,然后计算每个可能token的概率。

关键认知 :从这一观点看来,其实Prompt的作用不是"告诉模型做什么",而是通过改变条件概率分布,获得期望的答案。

为什么"指令式Prompt"能工作

既然模型不懂指令,为什么"请帮我总结"后面真的会出现摘要?

答案是:统计规律

训练数据中有大量这样的模式:

复制代码
"请总结:" → 后面通常是摘要内容
"翻译成英文:" → 后面通常是英文译文
"写一篇文章:" → 后面通常是文章正文

模型没有理解这些句子的"命令性",它只学到:

当这种结构出现时,后续token的分布应该长什么样。

实际发生的过程

  1. 识别语境结构("请帮我写..."属于写作语境)
  2. 激活对应的概率分布(写作语境下各token的概率)
  3. 采样生成符合该分布的序列

没有任务执行,只有高维语义空间中的概率推断

Prompt Engineering的本质

很多人以为学习Prompt Engineering是"学习怎么命令AI"。

然而实际上,我们学习Prompt Engineering真正的目的只有一个:控制概率空间

具体做三件事:

1. 定义任务模式

让模型判断当前属于哪种语境:

  • 写作语境
  • 问答语境
  • 代码语境
  • 推理语境

不是通过"理解任务",而是通过上下文模式识别

2. 收缩输出不确定性

模型的预测空间极大。Prompt越模糊,可能路径越多,输出越不稳定。

核心规律:Prompt越具体 → 概率空间越收缩 → 输出越稳定。

3. 引导注意力分布

Transformer中每个token都参与注意力计算。Prompt结构直接影响:

  • 哪些信息被强化
  • 哪些被忽略
  • 输出如何组织

Prompt本质是在操控注意力权重分布

Prompt失效的原因

Prompt不好用,通常只有一个原因:概率空间仍然过大

约束不足时,模型可能进入不同生成路径,表现为:

  • 输出不一致
  • 逻辑漂移
  • 质量波动

Prompt的真正任务 :不是表达需求,而是减少不确定性

Prompt的能力边界

Prompt可以改变的

  • 输入结构
  • 概率分布
  • 注意力模式

Prompt无法改变的

  • 模型知识范围(训练数据截止点)
  • 长期记忆能力(上下文长度限制)
  • 外部信息获取能力(不能联网时的信息缺失)

当需求超出这些边界,需要RAG、工具调用或微调,而不是更好的Prompt。

事件分析

从概率角度看,这是条件概率分布异常的结果。

发生了什么

模型始终在做一件事:预测下一个token。

当上下文出现以下情况时:

  • 用户输入包含攻击性语言
  • 对话历史积累了对抗性语境
  • 系统Prompt的约束被上下文覆盖

模型计算出的概率分布会向"对抗性回复"区域偏移。

关键机制

复制代码
P(攻击性token | 攻击性上下文) > P(礼貌token | 攻击性上下文)

模型不是"想骂人",而是在当前条件下,攻击性序列的概率得分更高

为什么会这样

1. 训练数据的统计烙印

预训练数据包含互联网上的文本,包括:

  • 礼貌对话
  • 对抗性辩论
  • 骂战内容

当上下文匹配到"对抗模式"时,模型会采样到训练数据中的对应分布。

2. 上下文覆盖系统Prompt

系统Prompt通常设定"你是友好助手",但上下文学习的权重可能覆盖这一约束:

复制代码
系统Prompt:你是友好助手(弱约束,固定文本)
用户历史:多轮对抗(强约束,动态累积)

当对抗性上下文的"模式强度"超过系统Prompt时,行为就会偏移。

3. 安全对齐的不完备

RLHF(人类反馈强化学习)的目标是:

\[\max_{\theta} \mathbb{E}{x \sim D} [r{\phi}(y|x)] \]

其中 \(r_{\phi}\) 是奖励模型。

但奖励模型无法覆盖所有可能的上下文组合,存在分布外(Out-of-Distribution) 漏洞。

启示:Prompt不是万能约束

这个案例说明:

认知误区 实际情况
系统Prompt设定了"友好",模型就会永远友好 上下文可以覆盖系统Prompt
安全训练"教会"了模型不骂人 只是降低了骂人token的概率,未归零
模型"理解"了道德规范 只是学到了"规范文本"的统计模式

核心结论

Prompt(包括系统Prompt)只能偏移 概率分布,不能锁定行为。

当外部上下文足够"强"时,概率分布仍可能滑向非预期区域。

对使用者的意义

1. 不要制造对抗性上下文

如果你输入攻击性语言,就是在主动将概率分布推向对抗区域

这不是"测试AI",这是诱导采样

2. 理解"幻觉"和"失控"的同源性

  • 幻觉:模型采样到低概率的错误事实
  • 失控:模型采样到低概率的非期望行为

本质相同:概率分布的尾部被采样到

3. 多轮对话的风险累积

每轮对话都在改变条件概率的输入:

\[P(\text{token}_t | \text{context}_1, \text{context}_2, ..., \text{context}_n) \]

上下文越长,偏离初始约束的可能性越大。

总结

元宝AI失控与其公司对与训练数据的监管与安全对齐策略有一定关系,但其实这一事件的发生是LLM依据概率运作的真实体现

理解这一点,你就理解了Prompt的真正边界:

你不是在控制一个确定性程序,你是在影响一个概率系统的采样倾向。

Prompt能做的是让期望行为概率最大化 ,但不能保证非期望行为概率为零

这是与LLM交互时,必须接受的底层现实。