Agent学习--LLM--推理熵

平时我们用大模型的时候,可以看到虽然最后出来的是一大段话,但是实际上一般都是采用的是流式输出,即一个字一个字的输出出来,而这每个字的生成,本质是agent在不断地推理下一个字或者词是什么,当它遇到关键决策点时,比如在一个需要推理的题目中决定下一步是用"因为"、"所以"还是"假设",就会产生犹豫,此时的agent就像人类一样对不确定的事情会纠结或者迷茫,而agent在思考或决策时的"不确定性"或"迷茫"程度,就是推理熵。

根据AI在决策时的"纠结"程度,主要可以分为以下几种情况:

高熵
  • Agent状态:面对多种可能,需要权衡和选择,处于探索和犹豫的状态;

  • 行为模式:会生成高熵Token,如逻辑转折词"however"、"therefore",或引入新条件的"assume"、"suppose"等

  • 对训练的影响:占推理步骤的少数(约20%),但决定了推理方向和最终结果

  • 示例:在解一道复杂的数学题时,AI在决定下一步是"用方程求解"还是"画图分析"时,熵值会升高

低熵:
  • Agent状态:答案明确,无需多想,像在走一条笔直的大路,处于确定和自信的状态;

  • 行为模式:会生成低熵Token,如句子结尾、常见词组等确定性高的内容;

  • 对训练的影响:占推理步骤的多数(约80%),用于串联和补充细节,并非推理成败的关键。

  • 示例:在写出"1 + 1 = "之后,预测下一个token是"2"时,熵值极低

熵的异常稳定

不过,很多时候,人们会把推理熵的变化当做监控agent推理稳定性的指标,会觉得推理熵的变化稳定的话,agent的处理没问题。但是这里暗含了一个隐形的问题:如果agent只是因为训练了同样的问题多次,熟练度提高了,面对同类的问题,已经自发形成了一套成熟、处理结果极好的处理方法论,此时尽管面对不同的输入,也会有不同的输出。

但是如果查看其训练时的推理轨迹(训练时,agent会被正则化梯度和任务梯度所驱动,前者负责加入噪声,使得输入数据样本多样化;后者则负责驱动其更好地完成任务),会发现,这些熵稳定的背后多数都是任务梯度很小的情况,这其实就是agent对同类问题熟练度很高的表现,此时agent的推理轨迹就变成了正则化梯度导向,"随机性"很强,本末倒置了。当然,相关的解决方法也已经有了,最近有一篇论文(地址)讲的就是通过减少降低任务梯度的奖励prompt的方式,以这种简单的方法,很好地解决了这个问题,使得任务梯度维持在了一个较高的水平。

核采样

语言模型在生成每一步的内容时,会给出一个概率分布(所有可能token的概率),上文提到的降低的方式,就是选择核采样(top-p),而不是top-k,这两者的区别是,后者只是按照概率从高到低排序拿前面的,前者则是按照候选词(即推理时可能用作答案的词语)的累计概率总和排序,这便是重点。单纯的按照概率分布来拿,会因为分布而导致一些问题(分布平坦时可能丢掉合理词;分布极陡时可能保留一堆尾部垃圾词),而按照累积的顺序拿,排序的变化本身便是每次候选词的变化体现,从而能够很好地判断出哪些才是模型真正想要的

相关推荐
DogDaoDao6 分钟前
【GitHub】 Headroom 深度解析:AI Agent 上下文压缩层的完整技术拆解
人工智能·深度学习·程序员·github·ai agent·智能体·agent skill
挖坑的张师傅12 分钟前
方便 Mac 本机运行 e2b 的沙箱方案 e2b-local
人工智能·后端
生成论实验室18 分钟前
认知芯片:让判断力在物理定律上运行——AI芯片的第三条路
人工智能·语言模型·机器人·自动驾驶·安全架构
浦信仿真大讲堂18 分钟前
达索系统SIMULIA Abaqus 2026接触和约束的增强新功能介绍
人工智能·python·算法·仿真软件·达索软件
文艺倾年25 分钟前
【强化学习】MDP、贝尔曼方程与CartPole 编程,20W字总结(二)
人工智能·软件工程·强化学习
ttt606_31 分钟前
门店业绩上报系统功能拆解:门店业绩上报如何提高数据精确度与时效性?
大数据·人工智能
phltxy32 分钟前
Spring AI 可观测性与 Zipkin 实战
java·人工智能·spring
ACP广源盛1392462567336 分钟前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
HIT_Weston43 分钟前
117、【Agent】【OpenCode】项目配置(根目录&子包配置)
人工智能·agent·opencode
多年小白43 分钟前
【周末消息汇总】2026年6月12日-14日——放量突破,明日开盘策略
人工智能·ai