Agent学习--LLM--推理熵

平时我们用大模型的时候,可以看到虽然最后出来的是一大段话,但是实际上一般都是采用的是流式输出,即一个字一个字的输出出来,而这每个字的生成,本质是agent在不断地推理下一个字或者词是什么,当它遇到关键决策点时,比如在一个需要推理的题目中决定下一步是用"因为"、"所以"还是"假设",就会产生犹豫,此时的agent就像人类一样对不确定的事情会纠结或者迷茫,而agent在思考或决策时的"不确定性"或"迷茫"程度,就是推理熵。

根据AI在决策时的"纠结"程度,主要可以分为以下几种情况:

高熵
  • Agent状态:面对多种可能,需要权衡和选择,处于探索和犹豫的状态;

  • 行为模式:会生成高熵Token,如逻辑转折词"however"、"therefore",或引入新条件的"assume"、"suppose"等

  • 对训练的影响:占推理步骤的少数(约20%),但决定了推理方向和最终结果

  • 示例:在解一道复杂的数学题时,AI在决定下一步是"用方程求解"还是"画图分析"时,熵值会升高

低熵:
  • Agent状态:答案明确,无需多想,像在走一条笔直的大路,处于确定和自信的状态;

  • 行为模式:会生成低熵Token,如句子结尾、常见词组等确定性高的内容;

  • 对训练的影响:占推理步骤的多数(约80%),用于串联和补充细节,并非推理成败的关键。

  • 示例:在写出"1 + 1 = "之后,预测下一个token是"2"时,熵值极低

熵的异常稳定

不过,很多时候,人们会把推理熵的变化当做监控agent推理稳定性的指标,会觉得推理熵的变化稳定的话,agent的处理没问题。但是这里暗含了一个隐形的问题:如果agent只是因为训练了同样的问题多次,熟练度提高了,面对同类的问题,已经自发形成了一套成熟、处理结果极好的处理方法论,此时尽管面对不同的输入,也会有不同的输出。

但是如果查看其训练时的推理轨迹(训练时,agent会被正则化梯度和任务梯度所驱动,前者负责加入噪声,使得输入数据样本多样化;后者则负责驱动其更好地完成任务),会发现,这些熵稳定的背后多数都是任务梯度很小的情况,这其实就是agent对同类问题熟练度很高的表现,此时agent的推理轨迹就变成了正则化梯度导向,"随机性"很强,本末倒置了。当然,相关的解决方法也已经有了,最近有一篇论文(地址)讲的就是通过减少降低任务梯度的奖励prompt的方式,以这种简单的方法,很好地解决了这个问题,使得任务梯度维持在了一个较高的水平。

核采样

语言模型在生成每一步的内容时,会给出一个概率分布(所有可能token的概率),上文提到的降低的方式,就是选择核采样(top-p),而不是top-k,这两者的区别是,后者只是按照概率从高到低排序拿前面的,前者则是按照候选词(即推理时可能用作答案的词语)的累计概率总和排序,这便是重点。单纯的按照概率分布来拿,会因为分布而导致一些问题(分布平坦时可能丢掉合理词;分布极陡时可能保留一堆尾部垃圾词),而按照累积的顺序拿,排序的变化本身便是每次候选词的变化体现,从而能够很好地判断出哪些才是模型真正想要的

相关推荐
TE-茶叶蛋12 分钟前
Node.js-Phase 1 学习总结:CLI 文件管理系统
学习·node.js
科技林总1 小时前
EWC/KD/ILR/PL
人工智能
100个铜锣烧8 小时前
高级提示技术:Chain-of-Thought与ReAct——让大模型学会“思考”和“行动”
人工智能·大模型·提示词工程
JackHCC8 小时前
快手OneRetrieval:可编辑生成式电商召回
人工智能·机器学习
前端之虎陈随易8 小时前
编程语言级别的Skill市场,AI Agent 的未来形态
前端·vue.js·人工智能·typescript·node.js
QiLinkOS8 小时前
第三视觉理解徐玉生与他的商业活动(30)
大数据·c++·人工智能·算法·开源协议
武汉唯众智创9 小时前
当汉字成为心理CT:AI汉字联想投射分析的技术实现与心理评估价值
人工智能·ai心理健康·ai心理评估·本土化心理测评·校园心理健康解决方案·ai心理监测·多模态情绪模型
Longvox9 小时前
Agent为什么会死循环?
人工智能·ai编程
Waay9 小时前
面试口述版:个人对 Prometheus 完整理解
运维·学习·云原生·面试·职场和发展·kubernetes·prometheus
陈天伟教授9 小时前
FreeCAD 启动后小窗口闪现即退的解决思路
人工智能·机器人·工业设计