Agent学习--LLM--推理熵

平时我们用大模型的时候,可以看到虽然最后出来的是一大段话,但是实际上一般都是采用的是流式输出,即一个字一个字的输出出来,而这每个字的生成,本质是agent在不断地推理下一个字或者词是什么,当它遇到关键决策点时,比如在一个需要推理的题目中决定下一步是用"因为"、"所以"还是"假设",就会产生犹豫,此时的agent就像人类一样对不确定的事情会纠结或者迷茫,而agent在思考或决策时的"不确定性"或"迷茫"程度,就是推理熵。

根据AI在决策时的"纠结"程度,主要可以分为以下几种情况:

高熵
  • Agent状态:面对多种可能,需要权衡和选择,处于探索和犹豫的状态;

  • 行为模式:会生成高熵Token,如逻辑转折词"however"、"therefore",或引入新条件的"assume"、"suppose"等

  • 对训练的影响:占推理步骤的少数(约20%),但决定了推理方向和最终结果

  • 示例:在解一道复杂的数学题时,AI在决定下一步是"用方程求解"还是"画图分析"时,熵值会升高

低熵:
  • Agent状态:答案明确,无需多想,像在走一条笔直的大路,处于确定和自信的状态;

  • 行为模式:会生成低熵Token,如句子结尾、常见词组等确定性高的内容;

  • 对训练的影响:占推理步骤的多数(约80%),用于串联和补充细节,并非推理成败的关键。

  • 示例:在写出"1 + 1 = "之后,预测下一个token是"2"时,熵值极低

熵的异常稳定

不过,很多时候,人们会把推理熵的变化当做监控agent推理稳定性的指标,会觉得推理熵的变化稳定的话,agent的处理没问题。但是这里暗含了一个隐形的问题:如果agent只是因为训练了同样的问题多次,熟练度提高了,面对同类的问题,已经自发形成了一套成熟、处理结果极好的处理方法论,此时尽管面对不同的输入,也会有不同的输出。

但是如果查看其训练时的推理轨迹(训练时,agent会被正则化梯度和任务梯度所驱动,前者负责加入噪声,使得输入数据样本多样化;后者则负责驱动其更好地完成任务),会发现,这些熵稳定的背后多数都是任务梯度很小的情况,这其实就是agent对同类问题熟练度很高的表现,此时agent的推理轨迹就变成了正则化梯度导向,"随机性"很强,本末倒置了。当然,相关的解决方法也已经有了,最近有一篇论文(地址)讲的就是通过减少降低任务梯度的奖励prompt的方式,以这种简单的方法,很好地解决了这个问题,使得任务梯度维持在了一个较高的水平。

核采样

语言模型在生成每一步的内容时,会给出一个概率分布(所有可能token的概率),上文提到的降低的方式,就是选择核采样(top-p),而不是top-k,这两者的区别是,后者只是按照概率从高到低排序拿前面的,前者则是按照候选词(即推理时可能用作答案的词语)的累计概率总和排序,这便是重点。单纯的按照概率分布来拿,会因为分布而导致一些问题(分布平坦时可能丢掉合理词;分布极陡时可能保留一堆尾部垃圾词),而按照累积的顺序拿,排序的变化本身便是每次候选词的变化体现,从而能够很好地判断出哪些才是模型真正想要的

相关推荐
沪漂阿龙13 小时前
面试题详解:GraphRAG 全面解析——知识图谱增强 RAG、Local Search、Global Search、社区摘要、工程落地与评估指标一次讲透
人工智能·知识图谱
WangN213 小时前
Unitree RL Lab 学习笔记【通识】
人工智能·机器学习
吃好睡好便好13 小时前
在Matlab中绘制横直方图
开发语言·学习·算法·matlab
haina201913 小时前
海纳AI亮相《科创中国》,解码招聘“智”变之路
人工智能·ai面试·ai招聘
阿星AI工作室13 小时前
刘润年中大课笔记:一句话说清AI落地之战的本质
大数据·人工智能·创业创新·商业
nashane14 小时前
HarmonyOS 6学习:CapsLock键失效诊断与长截图完整实现指南
学习·华为·harmonyos
qingfeng1541514 小时前
企业微信机器人开发:如何实现自动化与智能运营?
人工智能·python·机器人·自动化·企业微信
ChampaignWolf14 小时前
AI插件深度对比 | Copilot、Tabnine、Codeium谁是王者
人工智能·copilot
初心未改HD14 小时前
深度学习之CNN卷积层详解
人工智能·深度学习·cnn
南屹川14 小时前
【CI/CD】持续集成与持续部署:从理论到实践
人工智能