Agent学习--LLM--推理熵

平时我们用大模型的时候,可以看到虽然最后出来的是一大段话,但是实际上一般都是采用的是流式输出,即一个字一个字的输出出来,而这每个字的生成,本质是agent在不断地推理下一个字或者词是什么,当它遇到关键决策点时,比如在一个需要推理的题目中决定下一步是用"因为"、"所以"还是"假设",就会产生犹豫,此时的agent就像人类一样对不确定的事情会纠结或者迷茫,而agent在思考或决策时的"不确定性"或"迷茫"程度,就是推理熵。

根据AI在决策时的"纠结"程度,主要可以分为以下几种情况:

高熵
  • Agent状态:面对多种可能,需要权衡和选择,处于探索和犹豫的状态;

  • 行为模式:会生成高熵Token,如逻辑转折词"however"、"therefore",或引入新条件的"assume"、"suppose"等

  • 对训练的影响:占推理步骤的少数(约20%),但决定了推理方向和最终结果

  • 示例:在解一道复杂的数学题时,AI在决定下一步是"用方程求解"还是"画图分析"时,熵值会升高

低熵:
  • Agent状态:答案明确,无需多想,像在走一条笔直的大路,处于确定和自信的状态;

  • 行为模式:会生成低熵Token,如句子结尾、常见词组等确定性高的内容;

  • 对训练的影响:占推理步骤的多数(约80%),用于串联和补充细节,并非推理成败的关键。

  • 示例:在写出"1 + 1 = "之后,预测下一个token是"2"时,熵值极低

熵的异常稳定

不过,很多时候,人们会把推理熵的变化当做监控agent推理稳定性的指标,会觉得推理熵的变化稳定的话,agent的处理没问题。但是这里暗含了一个隐形的问题:如果agent只是因为训练了同样的问题多次,熟练度提高了,面对同类的问题,已经自发形成了一套成熟、处理结果极好的处理方法论,此时尽管面对不同的输入,也会有不同的输出。

但是如果查看其训练时的推理轨迹(训练时,agent会被正则化梯度和任务梯度所驱动,前者负责加入噪声,使得输入数据样本多样化;后者则负责驱动其更好地完成任务),会发现,这些熵稳定的背后多数都是任务梯度很小的情况,这其实就是agent对同类问题熟练度很高的表现,此时agent的推理轨迹就变成了正则化梯度导向,"随机性"很强,本末倒置了。当然,相关的解决方法也已经有了,最近有一篇论文(地址)讲的就是通过减少降低任务梯度的奖励prompt的方式,以这种简单的方法,很好地解决了这个问题,使得任务梯度维持在了一个较高的水平。

核采样

语言模型在生成每一步的内容时,会给出一个概率分布(所有可能token的概率),上文提到的降低的方式,就是选择核采样(top-p),而不是top-k,这两者的区别是,后者只是按照概率从高到低排序拿前面的,前者则是按照候选词(即推理时可能用作答案的词语)的累计概率总和排序,这便是重点。单纯的按照概率分布来拿,会因为分布而导致一些问题(分布平坦时可能丢掉合理词;分布极陡时可能保留一堆尾部垃圾词),而按照累积的顺序拿,排序的变化本身便是每次候选词的变化体现,从而能够很好地判断出哪些才是模型真正想要的

相关推荐
AI科技星2 小时前
全维度相对论推导、光速螺旋时空与北斗 GEO 钟差的统一理论
开发语言·线性代数·算法·机器学习·数学建模
小鹿软件办公2 小时前
OpenAI 面向高频用户推出全新 100 美元档 ChatGPT Pro 套餐
人工智能·chatgpt
ECT-OS-JiuHuaShan2 小时前
科学的本来意义,是基于规范的共识逻辑,而非共识方法
人工智能·科技·学习·算法·生活
CoderJia程序员甲2 小时前
GitHub 热榜项目 - 日榜(2026-04-09)
人工智能·ai·大模型·github·ai教程
chaofan9802 小时前
从文字响应到动态沙盒:深度解析 Gemini 交互模拟 API 的技术实现与集成
人工智能·交互·api
hay_lee2 小时前
匿名屠榜,阿里认领:HappyHorse 1.0 如何重写AI视频生成规则?
人工智能·音视频
无忧智库2 小时前
某新区“十五五”智慧城市数字底座与数字孪生城市建设全栈技术深度解析(WORD)
人工智能·物联网·智慧城市
知识分享小能手2 小时前
MongoDB入门学习教程,从入门到精通,MongoDB的了解应用程序的动态(18)
数据库·学习·mongodb
kishu_iOS&AI2 小时前
机器学习 —— 线性回归(实例)
人工智能·python·机器学习·线性回归