Agent学习--LLM--推理熵

平时我们用大模型的时候,可以看到虽然最后出来的是一大段话,但是实际上一般都是采用的是流式输出,即一个字一个字的输出出来,而这每个字的生成,本质是agent在不断地推理下一个字或者词是什么,当它遇到关键决策点时,比如在一个需要推理的题目中决定下一步是用"因为"、"所以"还是"假设",就会产生犹豫,此时的agent就像人类一样对不确定的事情会纠结或者迷茫,而agent在思考或决策时的"不确定性"或"迷茫"程度,就是推理熵。

根据AI在决策时的"纠结"程度,主要可以分为以下几种情况:

高熵
  • Agent状态:面对多种可能,需要权衡和选择,处于探索和犹豫的状态;

  • 行为模式:会生成高熵Token,如逻辑转折词"however"、"therefore",或引入新条件的"assume"、"suppose"等

  • 对训练的影响:占推理步骤的少数(约20%),但决定了推理方向和最终结果

  • 示例:在解一道复杂的数学题时,AI在决定下一步是"用方程求解"还是"画图分析"时,熵值会升高

低熵:
  • Agent状态:答案明确,无需多想,像在走一条笔直的大路,处于确定和自信的状态;

  • 行为模式:会生成低熵Token,如句子结尾、常见词组等确定性高的内容;

  • 对训练的影响:占推理步骤的多数(约80%),用于串联和补充细节,并非推理成败的关键。

  • 示例:在写出"1 + 1 = "之后,预测下一个token是"2"时,熵值极低

熵的异常稳定

不过,很多时候,人们会把推理熵的变化当做监控agent推理稳定性的指标,会觉得推理熵的变化稳定的话,agent的处理没问题。但是这里暗含了一个隐形的问题:如果agent只是因为训练了同样的问题多次,熟练度提高了,面对同类的问题,已经自发形成了一套成熟、处理结果极好的处理方法论,此时尽管面对不同的输入,也会有不同的输出。

但是如果查看其训练时的推理轨迹(训练时,agent会被正则化梯度和任务梯度所驱动,前者负责加入噪声,使得输入数据样本多样化;后者则负责驱动其更好地完成任务),会发现,这些熵稳定的背后多数都是任务梯度很小的情况,这其实就是agent对同类问题熟练度很高的表现,此时agent的推理轨迹就变成了正则化梯度导向,"随机性"很强,本末倒置了。当然,相关的解决方法也已经有了,最近有一篇论文(地址)讲的就是通过减少降低任务梯度的奖励prompt的方式,以这种简单的方法,很好地解决了这个问题,使得任务梯度维持在了一个较高的水平。

核采样

语言模型在生成每一步的内容时,会给出一个概率分布(所有可能token的概率),上文提到的降低的方式,就是选择核采样(top-p),而不是top-k,这两者的区别是,后者只是按照概率从高到低排序拿前面的,前者则是按照候选词(即推理时可能用作答案的词语)的累计概率总和排序,这便是重点。单纯的按照概率分布来拿,会因为分布而导致一些问题(分布平坦时可能丢掉合理词;分布极陡时可能保留一堆尾部垃圾词),而按照累积的顺序拿,排序的变化本身便是每次候选词的变化体现,从而能够很好地判断出哪些才是模型真正想要的

相关推荐
码点滴5 小时前
私有 Gateway 接入企业 IM:从消息路由到多租户隔离——Hermes Agent 工程实战
人工智能·架构·gateway·prompt·智能体·hermes
财迅通Ai5 小时前
德适发布医疗AI评测平台DoctorBench 智诊科技、谷歌、OpenAl位列三甲
人工智能·科技·德适-b
xiaozhazha_5 小时前
企业级AI视频会议私有化部署实践:应对安全合规与成本挑战的技术架构解析
人工智能·安全·架构
Mr数据杨5 小时前
飞船乘客状态预测与金融风控建模启发
大数据·机器学习·数据分析·kaggle
金融小师妹5 小时前
AI治理框架下的货币政策接续:鲍威尔理事留任机制与决策权迁移的系统博弈
大数据·人工智能·逻辑回归·能源
Elcker5 小时前
RAG教程-基础篇-第二节 RAG的技术原理
人工智能·ai编程·rag
xindoo5 小时前
AI第一剑,先斩程序员
人工智能
互联科技报5 小时前
2026年第一季度短视频矩阵视频混剪头部工具市场动态深度解析
人工智能·矩阵·音视频
吃着火锅x唱着歌5 小时前
深度探索C++对象模型 学习笔记 第四章 Function语意学(2)
c++·笔记·学习
wayz115 小时前
Day 18:Keras深度学习框架入门
人工智能·深度学习·神经网络·算法·机器学习·keras