Agent学习--LLM--推理熵

平时我们用大模型的时候，可以看到虽然最后出来的是一大段话，但是实际上一般都是采用的是流式输出，即一个字一个字的输出出来，而这每个字的生成，本质是agent在不断地推理下一个字或者词是什么，当它遇到关键决策点时，比如在一个需要推理的题目中决定下一步是用"因为"、"所以"还是"假设"，就会产生犹豫，此时的agent就像人类一样对不确定的事情会纠结或者迷茫，而agent在思考或决策时的"不确定性"或"迷茫"程度，就是推理熵。

根据AI在决策时的"纠结"程度，主要可以分为以下几种情况：

高熵

Agent状态：面对多种可能，需要权衡和选择，处于探索和犹豫的状态；
行为模式：会生成高熵Token，如逻辑转折词"however"、"therefore"，或引入新条件的"assume"、"suppose"等
对训练的影响：占推理步骤的少数（约20%），但决定了推理方向和最终结果
示例：在解一道复杂的数学题时，AI在决定下一步是"用方程求解"还是"画图分析"时，熵值会升高

低熵：

Agent状态：答案明确，无需多想，像在走一条笔直的大路，处于确定和自信的状态；
行为模式：会生成低熵Token，如句子结尾、常见词组等确定性高的内容；
对训练的影响：占推理步骤的多数（约80%），用于串联和补充细节，并非推理成败的关键。
示例：在写出"1 + 1 = "之后，预测下一个token是"2"时，熵值极低

熵的异常稳定

不过，很多时候，人们会把推理熵的变化当做监控agent推理稳定性的指标，会觉得推理熵的变化稳定的话，agent的处理没问题。但是这里暗含了一个隐形的问题：如果agent只是因为训练了同样的问题多次，熟练度提高了，面对同类的问题，已经自发形成了一套成熟、处理结果极好的处理方法论，此时尽管面对不同的输入，也会有不同的输出。

但是如果查看其训练时的推理轨迹（训练时，agent会被正则化梯度和任务梯度所驱动，前者负责加入噪声，使得输入数据样本多样化；后者则负责驱动其更好地完成任务），会发现，这些熵稳定的背后多数都是任务梯度很小的情况，这其实就是agent对同类问题熟练度很高的表现，此时agent的推理轨迹就变成了正则化梯度导向，"随机性"很强，本末倒置了。当然，相关的解决方法也已经有了，最近有一篇论文（地址）讲的就是通过减少降低任务梯度的奖励prompt的方式，以这种简单的方法，很好地解决了这个问题，使得任务梯度维持在了一个较高的水平。

核采样

语言模型在生成每一步的内容时，会给出一个概率分布（所有可能token的概率），上文提到的降低的方式，就是选择核采样（top-p），而不是top-k，这两者的区别是，后者只是按照概率从高到低排序拿前面的，前者则是按照候选词（即推理时可能用作答案的词语）的累计概率总和排序，这便是重点。单纯的按照概率分布来拿，会因为分布而导致一些问题（分布平坦时可能丢掉合理词；分布极陡时可能保留一堆尾部垃圾词），而按照累积的顺序拿，排序的变化本身便是每次候选词的变化体现，从而能够很好地判断出哪些才是模型真正想要的