跟着蚂蚁走,它们知道路:用 ACO-ToT 增强 LLM 推理能力

跟着蚂蚁走,它们知道路:用 ACO-ToT 增强 LLM 推理能力

利用群体智能和思维树优化解锁高级 AI 推理能力

Salvatore Raieli

                                                                作者使用 AI 生成的图片

"我发现,如果你仔细观察这个美丽的世界,总能在下面找到红蚂蚁。"------大卫·林奇

大语言模型(LLMs)展现出了极大的能力,模仿了一些通常与人类相关的技能,比如解决数学问题或写出看似富有创意的文本。这一点在多个基准测试的持续进展中得到了证明。然而,这并不意味着它们不会产生错误或计算效率低下。特别是在需要战略规划、探索或计算的应用中,这些限制尤为明显。

为了尝试解决这些模型的局限性,人们提出了一些基于认知科学原理的技术。例如,思维链(Chain-of-Thought, CoT)试图让模型推理出中间步骤,而不是直接给出答案。这种方法也成为了最近深度推理模型的基础。然而,普通的 CoT 只评估解决问题的一种方法,而人类会探索多种潜在的解决方案。因此,思维树(Tree-of-Thought, ToT)或思维图(Graph-of-Thought, GoT)等技术超越了 CoT 的线性进程,探索不同的想法。但这些方法的缺点是,它们的计算成本会随着中间步骤的增加而增长。

如何在优化过程的同时探索不同的解决路径?我们能否在不牺牲性能的情况下高效地探索不同的推理路径?

在本文中,我们探讨了这个问题,以及一些研究人员如何从蚂蚁的运动中找到解决方案。

人工智能正在改变我们的世界,塑造我们的生活和工作方式。理解它的运作方式及其影响从未如此重要。如果你想要简单、清晰地理解复杂的 AI 话题,你来对地方了。点击关注或免费订阅,以获取我最新的故事和见解。

在这篇新发表的论文中,研究者提出将蚁群优化(Ant Colony Optimization, ACO)应用到 LLMs 中,以优化推理空间。ACO 是一种受自然启发的元启发式算法,常用于解决优化问题,特别是像旅行商问题(TSP)这样的组合优化问题。它模仿了真实蚂蚁的觅食行为,蚂蚁利用信息素找到从巢穴到食物源的最短路径。

该过程可以总结为四个步骤:

  1. 蚂蚁最初随机移动,在探索环境的同时留下信息素路径。

  2. 当蚂蚁找到食物后,它会返回巢穴,同时在路径上加强信息素,使其他蚂蚁更倾向于选择信息素浓度较高的路径。

  3. 但信息素会随时间蒸发,防止系统收敛到次优解,并促使蚂蚁继续探索。

  4. 蚂蚁基于概率选择路径,概率由信息素的强度决定。信息素越强,蚂蚁选择该路径的可能性就越大。

从数学上讲,这可以表示为一个图,其中蚂蚁从节点 i 选择路径 j 的概率如下:

其中 Pij 是从 i 到 j 的路径选择概率,τij 是边 (i, j) 上信息素的强度,η 是距离的缩放系数(1/距离),N 是节点数。我们可以通过 α 来定义信息素的影响,通过 β 来控制距离的影响。

在每次迭代后,信息素水平根据以下公式更新:

其中 ρ 是蒸发率,m 是蚂蚁的数量,Δτijk 是蚂蚁 k 添加的信息素数量。

该算法鲁棒、灵活,并符合人脑的某些原理,比如赫布学习(Hebbian learning)。赫布学习是一种神经科学原理,指的是当神经元反复被激活时,它们之间的突触连接会变得更强(通常用一句话概括:"一起触发的神经元,会连接在一起")。文章作者认为,这种原理可以与思维树(ToT)等方法结合。

"我们提出 ACO 引导的思维树(ACO-ToT),这是一种新算法,它结合了 ToT 的探索能力和 ACO 的集体智能,以发现最优的推理路径。"------来源

在这里,我们可以想象"蚂蚁"就是我们的 LLMs,它们在搜索高质量的思维(食物)。图从问题 x 开始,生成思维树 T(每个节点代表一个推理状态,每条边代表从一个思维到另一个思维的过渡)。

有多个 LLMs(类似于 ACO 中的多个蚂蚁)在我们的图中穿梭。这里,这些 LLMs 是经过不同推理能力微调的模型,提供不同的专业知识。在每个时间步 t,我们的蚂蚁(LLM)从一个思维跳到另一个思维,并释放信息素:

如何评估是否找到了食物?

每条路径 P 是一系列思维(思维链),我们评估其质量 Q(P):

其中 C(P) 是语义一致性(通过嵌入计算两个思维的余弦相似度),L(P) 用于惩罚过长的路径(基于路径长度的负对数),M(P) 是专家模型评分(多个 LLM 的评分),w1, w2, w3 是平衡这些项的权重。

在这个阶段,∆τ k ij = Q(Pk),信息素水平根据以下公式更新:

算法会持续迭代,直到达到最大迭代次数(T)或找到足够多的不同路径。此时,我们根据图中信息素最高的路径选出最佳路径。这个路径可以由中央 LLM πc 用于生成最终答案。显然,最好让中央 LLM 规模更大,而小型 LLMs 作为蚂蚁。


对于作者在理论层面的结论:

• ACO 只要选择合适的信息素更新规则和蒸发率,就可以收敛到最优解。若成功,模型会达到全局最优,同时避免局部最优。

• ACO 的探索与利用平衡由信息素动态决定。可以通过 α(信息素权重,影响利用)和 β(探索权重)控制。此外,蒸发率也影响平衡,高蒸发率促进探索,低蒸发率促进利用。

• ACO 的计算复杂度是多项式级别,随蚂蚁数量和问题规模增长。在 ACO-ToT 中,每只蚂蚁在 t 次迭代中探索 N 个思维,中间调用 LLM 总次数为 ANt。每只蚂蚁都是一个独立的 LLM,因此需要专门的计算资源(即便是 6 个也能并行处理)。

在实验中,作者使用 Llama-70B 训练了 5 个不同领域的专家模型作为蚂蚁,并在 GSM8K、ARC-Challenge 和 MATH 数据集上进行测试。ACO-ToT 在所有基准测试中表现优越,通常在 6-8 轮迭代内收敛(复杂问题 10-12 轮)。

ACO-ToT 是一种新颖的算法,它通过结合蚁群优化(ACO)与思维树(ToT)框架来增强 LLM 的推理能力。受赫布学习(Hebbian Learning)启发,该方法利用经过微调的 LLM "蚂蚁" 来探索推理路径,并通过信息素强化有效的路径。一个混合专家(Mixture-of-Experts)评分函数用于评估解决方案,从而优化复杂问题的求解。实验表明,ACO-ToT 优于现有方法,突出了生物启发搜索在 LLM 推理中的潜力。

这种快速收敛在特征性的性能曲线上表现出来:在前 3--4 次迭代中性能迅速提高,随后进入渐近稳定状态,这表明该方法能够高效地探索推理空间。------来源

该系统之所以高效,是因为它在第一轮迭代中就已经趋近收敛。路径长度不会过长,平均为 4 步,对于最困难的 MATH 问题,平均为 6 步。

消融实验中的其他发现:

• 性能在 5 个专家时趋于饱和,表明不需要更多的专家。

• 在所有三个任务中,最优的探索与利用平衡参数分别为 α = 1.0 和 β = 2.0。

• 这种平衡导致较大的树结构,从而提供更多的推理路径。

• 具有更多样化的专家比同质专家能得到更好的结果。

ACO-ToT 是一种新颖的算法,它通过结合蚁群优化(ACO)与思维树(ToT)框架来增强 LLM 的推理能力。受赫布学习(Hebbian Learning)启发,该方法利用经过微调的 LLM "蚂蚁" 来探索推理路径,并通过信息素强化有效的路径。一个混合专家(Mixture-of-Experts)评分函数用于评估解决方案,从而优化复杂问题的求解。实验表明,ACO-ToT 优于现有方法,突出了生物启发搜索在 LLM 推理中的潜力。

这项研究有趣之处在于,它结合了搜索算法和提示技术(ToT),并以受神经科学启发的方式完成。尽管该方法计算昂贵,但它展示了一种无需强化学习即可平衡探索与利用的方式,并表明异质专家组合优于同质专家。未来可能需要自动调整参数或测试不同搜索算法。

然而,该方法仍然成本高昂,因为需要运行多个 LLM 专家,对于某些应用而言,这可能是不可行的。此外,参数是手动选择的,未来可以实现自动化。不同的搜索算法也可以在未来进行测试,或者可以使用不同的模型作为专家。

相关推荐
果冻人工智能4 天前
基于生成式AI的访问控制, 迁移传统安全策略到基于LLM的风险分类器
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#神经网络·#ai
果冻人工智能1 个月前
人类讨厌AI的缺点,其实自己也有,是时候反思了。
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#神经网络·#ai
果冻人工智能1 个月前
您的公司需要小型语言模型
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#神经网络·#ai
果冻人工智能1 个月前
主动式AI(代理式)与生成式AI的关键差异与影响
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能1 个月前
创建用于预测序列的人工智能模型,用Keras Tuner探索模型的超参数。
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能1 个月前
创建用于预测序列的人工智能模型,调整模型的超参数。
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能1 个月前
创建用于预测序列的人工智能模型,评估模型的能力。
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能1 个月前
为什么 Llama 3.3 70B 比 GPT-4o 和 Claude 3.5 Sonnet 更优秀
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能1 个月前
创建用于预测序列的人工智能模型,训练模型。
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai