姚期智院士大模型新研究:思维图 DoT,用数学理论确保 AI 逻辑一致性

姚期智院士领衔,推出大模型新推理框架,CoT"王冠" 戴不住了。

提出思维图D iagram o f Thought),让大模型思考更像人类。

团队更是为这种推理过程提供了数学基础 ,通过拓扑斯理论(Topos Theory)正式化(formalize)DoT,确保其逻辑一致性和合理性。

相比 CoT 将推理过程表示为线性序列,DoT 更能捕捉人类推理的复杂性。

相比引入分支结构 ToT 和 GoT,DoT 不需要依赖外部控制机制或多个模型协作,训练部署更简单。

秘诀就在于,DoT 将 LLM 中的迭代推理建模为在单一模型内****构建有向无环图(DAG)。

DAG 由代表命题、批评、精炼和验证的节点组成,边表示它们之间的逻辑关系或依赖关系,边都有方向,不存在任何循环路径

这种无环的特性确保推理过程不受循环依赖的影响,能更真实反映合理的逻辑推导。

9.11 和 9.8 哪个大、strawberry 中有几个 "r" 等问题在 DoT 的帮助下全都迎刃而解了。


要知道,大模型最新 "顶流"OpenAI o1 目前被训练得原生具备生成 CoT 的能力,现在更强的 DoT 来了,是不是也可以通过强化学习内化到模型里,如此一来......

这项研究提出后得到了不小的关注。

网友纷纷表示这是一种正确的路径。


码住,码住,码住

具体来看看 DoT 长啥样。

大模型复杂推理新框架

如前所述,DoT 将逻辑推理过程建模为在单个 LLM 内构建有向无环图(DAG)。

其框架内部管理三个关键角色:

  • 提议者:生成命题或推理步骤,添加新节点。

  • 批评者:评估命题,识别错误、不一致或逻辑谬误,并添加批评节点。

  • 总结者:将经过验证的命题综合成一个连贯的思维链,有效地执行 DAG 的拓扑排序(topological sort)以产出最终的推理输出。

这三个角色通过使用特殊 token,如 、、,在模型的输出中被明确定义。LLM 在生成过程中在这些角色之间****无缝切换,利用其自回归能力根据上下文预测下一个 token。

推理过程始于提议者引入一个命题,向 DAG 添加一个节点。

然后,由评论者评估验证或提供批评。如果提供了批评,将添加一个新节点,并在该命题和批评之间建立一个边。

基于批评,提议者生成一个精炼改进过的命题,表示为 DAG 中的一个新节点。

这一过程重复进行,命题不断被精炼直到得到验证

一旦建立了足够有效的命题,总结者就会综合这些推理,对 DAG 进行拓扑排序以产生一个连贯的思维链。

通过让模型接触正确和错误的推理,DoT 允许 LLM 从错误中学习,随着时间的推移不断精炼其推理,这也更像人类解决问题的方式。

这种方法不仅捕捉了推理的非线性和迭代特性,还通过自然语言批评提供了比二元信号更丰富的反馈。

DoT 的训练涉及使用格式化为 DoT 结构的训练样例,包括角色特定 token 和 DAG 表示。在推理过程中,模型基于上下文线索和角色特定 token 生成命题、批评和总结。

这种方法简化了部署,消除了对多 LLM 协作或外部控制机制的需求,同时与标准 LLM 训练范式保持一致,便于集成到现有工作流程中。

作者还为 DoT 框架提供了严格的数学基础,利用 Topos Theory 对推理过程进行了形式化描述。

在这个框架中,命题被建模为拓扑中终端对象的子对象,逻辑关系和推理步骤表示为态射,批评和改进过程分别对应到子对象分类器的态射和命题间的态射。

通过引入 PreNet 范畴,他们还成功捕捉了推理过程的动态和并发特性。

这种数学基础不仅确保了推理过程的逻辑一致性和完备性,还为设计下一代专门用于推理的 AI 模型提供了概念框架。

清华叉院姚期智、袁洋领衔

这篇论文由清华交叉信息研究院姚期智、袁洋领衔,论文第一作者为张伊凡。

张伊凡

张伊凡 2021 年本科毕业于于北京大学元培学院,现为清华大学交叉信息学院博士研究生,师从袁洋助理教授。

他的主要研究方向为基础模型(大语言模型)的理论和算法、自监督学习、可信人工智能。

袁洋

袁洋是清华大学交叉信息学院助理教授,博士生导师。

2012 年毕业于北京大学计算机系;2018 年获美国康奈尔大学计算机博士学位;2018-2019 年前往麻省理工学院大数据科学学院做博士后。

他的主要研究方向是智能医疗、AI 可解释性、AI 大系统,在非凸优化理论、神经网络优化理论、机制设计等领域有颇多研究成果。

姚期智

姚期智是中国科学院院士、清华大学交叉信息研究院院长;同时也是 "图灵奖" 创立以来首位获奖的亚裔学者、迄今为止获此殊荣的唯一华人计算机科学家。

姚期智教授 2004 年从普林斯顿辞去终身教职回到清华任教;2005 年为清华本科生创立了计算机科学实验班 "姚班";2011 年创建"清华量子信息中心" 与"交叉信息研究院";2019 年再为清华本科生创立了人工智能学堂班,简称"智班"。

如今,他领导的清华大学交叉信息研究院早已声名远播,姚班、智班都隶属交叉信息院。

姚期智教授研究方向有算法、密码学、量子计算等,是这方面的国际先驱和权威。

One More Thing

一年前的差不多同一时间姚期智院士领衔提出了累积推理(Cumulative Reasoning,CR)的方法。

DoT 是对 CR 的进一步深化

当时 CR 协调了一个涉及不同专业化大语言模型的迭代过程,由不同模型承担了提议者、验证者和报告者角色。

而 DoT 直接在单一模型内构建有向无环图,不依赖于外部控制机制或多个模型,训练和部署更简单。

且在 DoT 中,模型生成的批评反馈是自然语言形式的,而不是像 CR 那样只给出二值信号。这使得模型可以接收到关于错误的详细解释,有助于更有效地改进命题。

这次 DoT 还有了强有力的数学基础,阐明了 DoT 推理过程与范畴逻辑的关系,从理论上确保了推理的一致性和可靠性。

论文链接:arxiv.org/abs/2409.10...

参考链接:

[1]x.com/omarsar0/st...

[2]hub.baai.ac.cn/users/16897

[3]hub.baai.ac.cn/users/19790

--- ---

相关推荐
昨日之日20061 小时前
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
人工智能·whisper·语音识别
浮生如梦_1 小时前
Halcon基于laws纹理特征的SVM分类
图像处理·人工智能·算法·支持向量机·计算机视觉·分类·视觉检测
深度学习lover1 小时前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
热爱跑步的恒川2 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
阡之尘埃4 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
孙同学要努力6 小时前
全连接神经网络案例——手写数字识别
人工智能·深度学习·神经网络
Eric.Lee20216 小时前
yolo v5 开源项目
人工智能·yolo·目标检测·计算机视觉
其实吧37 小时前
基于Matlab的图像融合研究设计
人工智能·计算机视觉·matlab
丕羽7 小时前
【Pytorch】基本语法
人工智能·pytorch·python
ctrey_7 小时前
2024-11-1 学习人工智能的Day20 openCV(2)
人工智能·opencv·学习