Think | 大模型迈向AGI的探索和对齐

注:节选自我于24年初所写的「融合RL与LLM思想探寻世界模型以迈向AGI」散文式风格文章,感兴趣的小伙伴儿可以访问我的主页置顶或专栏收录,并制作了电子书供大家参考,有需要的小伙伴可以关注私信我,因为属于技术散文风格,阅读起来不会像论文文献那样过于晦涩。

【节选内容】↓

"...想先为大家做一下这方面的思想试验,有的时候我在想很多RL中所运用的那些看似巧妙而又让人略感毛燥的算法,不论在空间的探索与利用阶段,还是在奖励反馈阶段,如AlphaGO在围棋中的复杂决策,是否能够合理且完备的完成探索、反馈、学习中在近乎无限的大量数据中习得泛化经验吗?当然如果数据确实是无限大的,那么对于pre-training来说其代价是否太高了?而对于alignment来说,则会面临数据alignment本身的诸多挑战,如:

如何找到完备且充分的与alignment相匹配的样本数据分布?

alignment过程中的数据多样性的保障?

在复杂的策略空间探索中,其泛化能力集合的分布是怎样的?

...

对于当下llm合成数据的方式看起来能够基于一定预先规划的策略解决上述部分问题,然而合成数据是否能在生成数据的过程中涌现出新的洞察或知识,即实现基于策略合成上的自主空间探索,且是完备的吗?怎么理解和衡量这种完备性等问题,我想未来都待进一步进行这方面的理论探索以系统性解决,不然我想众多AIer们还将在这里step by step持续的探索,当然这也也是一种美妙和享受的过程:)另外,对大量历史真实世界数据的采样,是否仅仅是学习人类过去已经先验并总结过知识并形成的最终文本表征的结论,其对应的本质等价于这些知识或结论最终仍是来自于真实世界数据的的分布或构象上的表征,而这种历史数据的分布或构象似乎无法通过模型的自回归生成式模式习得到人类在现实世界中未曾见到、更深刻的洞见以及新的知识结构,似乎仅仅是对生成的语言分布概率做了重新排列或组合,并在这种重排列或组合的过程中反复利用已经掌握的泛化能力进行表象知识的发现、探索和链接,从而扩展了某种维度的知识结构。

因此,这里我们是否也会回归到对历史经验的pre-training到当下过程中的exploration再到alignment的一些本质问题的思考?是否在他们之间底层对数据的理解与操作上有着不同的角度或内在联系?

相关推荐
Agent产品评测局8 分钟前
企业发票管理自动化落地,验真归档全流程实现方法:2026企业级智能体选型与实测指南
运维·网络·人工智能·ai·chatgpt·自动化
HIT_Weston10 分钟前
39、【Agent】【OpenCode】本地代理分析(三)
人工智能·agent·opencode
大虫刷题12 分钟前
华为认证(HCIP-AI)五大分类,有何区别及学习难度和从事职业方向
人工智能·学习
田梓燊13 分钟前
leetcode 56
java·算法·leetcode
源码之屋17 分钟前
计算机毕业设计:Python出行数据智能分析与预测平台 Django框架 可视化 数据分析 PyEcharts 交通 深度学习(建议收藏)✅
人工智能·python·深度学习·数据分析·django·汽车·课程设计
AI学长19 分钟前
数据集|多种水果目标检测数据集-苹果、西瓜、番茄、菠萝、洋葱(共 5 类)
人工智能·目标检测·计算机视觉·多种水果目标检测数据集
ForDreamMusk25 分钟前
深度学习的计算环境
人工智能·深度学习
枫叶林FYL25 分钟前
第 4 章 视觉感知与场景理解
人工智能·深度学习
给自己做减法28 分钟前
AI编程相关概念
人工智能·python·ai编程
实在智能RPA34 分钟前
Agent 的流程可以随时修改调整吗?深度解析 2026 年智能体动态编排与业务闭环
人工智能·ai