论文阅读：ICML 2025 COLLABLLM: From Passive Responders to Active Collaborators

CV-杨帆2026-04-09 9:15

总目录大模型相关研究 2025版：https://blog.csdn.net/WhiffeYF/article/details/142132328

该论文由斯坦福大学、微软研究院与佐治亚理工的研究团队联合完成，发表于国际机器学习顶级会议ICML 2025。

现有大语言模型通常针对单轮回复进行优化，面对用户模糊或开放性的需求时，往往被动地直接作答，导致用户需反复纠正，既耗时又影响体验。该论文提出的COLLABLLM框架，首次将"多轮感知奖励"（Multiturn-aware Rewards）引入模型训练，通过协作模拟预估每个回应对长期对话走向的影响，使AI从"问答工具"进化为"协作伙伴"。

以一个具体场景为例：当你说"我想写篇关于乐观主义的文章"时，传统AI可能直接生成长篇大论，结果风格不符你的预期，不得不推倒重来。而COLLABLLM会主动询问："您希望文章是A.励志向上、B.温情治愈还是C.学术严谨？是否需要加入个人经历？"在确认关键细节后再精准创作，避免无效往返，显著提升协作效率与成品质量。

实验表明，该方法在文档编辑、编程辅助和数学解题等多轮任务中，平均提升任务表现18.5%、交互性46.3%，并让用户满意度提升17.6%，节省时间10.4%。