【EMNLP2025】阿里云人工智能平台PAI多篇论文入选EMNLP2025

2025年11月4日-11月9日,EMNLP 2025 将在中国苏州举办。这是一场计算语言学和自然语言领域的顶级国际学术会议,来自全球的顶尖研究者、工程师将齐聚一堂,共同探讨工业界与学术界的最新突破与未来方向。

阿里云大数据 AI 平台将深度参与 EMNLP 2025 ,不仅有多篇论文中选,涵盖知识蒸馏、小模型推理能力提升、RAG 自动化评测 等热门方向,同时将在阿里云展台为大家揭秘 Qwen3 训练端到端加速比提效 3 倍的核心技术、分享 PAI 在大模型训练、推理领域的最新研究成果和技术思考,更有核心研发团队面对面交流的机会!

EMNLP 2025 中选论文

阿里云人工智能平台 PAI 共有 4 篇论文中选 EMNLP 2025,分别为高效知识蒸馏工具包、推理能力提升框架、蒸馏推理与奖励模型及 RAG 自动化评测。

面向大语言模型的高效知识蒸馏工具包EasyDistill EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models

随着大语言模型(Large Language Model,LLM)在自然语言处理领域的广泛应用,其巨大的参数规模和计算资源需求对实际部署带来了不小挑战。针对这一难题,知识蒸馏(Knowledge Distillation, KD)技术通过让小模型学习大模型的知识,实现高效推理和资源节约,成为推动 LLM 工业化落地的重要手段。然而,大语言模型的知识蒸馏过程复杂,涉及黑盒与白盒多种场景,且对数据合成、强化学习等技术需求多样,缺乏统一、易用且功能完善的工具支持,限制了该领域的深入研究和广泛应用。为此,本工作提出了 EasyDistill,面向大语言模型知识蒸馏的综合性工具包。

EasyDistill 集成了数据合成、监督微调、排序优化以及强化学习方法,覆盖黑盒与白盒两种常见蒸馏范式,并支持面向非推理型与推理型模型的蒸馏策略。此外,EasyDistill 不仅提供工具层面的支持,还开源了一系列性能优异的蒸馏模型(如 DistilQwen)和相关数据集,满足多种实际应用需求。同时,EasyDistill 已成功集成于阿里云人工智能平台 PAI,充分展示了其工业落地能力。通过 EasyDistill,大模型 LLM 知识蒸馏技术得以更广泛普及,为 NLP 社区和产业界带来价值。

面向小型大语言模型的认知对齐推理能力提升框架 Enhancing Reasoning Abilities of Small LLMs with Cognitive Alignment

大型推理模型(Large Reasoning Model,LRM)如 OpenAI 的 o1 和 DeepSeek-R1 通过深度思考大幅提升了复杂任务的推理能力,但其庞大的参数规模和计算资源消耗限制了实际应用。相比之下,小型推理模型虽更轻量,但因认知路径和推理能力与大模型存在显著差异,直接蒸馏大模型的链式思考(Chain-of-Thought, CoT)过程往往效果有限,且依赖大量标注数据。针对这一挑战,本工作提出了"评判-再思考-验证"(Critique-Rethink-Verify, CRV)算法,旨在训练参数量小却能力强大的推理模型。CRV 系统通过多个大语言模型智能体协同工作:首先根据小模型的认知能力对CoT推理过程进行评判,随后基于评判反馈对推理进行再思考和精炼,最终验证优化结果的正确性和有效性。基于 CRV,进一步提出了认知偏好优化(Cognitive Preference Optimization, CogPO)算法,动态调整训练策略,使小模型的推理过程与其自身认知能力相适配,从而显著提升推理性能。

该框架在 AIME 2024、MATH-500、GPQA-Diamond 及 LiveCodeBench 等复杂推理基准上进行了系统评测,结果表明,基于 CRV+CogPO 训练的小型推理模型明显超越传统蒸馏和微调方法,展现出强劲的推理能力。综上所述,本工作贡献包括:

  1. 首次提出多智能体协同的 CRV 系统,针对小模型定制推理路径改进策略;
  2. 设计 CogPO 算法,实现对认知能力的持续对齐优化;
  3. 通过广泛基准验证,证明该框架对小推理模型推理性能的显著提升。

本研究为小模型推理能力优化提供了新的思路,有助于推动轻量级推理模型在实际应用中的广泛落地和高效运行。

构建面向工业应用的蒸馏推理与奖励模型

Thinking with DistilQwen: A Tale of Four Distilled Reasoning and Reward Model Series

随着大语言模型(LLM)的不断发展,如何在保障推理性能的同时,实现高效快速的推理,已经成为支持实际业务应用的关键需求。为满足这一需求,知识蒸馏技术日益受到关注,旨在通过将大模型的知识压缩到小型模型中,实现推理速度与准确性的最佳平衡。本工作基于 Qwen 系列模型,推出了全面扩展的 DistilQwen 蒸馏模型家族,包含四个针对工业场景设计的特色模型系列:

(1)慢思考模型 DistilQwen2.5-R1:优先保证推理的准确性,适用于对精度要求极高的复杂任务;

(2)两种自适应思考模型 DistilQwen-ThoughtX 和 DistilQwen-ThoughtY:根据输入任务动态调整推理长度与深度,在多样化场景中实现更高效率与表现;

(3)蒸馏奖励模型:支持基于上述模型蒸馏知识的强化学习,进一步提升推理能力。为了构建上述模型,本工作构建了完整的数据处理和模型训练工作流,如下所示。

通过大规模多样化基准测试,DistilQwen 系列展现了强劲的推理性能和高效的推理速度,充分满足工业界对模型实用性的需求。该系列模型及其训练方案均已纳入开源工具包 EasyDistill,推动了高性能小推理模型的普及与应用,为真实业务场景中的智能推理提供了坚实支持。

面向适用性与可扩展性的RAG评测数据自动生成框架

AutoEvolve: Automatically Evolving Queries for Applicable and Scalable Retrieval-Augmented Generation Benchmarking

论文提出并实现了一种创新的"查询自动演化框架"(AutoEvolve),旨在解决自动化构建检索增强生成(RAG)系统评测基准中适用性弱扩展性弱的核心难题。该框架以语料库无关的方式动态生成并迭代提升问题难度,为构建更具挑战性与可扩展性的 RAG 评测体系提供了新思路。

随着大语言模型的普及,RAG 作为扩展模型知识、减少幻觉的重要技术备受关注。然而,现有自动化评测方法依赖特定语料库元数据(如维基百科链接结构),难以迁移至其他领域,且生成问题难度固定,无法动态适应系统进步。阿里云PAI团队与南京大学LAMDA实验室联合提出 AutoEvolve 框架,提供双重创新方案:针对"适用性弱",构建通用的"实体-文档关系图谱",通过文档间共现实体建立联系,克服语料依赖;针对"可扩展性弱",设计查询插入、实体判断、拼接与信息整合等演化算子,并引入难度引导指标(RGD),实现从简单查询到需跨文档整合的复杂问题的动态演化。实验结果显示,在 Booksum-E 和 MultiHopRAG-E 数据集上,演化问题使 BGE-M3 检索器 HIT@6 分别下降 21.4%17.3% ,GPT-4o 模型的 Recall-kp 指标下降12.4% ,验证了框架在提升评测难度和鲁棒性方面的有效性。

AutoEvolve 为 RAG 系统评测的自动化与智能化开辟了新方向。未来可进一步优化查询难度量化指标与演化类型,构建能自适应评估系统能力边界的"活"评测基准,助力 RAG 技术持续发展与落地。

02 交流活动 阿里云官方展台 11月5日-11月9日期间,我们将在阿里云展台与大家共同探讨自然语言处理方面的研究创新,同时为大家揭秘 Qwen3 训练端到端加速比提效 3 倍的核心技术, 以及分享人工智能平台 PAI 在训练、推理领域的最新研究成果和技术思考,期待您前往交流、体验!

  • 时间:11月5日-11月9日,会议期间全天
  • 地点:苏州国际博览中心-C3 展厅-21号展位

专场交流活动 11月5日晚上,阿里云将在中国计算机学会(CCF)苏州业务总部举办交流晚宴,诚挚邀请 EMNLP 2025 参会人员到场,与核心研发团队面对面交流,机会难得不容错过!

  • 时间:11月5日 17:30-20:30
  • 地点:CCF业务总部&学术交流中心 - 三楼多功能厅
  • 详细地址:苏州市相城区高铁新城相融路600号中国计算机学会(CCF)苏州业务总部

中选论文交流分享

相关推荐
机器学习ing.2 小时前
U-Net保姆级教程:从原理到医学细胞分割实战(PyTorch版)!
人工智能·pytorch·python·深度学习·机器学习
河南博为智能科技有限公司2 小时前
RS485转以太网串口服务器-串口设备联网的理想选择
大数据·服务器·人工智能·单片机·嵌入式硬件·物联网
算家计算3 小时前
英伟达谷歌打响“太空算力争夺战”,下一战场竟是星辰大海?
人工智能·芯片·资讯
HyperAI超神经3 小时前
在线教程丨端侧TTS新SOTA!NeuTTS-Air基于0.5B模型实现3秒音频克隆
人工智能·深度学习·机器学习·音视频·tts·音频克隆·neutts-air
wwwzhouhui3 小时前
2025年11月1日-AI 驱动教学革命:3 分钟生成专业级动画课件,还能导出视频 GIF!
人工智能·音视频·ai动画教学
国科安芯3 小时前
抗辐照MCU芯片在无人叉车领域的性能评估与选型建议
网络·人工智能·单片机·嵌入式硬件·安全
用户5191495848453 小时前
原型污染攻击工具揭秘:Prototype Pollution Gadgets Finder
人工智能·aigc
VXHAruanjian8883 小时前
以智促效,释放创新力量,RPA助力企业全面自动化变革
大数据·人工智能
Godspeed Zhao3 小时前
自动驾驶中的传感器技术76——Navigation(13)
人工智能·机器学习·自动驾驶