ICLR&CVPR 2025美团技术团队论文精选

本文对美团技术团队在国际顶会CVPR 2025、ICLR 2025中发表的10篇论文进行介绍,这些论文是我们在图像生成、通用视觉分割、多模态文档理解、视频理解大模型、大模型效果评估、大语言模型的对齐和量化方法等方向上的技术沉淀和应用。

ICLR 全称为 International Conference on Learning Representations 国际学习表征会议,是致力于推进人工智能分支中表示学习专业(通常也被称为深度学习)的顶级会议。ICLR 与 ICML 和 NeurIPS 并列为三大机器学习和人工智能会议,在2025谷歌学术期刊与会议影响力榜单中排名第10。

01 TODO: Enhancing LLM Alignment with Ternary Preferences

论文类型:Poster

论文下载PDF

论文简介:本文提出了一种基于三元偏好的大语言模型对齐方法TODO,以解决现有方法(如直接偏好优化DPO)依赖二元偏好模型(Bradley-Terry模型)导致的局限性。针对实际偏好数据中普遍存在的噪声标签、响应质量相近的平局(tie)现象,本文扩展传统二元模型为三元偏好框架:首先提出TOBT模型,通过引入"平局"状态显式建模偏好、非偏好与平局关系,增强对复杂偏好的表达能力;在此基础上设计TODO算法,利用三元偏好数据优化模型对齐过程,提升对平局信息的利用率及噪声鲁棒性。实验表明,在Mistral-7B和Llama 3-8B模型上,TODO相较于DPO在分布内外数据集(如Ultrafeedback、Reward Bench)的偏好建模准确率分别提升6.5%和3.2%,且在MT Bench及Piqa、ARC、MMLU等通用基准测试中均表现出更优的对齐性能。值得注意的是,TODO在传统二元对齐任务中仍优于DPO,验证了其通用性。该方法首次将三元偏好融入大模型对齐领域,为处理噪声数据、挖掘平局信息提供了新思路,同时兼容在线策略与奖励模型训练,具备广泛的应用潜力。

02 Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective

论文类型:Poster

论文下载PDF

论文简介:基于对现有方法的深入分析,我们发现当前研究普遍将整个序列中每个奖励的贡献视为均匀,这无法充分捕捉偏好优化中的细微差别。具体而言,序列中的时间动态可能影响某些词或片段的重要性。通过对三种广泛使用的开源模型进行KL散度分析,观察到早期词的分布更受DPO影响,随着位置的增加,KL散度逐渐减小。这一发现与先前研究一致,即对齐在早期词更为关键,因为准确的前缀能够为后续词生成提供更可靠的基础。基于上述观察,论文提出了一种改进的DPO方法------Temporal-decay DPO(简称 D²PO)。该方法引入了时间衰减因子,由参数γ控制,在训练过程中动态调节每个奖励的贡献。通过引入自适应时间衰减机制,D²PO不仅增强了早期词的贡献,同时保持了DPO的计算效率,其引入的时间衰减机制也为偏好优化提供了新的视角和方法,在多个广泛使用的基准测试中,包括AlpacaEval2、Arena-Hard 和 MT-bench,均表现出显著的效果提升,同时未损害模型的通用能力。

03 Denoising with a Joint-Embedding Predictive Architecture

论文类型:Poster

论文下载PDF

论文简介:针对当前文生图等多模态生成模型在连续数据建模中的技术瓶颈,本工作提出了一种创新性融合架构D-JEPA。尽管联合嵌入预测架构(JEPA)在自监督表示学习领域表现出色,但在多模态生成任务上的建模潜力尚未充分开发;而扩散模型虽具备任意概率分布的建模能力,却未能有效整合先进的表示学习机制。为改变这种技术割裂现状,D-JEPA通过三大核心突破实现技术融合:

  1. 创造性重构JEPA框架,将其解释为掩码图像建模的泛化形式,进而演化为连续空间中的自回归生成范式;
  2. 引入基于FlowMatching的扩散损失函数,在保留JEPA结构化表征优势的同时,实现对token级概率分布的精准建模;
  3. 构建统一训练框架,使模型既能继承JEPA的高效表示学习能力,又具备扩散模型的精细分布建模特性。通过系统实验验证,相比单一的扩散模型、自回归架构以及已公开的融合架构相比,该方法在计算效率、生成质量、跨模态迁移性等方面具备综合优势,为下一代多模态生成发展提供了新的技术范式。

04 QQQ: Quality Quattuor-Bit Quantization for Large Language Models

论文类型:WorkShop

论文下载PDF

论文简介:本文提出了一种高效的大型语言模型量化方法QQQ,采用4-bit权重和8-bit激活值(W4A8)的量化策略,在保持模型精度的同时显著提升推理速度。该方法通过自适应平滑和基于Hessian矩阵的补偿机制,有效解决了传统W4A8量化导致的精度下降问题,无需依赖大量训练即可实现高质量量化。同时针对per-channel和per-group两种量化粒度设计了W4A8 GEMM kernel,计算速度分别达到FP16 GEMM的3.67倍和3.29倍。实验结果表明,QQQ在精度上与当前最先进的LLM量化方法相当,同时在推理速度上相比FP16、W8A8和W4A16分别实现了2.24倍、2.10倍和1.25倍的提升,为大型语言模型的高效部署提供了新的技术方案。

CVPR(Computer Vision and Pattern Recognition)是计算机视觉和模式识别领域的顶级国际学术会议,会议为研究者提供了一个交流最新研究成果和技术进展的平台,涵盖了计算机视觉的各个方面,包括图像处理、视频分析、视觉生成、多模态大模型等。2025年,CVPR共收到全球13,008篇论文投稿,最终接收了约2878篇,接收率约为22.1%。

05 TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs

论文地址PDF

简介:本文是在CVPR 2025 NTIRE Challenge基础上的拓展,竞赛内容为Text to Image Generation Model Quality Assessment。在竞赛的公榜和私榜获得第二名。目前对图片和文本的一致性评估多关注整体表现,容易忽略文本描述和图像内容之间的重要细节匹配。为了解决这个问题,我们提出了一个叫TokenFocus-VQA的方法,它使用视觉问答的方式结合位置特定的策略来优化大型视觉语言模型。我们的创新点在于设计了一种专门关注关键细节的损失函数,这个函数特别注重与重要语义相关的词汇位置上的概率分布,从而实现了更精确的细节匹配。这个框架还结合了集成学习技术,从不同的视觉语言模型中汇集多个视角的评估,从而提高了性能。在NTIRE 2025 T2I质量评估基准上进行评估时,我们的TokenFocus-VQA在公共评估中排名第二(84.45%,仅比第一名低0.01%),在官方私有测试集上排名第二(84.26%),相比传统评估方法,展现了在捕捉细微文本与图像对应关系上的优越性。

06 HyperSeg: Towards Universal Visual Segmentation with Large Language Model

论文类型:CVPR Main Conference

论文地址PDF

论文简介:本文旨在利用视觉大语言模型(VLLM)强大的推理能力解决图像和视频感知的通用分割问题。尽管当前的统一分割方法取得了重大进展,但是在图像和视频场景的适应性限制以及难以处理复杂的推理分割的诸多问题,使得它们难以处理各种具有挑战性的指令并准确理解细粒度的视觉语言相关性。因此,我们提出了HyperSeg,这是第一个基于VLLM的像素级图像和视频感知通用分割模型,涵盖一般分割任务和更复杂的推理感知任务,需要强大的推理能力和世界知识。具体而言,为了充分利用VLLM的识别能力和细粒度的视觉信息,HyperSeg结合了混合实体识别和细粒度视觉感知器模块,并结合时间适配器,实现了对图像以及视频时序信息的全面理解。实验结果验证了我们的模型在解决通用图像和视频分割任务(包括更复杂的推理感知任务)方面的有效性。

07 Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding

论文类型:CVPR Main Conference

论文下载PDF

论文简介:多模态大语言模型(MLLMs)为文档图像理解引入了新维度,即赋予大语言模型视觉理解能力。然而,如何设计合适的图文预训练任务在MLLMs中桥接视觉和语言模态仍然未被充分探索,尤其是图像中细粒度的文本内容如何被准确捕获。在本研究中,我们引入了一种新颖的视觉-语言对齐方法,将关键问题转化为Visual Question Answering with Mask generation(VQAMask)任务,同时优化两个任务:基于VQA的文本解析和掩码生成。前者使模型能够在语义层面隐式对齐图像和文本,而后者引入了一个额外的掩码生成器(在推理过程中被舍弃),以显式确保图像中的视觉文本与其对应的图像区域在空间感知层面上的对齐。两者结合,可以防止模型在解析视觉文本时产生幻觉,并有效促进空间感知特征表示学习。为了支持所提出的VQAMask任务,我们构建了一个全面的图像掩码生成管道,并提供了一个包含600万数据的大规模数据集(MTMask6M)。随后,我们证明引入所提出的掩码生成任务在文档图像理解性能上具有竞争力。利用所提出的VQAMask,我们引入了一种专为文档图像理解量身定制的高效训练MLLM,称为Marten,广泛的实验表明,Marten在文档图像理解任务中取得显著提升,更快、更准、部署成本更低。

08 LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding

论文类型:CVPR Main Conference

论文下载PDF

论文简介:本研究针对多模态大语言模型在时空联合定位任务中的核心挑战------时空坐标组合爆炸性增长导致的跨模态对齐困境,以及视频特征压缩过程中细粒度信息保真度不足的共性问题,提出创新性解决方案LLaVA-ST模型。该方法通过创新的特征对齐机制、时空特征压缩器和多阶段训练策略,有效解决了上述关键难题,为复杂时空场景的多模态理解提供了新的技术范式。为提升模型对复杂时空关系的理解能力,研究团队构建了包含4.3M样本的ST-Align数据体系,并提出包含时空视频定位(STVG)、事件定位与描述(ELC)、空间视频定位(SVG)多维度的MLLM时空交错理解benchmark。实验验证表明,LLaVA-ST在涉及细粒度时序理解、空间定位及时空交错多模态理解等11类基准测试中均展现出卓越性能,展示了其在视频理解、具身智能、自动驾驶等领域的广泛应用潜力。

09 Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content

论文类型:CVPR Main Conference

论文下载PDF

论文简介:评估文本到视觉内容的生成效果主要取决于两个关键的方向:视觉质量和对齐度,尽管之前已经发表过很多类似的工作用于评估这些维度,并且也取得了一定的进展,但此类模型的性能很大程度上都依赖于人工标注的规模和质量;有一定证据表明,数据质量和标注规模的上升,将有助于提升评估模型的性能。因此,我们构建了目前规模最大的AIGC质量评估数据集Q-EVAL-100K以及对应的统一AIGC视觉评估框架Q-Eval-Score,该数据集包含了100k(6万张图像和4万个视频)的人工标注分数,并着重关注对齐度和视觉质量;在这个大规模数据集的基础上,评估框架Q-Eval-Score在AIGC图像/视频的视觉质量评估和对齐度评估上都取得了相当优异的性能。

10 Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Model

论文类型:CVPR Main Conference

论文下载PDF

论文简介:本文的主要贡献主要包括两部分,一个是构建了首个面向4K超分辨率图像用于评估图像局部细节以及结构完整性的benchmark,称为Aesthetic-4K,它基于包括GLCM与DCT压缩等非深度学习驱动的图像质量评价指标,用于综合评估局部纹理细节是否符合人类的视觉认知和结构化纹理的artifacts程度,同时包含了一个通过GPT-4o生成细粒度caption的高质量4K数据集。第二部分我们提出了一个基于小波变换的Diffusion Generation范式,通过在损失优化过程中分解特征为高低频分量并引入高频信号的约束,从而实现丰富的纹理细节和保留结构化规律。同时通过引入一个高效的分块VAE,我们在消费级显卡(如NVIDIA 4090)上实现了Flux-12B的4K图像生成。目前Diffusion-4K已落地在美团无人机感知场景用于生成高分辨率样本并应用于下游任务(检测/分割等)取得了正向收益。

阅读更多

| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024 年货】、【2023 年货】、【2023 年货】、【2022 年货】、【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明 "内容转载自美团技术团队"。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 [email protected] 申请授权。

相关推荐
newxtc15 分钟前
【指纹浏览器系列-chromium编译】
人工智能·安全
轻闲一号机20 分钟前
【机器学习】机器学习笔记
人工智能·笔记·机器学习
光锥智能29 分钟前
傅利叶发布首款开源人形机器人N1:开发者可实现完整复刻
人工智能
恒拓高科WorkPlus40 分钟前
一款安全好用的企业即时通讯平台,支持统一门户
大数据·人工智能·安全
天下琴川1 小时前
Dify智能体平台源码二次开发笔记(5) - 多租户的SAAS版实现(2)
人工智能·笔记
qq_365911601 小时前
中英文提示词对AI IDE编程能力影响有多大?
人工智能
jndingxin1 小时前
OpenCV 图形API(31)图像滤波-----3x3 腐蚀操作函数erode3x3()
人工智能·opencv·计算机视觉
GoMaxAi1 小时前
金融行业 AI 报告自动化:Word+PPT 双引擎生成方案
人工智能·unity·ai作画·金融·自动化·aigc·word
訾博ZiBo2 小时前
AI日报 - 2025年04月16日
人工智能
蹦蹦跳跳真可爱5892 小时前
Python----机器学习(基于PyTorch的乳腺癌逻辑回归)
人工智能·pytorch·python·分类·逻辑回归·学习方法