训练数据相关
- PediatricsMQA: a Multi-modal Pediatrics Question Answering Benchmark (https://arxiv.org/abs/2508.16439)
该研究引入了一个新的综合性多模态儿科问答基准PediatricsMQA,旨在解决大型语言模型(LLM)和视觉增强LLM(VLM)在儿科领域的年龄偏见问题。PediatricsMQA包含3,417个基于文本的多项选择题(MCQ),涵盖七个发育阶段的131个儿科主题,以及2,067个基于视觉的MCQ,使用来自67种成像方式和256个解剖区域的634个儿科图像。评估结果表明,现有模型在年轻群体中的表现显著下降,突出了开发年龄感知方法以确保儿科护理中公平AI支持的必要性。 - Text Takes Over: A Study of Modality Bias in Multimodal Intent Detection (https://arxiv.org/abs/2508.16122)
该研究调查了大型语言模型(LLM)和非LLM在多模态意图检测任务中的有效性。研究表明,文本only的LLM(Mistral-7B)在MIntRec-1和MIntRec2.0数据集上的表现优于大多数有竞争力的多模态模型。这种性能优势源于这些数据集中存在的强烈文本偏见,其中超过90%的样本需要文本输入(单独或与其他模态结合)才能进行正确的分类。通过人工评估也证实了这些数据集的模态偏见。研究人员提出了一个用于消除数据集偏见的框架,结果表明,消除偏见后,所有模型的性能都出现了显著下降。 - HPSv3: Towards Wide-Spectrum Human Preference Score (https://arxiv.org/abs/2508.03789)
该研究介绍了Human Preference Score v3 (HPSv3),用于评估文本到图像生成模型。HPSv3包含HPDv3,这是首个宽光谱人类偏好数据集,集成了来自最先进的生成模型以及低质量到高质量真实世界图像的108万个文本-图像对和117万个带注释的成对比较。研究人员还引入了一种基于VLM的偏好模型,该模型使用不确定性感知排序损失进行训练,以进行细粒度排序。此外,还提出了一种迭代图像细化方法Chain-of-Human-Preference (CoHP),该方法使用HPSv3选择每个步骤中的最佳图像,从而在无需额外数据的情况下提高质量。实验结果表明,HPSv3是宽光谱图像评估的稳健指标,而CoHP提供了一种高效且与人类对齐的方法来提高图像生成质量。
大模型的行业应用
- A Disease-Centric Vision-Language Foundation Model for Precision Oncology in Kidney Cancer (https://arxiv.org/abs/2508.16569)
该研究提出了RenalCLIP,一个用于肾癌精准肿瘤学的视觉-语言基础模型。该模型通过两阶段预训练策略,在大量CT扫描数据上进行训练,能够进行肾脏肿块的表征、诊断和预后分析。实验结果表明,RenalCLIP在肾癌临床工作流程的多个核心任务上,性能和泛化能力均优于其他CT基础模型,尤其是在复发预测方面取得了显著提升。该模型展现了在提升诊断准确性、预后分层和个性化肾癌管理方面的潜力。 - Towards Recommending Usability Improvements with Multimodal Large Language Models (https://arxiv.org/abs/2508.16165)
该研究探讨了使用多模态大语言模型(MLLM)自动化评估用户界面(UI)可用性的可能性。研究将可用性评估定义为一个推荐任务,MLLM根据问题的严重程度对可用性问题进行排序。初步研究表明,MLLM在生成可用性改进建议方面具有潜力,能够更快、更经济地进行可用性评估,尤其适用于专家资源有限的场景。 - Bridging the Gap in Ophthalmic AI: MM-Retinal-Reason Dataset and OphthaReason Model toward Dynamic Multimodal Reasoning (https://arxiv.org/abs/2508.16129)
该研究旨在弥合眼科人工智能领域的差距,提出了一个包含全面感知和推理能力的眼科多模态数据集MM-Retinal-Reason,并构建了首个眼科专用多模态推理模型OphthaReason。该模型集成了异构临床信息和多模态医学影像数据,模拟真实的临床思维模式。为了灵活适应基础和复杂推理任务,研究人员设计了一种名为不确定性感知动态思维(UADT)的新方法,通过熵估计样本级不确定性,并动态调节模型的探索深度。实验结果表明,OphthaReason在基础和复杂推理任务上均取得了最先进的性能。
文生图/文生视频
- MV-RAG: Retrieval Augmented Multiview Diffusion (https://arxiv.org/abs/2508.16577)
该研究提出了一种名为MV-RAG的新型文本到3D生成流程。该流程首先从大型2D数据库中检索相关的2D图像,然后以这些图像为条件,使用多视角扩散模型合成一致且准确的多视角输出。通过一种混合策略训练这种检索条件模型,该策略桥接了结构化的多视角数据和多样化的2D图像集合。该策略涉及使用增强的条件视图训练多视角数据,以模拟视图特定重建的检索方差,同时使用不同的保留视图预测目标训练检索到的真实世界2D图像集:该模型从其他视图预测保留视图,以从2D数据推断3D一致性。为了促进严格的OOD评估,研究人员引入了一个新的具有挑战性的OOD提示集合。实验结果表明,对于OOD/罕见概念,该方法显著提高了3D一致性、照片真实感和文本一致性,同时在标准基准测试中保持了具有竞争力的性能。 - FlexMUSE: Multimodal Unification and Semantics Enhancement Framework with Flexible interaction for Creative Writing (https://arxiv.org/abs/2508.16230)
该研究提出了一种名为FlexMUSE的多模态创意写作框架,旨在生成带有插图的文章。FlexMUSE通过模态语义对齐门(msaGate)来限制文本输入,从而促进创造力并强调模态之间的统一性。此外,还提出了一种基于注意力的跨模态融合方法来增强输入特征,从而实现语义增强。FlexMUSE中的模态语义创意直接偏好优化(mscDPO)通过扩展拒绝样本来促进写作创造力。为了推进MMCW,研究人员还公开了一个名为ArtMUSE的数据集,该数据集包含大约3k个校准的文本-图像对。FlexMUSE取得了有希望的结果,证明了其一致性、创造力和连贯性。 - RAGSR: Regional Attention Guided Diffusion for Image Super-Resolution (https://arxiv.org/abs/2508.16158)
该研究提出了一种区域注意力引导超分辨率(RAGSR)方法,用于单图像超分辨率(SISR)。RAGSR明确提取局部精细信息,并通过一种新的区域注意力机制有效地对其进行编码,从而增强细节和整体视觉连贯的SR结果。具体而言,RAGSR定位图像中的对象区域,并为每个区域分配精细的标题,这些标题被格式化为区域-文本对,作为T2I模型的文本先验。然后利用区域引导注意力来确保在注意力过程中适当地考虑每个区域-文本对,同时防止不相关的区域-文本对之间发生不必要的交互。实验结果表明,与现有方法相比,该方法在生成感知上真实的视觉细节同时保持上下文一致性方面表现出卓越的性能。 - AutoSketch: VLM-assisted Style-Aware Vector Sketch Completion (https://arxiv.org/abs/2502.06860)
该研究提出了一种风格感知矢量草图补全方法AutoSketch,用于自动完成复杂场景的部分草图。AutoSketch利用预训练的视觉-语言模型(VLM)以自然语言描述部分草图的风格,并使用新生成的笔画复制这些风格。该方法首先优化笔画以匹配通过VLM提取的风格描述增强的输入提示。然后,利用VLM生成可执行的风格调整代码,以调整笔画以符合所需的风格。实验结果表明,AutoSketch可以支持各种草图场景。
训练策略
- Modular Embedding Recomposition for Incremental Learning (https://arxiv.org/abs/2508.16463)
该研究提出了一种名为MoDular Embedding Recomposition (MoDER)的方法,用于增强预训练视觉-语言模型(VLM)的零样本能力,尤其是在增量学习场景中。MoDER引入了一个模块化框架,该框架训练多个文本专家,每个专家专门研究一个已见过的类,并将它们存储在一个基础hub中。在推理时,对于每个未见过的类,MoDER查询hub并组合检索到的专家,以合成一个改进分类的精细原型。实验结果表明,该方法在两个流行的零样本增量协议(Class-IL和MTIL)以及总共14个数据集上都有效。 - SpecVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning (https://arxiv.org/abs/2508.16201)
该研究提出了一种名为SpecVLM的训练自由推测解码(SD)框架,专为Vid-LLM设计,集成了分阶段视频token剪枝。SpecVLM基于一项新发现,即草稿模型的推测对视频token剪枝的敏感性较低,因此可以剪枝高达90%的视频token,从而实现高效的推测,而不会牺牲准确性。为了实现这一目标,它执行一个两阶段剪枝过程:第一阶段选择由验证器(目标模型)的注意力信号引导的高度信息性的token,而第二阶段以空间均匀的方式剪枝剩余的冗余token。在四个视频理解基准测试上的广泛实验证明了SpecVLM的有效性和稳健性,对于LLaVA-OneVision-72B,它实现了高达2.68倍的解码加速,对于Qwen2.5-VL-32B,实现了2.11倍的加速。 - Competition and Attraction Improve Model Fusion (https://arxiv.org/abs/2508.16204)
该研究提出了一种名为Model Merging of Natural Niches (M2N2)的进化算法,用于模型融合。M2N2具有三个关键特征:(1) 动态调整融合边界,以逐步探索更广泛的参数组合;(2) 一种受自然界资源竞争启发的用于保持多样性的机制,以维持一个多样化的高性能模型群体,这些模型特别适合融合;(3) 一种基于启发式的吸引力指标,用于识别最有希望的模型融合对。实验结果表明,模型融合可用于从头开始完全进化模型。具体而言,研究人员应用M2N2从头开始进化MNIST分类器,并实现了与CMA-ES相当的性能,同时计算效率更高。 - CAMA: Enhancing Multimodal In-Context Learning with Context-Aware Modulated Attention (https://arxiv.org/abs/2505.17097)
该研究提出了一种名为Context-Aware Modulated Attention (CAMA)的上下文感知调制注意力方法,旨在增强多模态上下文学习(ICL)能力。CAMA是一种即插即用且免训练的方法,可根据输入上下文序列动态调制LVLM的注意力logits。CAMA采用两阶段注意力调制来解决LVLM自身存在的两个关键缺陷,从而增强对语义重要token(尤其是视觉token)的关注。在四个LVLM和七个基准测试中,CAMA始终优于原始模型和基线,证明了其卓越的有效性和泛化能力。
其他
- A Multimodal-Multitask Framework with Cross-modal Relation and Hierarchical Interactive Attention for Semantic Comprehension (https://arxiv.org/abs/2508.16300)
该研究提出了一种多模态-多任务框架MM-ORIENT,该框架利用跨模态关系和分层交互注意力来实现语义理解。该方法通过跨模态方式获取多模态表示,而无需不同模态之间的显式交互,从而减少潜在阶段的噪声影响。MM-ORIENT提出跨模态关系图来重建单模态特征,从而获得多模态表示。此外,还提出了分层交互单模态注意力(HIMA)来关注模态内的相关信息。实验结果表明,该方法能够有效地理解多模态内容,以完成多个任务。 - Foundation Models for Cross-Domain EEG Analysis Application: A Survey (https://arxiv.org/abs/2508.15716)
该研究对脑电图(EEG)分析中基础模型进行了全面的模态导向分类。该研究系统地组织了基于原生脑电图解码、脑电图-文本、脑电图-视觉、脑电图-音频和更广泛的多模态框架的输出模态的研究进展。该研究分析了每个类别的研究思想、理论基础和架构创新,同时强调了模型可解释性、跨域泛化和基于脑电图的系统中实际应用等开放性挑战。 - MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds (https://arxiv.org/abs/2508.14879)
该研究介绍了一种名为MeshCoder的新型框架,该框架可以将点云重建为可编辑的Blender Python脚本。研究人员开发了一套全面的、富有表现力的Blender Python API,能够合成复杂的几何图形。利用这些API,构建了一个大规模的配对对象-代码数据集,其中每个对象的代码都被分解为不同的语义部分。随后,训练了一个多模态大型语言模型(LLM),该模型将3D点云转换为可执行的Blender Python脚本。 - Enhancing Code-switched Text-to-Speech Synthesis Capability in Large Language Models with only Monolingual Corpora (https://arxiv.org/abs/2409.10969)
该研究提出了一种代码切换大型语言模型(CS-LLM),以增强LLM中代码切换文本到语音合成(CS TTS)的能力,且仅使用单语语料库。研究人员首先通过多语语音识别和合成任务来增强LLM的多语语音处理能力。然后,开发了一种有效的代码切换(CS)数据构建策略,该策略从不同的单语语音语料库中分割和连接单词,从而使LLM具备改进的CS TTS能力。 - Sentiment Reasoning for Healthcare (https://arxiv.org/abs/2407.21054)
该研究为语音和文本模态引入了一项新任务------情感推理,并提出了多模态多任务框架和世界上最大的多模态情感分析数据集。情感推理是情感分析中的一项辅助任务,模型预测情感标签,并根据输入文本生成其背后的基本原理。
编辑精选
- A Disease-Centric Vision-Language Foundation Model for Precision Oncology in Kidney Cancer (https://arxiv.org/abs/2508.16569):该研究在医疗领域具有实际应用价值,提出的RenalCLIP模型在肾癌诊断和预后方面表现出色,有望改善患者管理。
- Do What? Teaching Vision-Language-Action Models to Reject the Impossible (https://arxiv.org/abs/2508.16292):该研究关注VLA模型在机器人任务中处理虚假前提指令的能力,对于提高机器人的鲁棒性和人机交互质量具有重要意义。
- Retrieval Enhanced Feedback via In-context Neural Error-book (https://arxiv.org/abs/2508.16313):该研究提出了一种系统化的错误分析和反馈框架REFINE,能够有效提升多模态LLM的推理能力,具有较强的通用性和可扩展性。
- HPSv3: Towards Wide-Spectrum Human Preference Score (https://arxiv.org/abs/2508.03789):该研究提供了更全面的人类偏好数据集和评估指标,对于改进文生图模型的质量和人类对齐性具有重要作用。