多模态大模型研究每日简报【2025-08-21】

训练数据相关

MetaWild: A Multimodal Dataset for Animal Re-Identification with Environmental Metadata (https://arxiv.org/abs/2501.13368)

该论文提出了一个用于动物重识别的多模态数据集MetaWild，其中包含环境元数据，如温度和昼夜节律。作者还提出了 Meta-Feature Adapter (MFA)，一个可以集成到现有视觉-语言模型（VLM）的轻量级模块，利用环境元数据和视觉信息来提高ReID性能。
Social Debiasing for Fair Multi-modal LLMs (https://arxiv.org/abs/2408.06569)

该论文关注多模态大型语言模型（MLLM）中存在的社会偏见问题，提出了一个包含多个社会概念的对抗数据集CMSC，并提出了一种反刻板印象去偏见（CSD）策略，该策略利用流行刻板印象的对立面来减轻 MLLM 中的社会偏见。
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model (https://arxiv.org/abs/2312.11370)

该论文提出了一种名为G-LLaVA的模型，用于解决几何问题。为了解决当前多模态大语言模型（MLLM）在理解基本几何元素及其关系方面的局限性，作者构建了一个增强的多模态几何数据集Geo170K，其中包含超过17万个几何图像-标题和问答对。
ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine (https://arxiv.org/abs/2508.14706)

该论文介绍了ShizhenGPT，这是一个专为传统中医药（TCM）设计的首个多模态大型语言模型。为克服数据稀缺问题，作者构建了一个迄今最大的TCM数据集，包含100GB+的文本和200GB+的多模态数据。ShizhenGPT经过预训练和指令调优，实现了深厚的中医知识和多模态推理。

大模型的行业应用

WISE-FUSE: Efficient Whole Slide Image Encoding via Coarse-to-Fine Patch Selection with VLM and LLM Knowledge Fusion (https://arxiv.org/abs/2508.14537)

该论文提出了一种自适应WSI编码框架WISE-FUSE，该框架利用病理学领域的视觉-语言模型和大语言模型，通过选择性地处理诊断相关的区域来解决计算病理学中全切片图像（WSI）的巨大计算挑战。
PB-IAD: Utilizing multimodal foundation models for semantic industrial anomaly detection in dynamic manufacturing environments (https://arxiv.org/abs/2508.14504)

该论文提出了一种新颖的框架PB-IAD（基于提示的工业异常检测），该框架利用基础模型的多模态和推理能力进行工业异常检测。该框架包含一个提示模板，该模板专门设计用于迭代实施领域特定的过程知识，以及一个预处理模块，该模块将领域用户的输入转化为有效的系统提示。
Adversarial Generation and Collaborative Evolution of Safety-Critical Scenarios for Autonomous Vehicles (https://arxiv.org/abs/2508.14527)

该论文提出了一种名为ScenGE的框架，通过推理新颖的对抗性案例，然后用复杂的交通流放大它们来生成丰富的安全关键场景。首先执行元场景生成，其中基于结构化驾驶知识的大型语言模型推断出一种对抗代理，其行为构成既合理又具有挑战性的威胁。
CoT-Segmenter: Enhancing OOD Detection in Dense Road Scenes via Chain-of-Thought Reasoning (https://arxiv.org/abs/2507.03984)

该论文提出了一种基于CoT的新颖框架，旨在解决道路异常场景中的OOD检测问题。

文生图/文生视频

Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization (https://arxiv.org/abs/2508.14811)

该论文介绍了一种多功能框架Tinker，用于高保真3D编辑，它可以在一次性和少样本状态下运行，而无需任何场景微调。
SATURN: Autoregressive Image Generation Guided by Scene Graphs (https://arxiv.org/abs/2508.14502)

该论文介绍了一种VAR-CLIP的轻量级扩展SATURN（用于统一渲染网络的结构化三元组排列），它将场景图转换为显着性排序的token序列，使冻结的CLIP-VQ-VAE骨干能够解释图结构，同时仅微调VAR transformer。
Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration (https://arxiv.org/abs/2508.14483)

该论文提出了一种基于DiT的生成视频修复方法Vivid-VR，该方法建立在先进的T2V基础模型之上，其中ControlNet用于控制生成过程，确保内容一致性。
MUSE: Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion (https://arxiv.org/abs/2508.14440)

该论文提出了一种统一的合成框架MUSE，该框架采用串联交叉注意力（CCA），通过显式语义空间扩展将布局规范与文本指导无缝集成。
Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance (https://arxiv.org/abs/2411.16748)

该论文提出了LetsTalk，这是一种扩散transformer框架，该框架结合了多模态指导和一种新颖的记忆库机制，可显式保持上下文连续性并实现鲁棒，高质量和高效的长时间说话视频生成。

底层模型架构

Interpreting the linear structure of vision-language model embedding spaces (https://arxiv.org/abs/2504.11695)
该论文训练并发布了四个视觉-语言模型（CLIP，SigLIP，SigLIP2和AIMv2）的嵌入空间上的稀疏自动编码器（SAE）。

安全与隐私

FakeHunter: Multimodal Step-by-Step Reasoning for Explainable Video Forensics (https://arxiv.org/abs/2508.14581)

该论文提出了一种多模态深度伪造检测框架FakeHunter，它结合了记忆引导检索、思维链（观察-思考-行动）推理和工具增强验证，以提供准确且可解释的视频取证。
When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs (https://arxiv.org/abs/2508.03365)

该论文介绍了一种两阶段对抗性音频攻击框架WhisperInject，它可以操纵最先进的音频语言模型以生成有害内容。该方法使用音频输入中不易察觉的扰动，这些扰动对于人类收听者来说仍然是良性的。
BadBlocks: Low-Cost and Stealthy Backdoor Attacks Tailored for Text-to-Image Diffusion Models (https://arxiv.org/abs/2508.03221)

该论文确定了一种比现有方法更轻量级和隐蔽的新型后门威胁，将其命名为BadBlocks，它仅需要先前后门攻击通常所需的约30％的计算资源和20％的GPU时间，但它成功地注入了后门并逃避了最先进的防御框架。
The Man Behind the Sound: Demystifying Audio Private Attribute Profiling via Multimodal Large Language Model Agents (https://arxiv.org/abs/2507.10016)

该论文揭示了与多模态大型语言模型（MLLM）相关的一种新型隐私风险：从音频数据推断敏感个人属性的能力，这一技术称为音频私有属性分析。

其他

MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling (https://arxiv.org/abs/2508.08487)

该论文提出了一种用于长序列视频故事讲述的端到端多代理协作框架MAViS。
What Makes for Good Image Captions? (https://arxiv.org/abs/2405.00485)

该论文为图像字幕建立了一个正式的信息论框架，将字幕概念化为选择性地编码图像中语义单元的压缩语言表示。

编辑精选

ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine (https://arxiv.org/abs/2508.14706): 在中医领域构建多模态LLM，具有重要的应用前景，有望促进中医的现代化和智能化。该研究的数据集构建和模型设计具有一定的参考价值。
Adversarial Generation and Collaborative Evolution of Safety-Critical Scenarios for Autonomous Vehicles (https://arxiv.org/abs/2508.14527): 自动驾驶的安全至关重要。该论文提出的方法能够自动生成更具挑战性的corner case，有助于提高自动驾驶系统的安全性。
FakeHunter: Multimodal Step-by-Step Reasoning for Explainable Video Forensics (https://arxiv.org/abs/2508.14581): 深度伪造技术带来的安全风险日益增加，该论文提出的FakeHunter框架，不仅能检测深度伪造视频，还能提供可解释的推理过程，具有重要的现实意义。
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds (https://arxiv.org/abs/2508.14879): 将点云重建为可编辑的Blender Python脚本，为3D对象编辑和操作提供了新的可能性。