多模态模型

司南OpenCompass

Gemini-3-Pro-Preview登顶，大模型迈入Agent元年丨大语言模型1月最新榜单揭晓进入 2026 年，全球大模型技术持续加速演进，新一轮模型发布不断刷新能力边界。行业关注重点从基础能力指标，转向模型在真实复杂场景中的综合表现。各类模型持续强化智能体相关能力，在编程、推理、工具调用与信息检索等关键方向不断提升，全面增强解决实际问题的能力。与此同时，中国大模型在全球舞台上持续受到关注，越来越多模型在海外社区引发热议，展现出中国在大模型日益增强的技术实力与创新活力。

程序员学习Chat

多模态-8 YOLO World这篇文章介绍多模态模型-YOLO World多模态基础知识介绍可以看：多模态-1 基础理论Grounding DINO介绍可以看：多模态-7 Grounding DINO

司南OpenCompass

当模型开始“记住”评测，如何用动态数据对抗污染？（上篇）随着大模型能力的持续跃升，一个不容忽视的现象逐渐显现：越来越多的评测，正在被模型“记住”。无论是安全评测、通用能力评测，还是面向科学推理的专业基准，一次性构建的静态数据集都难以在模型快速迭代的背景下长期保持区分力。模型可能并非真正理解了问题，而是学会了如何应对固定测试。

司南OpenCompass

司南“六位一体”评测体系的一年演进过去一年，通用人工智能在模型规模、能力边界与应用深度上持续突破。大模型正从通用问答走向科研发现、产业应用与真实世界交互，系统复杂性与潜在风险同步上升。在这一背景下，如何构建科学、公正、可复现的评测体系，持续刻画 AI 能力边界、引导技术健康演进，成为支撑人工智能高质量发展的关键基础设施问题。

司南OpenCompass

衡量AI真实科研能力！司南科学智能评测上线随着人工智能与科学研究的深度融合，AI 驱动的科学发现正进入加速发展期。在这一背景下，如何科学、客观地衡量模型在真实科研场景中的能力，已成为推动 AI for Science 可持续发展的关键。

OpenAI发布GPT-5.2：是王者归来还是强弩之末？目录前言：不再“独孤求败”的十周年一、告别“一刀切”：三款模型，三种命运二、生产力的真相：从“聊天”到“干活”

司南OpenCompass

AAAI 2026｜SDEval：首个面向多模态模型的安全动态评估框架随着多模态大语言模型（MLLMs）能力不断增强，其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系，但可靠评估仍面临三大挑战：

大模型应用：语音转文本（ASR）实践：OpenAI Whisper精准转录解析.21前面我们详细介绍了文本转语音的细节和实践，今天我们继续探讨一下语音转文本（ASR），初次接触，OpenAI Whisper 是最易上手、效果最均衡的开源大模型，它无需复杂的专业知识，一行代码就能实现多语言语音转写，且在噪声、口音、多语言场景下的表现远优于传统 ASR。

司南OpenCompass

Gemini-3-Pro 强势登顶，GPT-5.1 转向“创作型选手”？丨多模态模型11月最新榜单揭晓多模态大模型的崛起，正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样，将图像、文本、语音、视频等信息自然融会贯通时，它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面，而是能够读懂语境、推演逻辑、辅助决策，展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化，多模态大模型正加速从实验室走向产业深处，在越来越多的应用场景中持续释放价值，引领智能时代的全面升级与加速到来。

大模型应用：基于 SpeechT5 的自媒体多角色剧情配音系统：架构、细节与实践.20在现在很多自媒体平台的剧情类短视频创作中，多角色配音是核心环节但痛点显著：真人配音成本高、周期长，通用 TTS 工具缺乏角色区分度，多语言 /多情绪适配性差，且难以批量处理剧本、生成标准化字幕。

商汤万象开发者

UniParse：让多模态模型真正“读懂”文档的解析引擎在多模态大模型迅速发展的今天，我们已经能让模型“看图说话”，甚至“读懂表格”，但要让模型真正理解复杂的文档结构（例如在PDF中准确识别章节、表格、公式与图像的逻辑关系）依然是一个未被彻底解决的问题。 UniParse正是为此而生：它是一款面向AI应用的通用文档解析工具，旨在将文档中的非结构化内容转化为结构化语义信息，使多模态模型能够高效、精准地理解和利用文档内容。

清华联合字节推出 HuMo，实现三模态协同生成人物视频如今文本生成图像与视频已不再是天方夜谭。然而，当大多数模型仍在为生成画面的清晰度与稳定性而努力时，一个更为棘手的挑战浮出水面：如何精准、一致地生成以「人物」为核心的高质量视频？对此，清华大学与字节跳动联合推出了一个名为 HuMo 的统一 HCVG 框架。它专为「创造人」而生，旨在攻克这一核心难题。

0.9B PaddleOCR-VL 登顶 SOTA！GPUStack 高效推理部署实战指南在全球多模态文档解析的激烈竞赛中，百度凭借 PaddleOCR-VL 模型给行业投下了一颗重磅炸弹。这个仅有 0.9B 参数量的轻量级多模态模型，不仅在 OmniDocBench V1.5 榜单上以 92.6 的综合得分登顶全球，更在文本识别、公式识别、表格理解和阅读顺序四大核心能力上全面斩获 SOTA，刷新了文档解析领域的性能天花板。

CLIP详细讲解CLIP Contrastive language image pre-training ICML OpenAI 2021 论文：https://arxiv.org/pdf/2103.00020 代码：https://github.com/openai/CLIP 动机：在NLP领域，利用大规模数据预训练模型，用与下游任务无关的训练方式取得革命性的成功。将NLP的成功复制到其它领域中，如视觉领域。限定类别计算机视觉任务，简化了任务，同时也限制了模型的泛化能力，识别新类别。

谷歌推出基于Gemini 2.0的机器人AI模型谷歌DeepMind正式推出基于Gemini 2.0的两款机器人AI模型：查看技术报告更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）公众号二维码

CLAP文本-音频基础模型： LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISIONcode：https://github.com/LAION-AI/CLAPcode：https://github.com/microsoft/CLAP

威化饼的一隅

【多模态】MiniCPM-V多模态大模型使用学习前面学习了一些常见多模态模型的架构，现在开始学习使用minicpm-v-2.6模型，记录学习过程，欢迎批评指正～

威化饼的一隅

【多模态】swift框架使用qwen2-vl前几篇里面学习了常见的一些多模态模型的典型架构和源代码，上一篇里面测试使用了minicpm-v系列模型，在尝试RLHF的时候发现swift特别好用特别全，记录一下对swift的一些使用，欢迎批评指正～前一篇里面写了minicpm-v的使用方法，这里主要记录qwen2-vl的使用。

威化饼的一隅

【多模态】Flamingo模型技术学习最近多模态模型特别火，从头开始学习！在前面写的几篇里面学习了MiniCPM-V、ViT、CLIP和BLIP/BLIP-2之后，今天学习一下Flamingo模型，记录学习过程，欢迎批评指正，一起学习~~

《Baichuan-Omni》论文精读：第1个7B全模态模型 | 能够同时处理文本、图像、视频和音频输入论文介绍了一种新的多模态大型语言模型（Multimodal Large Language Model, MLLM），名为Baichuan-Omni。该模型是开源的，并且是首个能够同时处理图像、视频、音频和文本四种模态信息的70亿参数规模的模型。文章指出了GPT-4o在多模态能力与交互体验方面的突出表现，但指出目前缺乏一个高性能的开源替代品。因此，本文旨在介绍Baichuan-Omni，以填补这一空白。