多模态

DataOceanAI Dolphin（ffmpeg音频转化教程）多语言（中国方言）语音识别系统部署与应用指南官方地址：DataoceanAI-DolphinDataOceanAI Dolphin 是由清华大学与DataOceanAI联合开发的多语言自动语音识别（ASR, Automatic Speech Recognition）系统。该系统专门针对东方语言设计，支持40种亚洲语言和22种中文方言，基于超过21万小时的训练数据构建。系统采用Transformer架构，提供了从140M到1.67B参数规模的多个模型版本。

VLMs开发——基于Qwen2.5-VL 实现视觉语言模型在目标检测中的层级结构与实现方法目标检测作为计算机视觉领域的核心任务，传统方法依赖于 YOLO 等视觉模型对预定义类别进行位置预测。然而，此类方法受限于预训练类别体系，难以实现灵活的视觉交互。视觉语言模型（Vision-Language Models, VLMs）的问世打破了这一局限，其具备跨模态理解能力，能够实现图像与自然语言的双向交互，为目标检测领域带来范式革新。本文系统探讨基于 VLM 的目标检测技术，重点研究 Qwen2.5-VL 模型的技术特性与应用方法。

《CogAgent: A Visual Language Model for GUI Agents》论文精读笔记论文链接：arxiv.org/pdf/2312.08914人们在通过图形用户界面（GUIs），例如计算机或智能手机屏幕，与数字设备交互时，花费了大量时间。尽管大型语言模型（LLMs），如ChatGPT，可以在写邮件等任务中为人们提供帮助，但它们在理解和操作图形用户界面方面存在困难，从而限制了其在提高自动化水平方面的潜力。

计算机sci论文精选

ACL 2024 大模型方向优秀论文：洞察NLP前沿关键突破关注gongzhonghao【计算机sci论文精选】近年来，以Transformer架构为核心的大语言模型重塑了自然语言处理领域的技术范式。当前ACL相关研究呈现多维度深化态势，从开源社区推动轻量化架构与低成本训练技术革新，到学术界探索检索增强等机制突破长尾知识覆盖局限，再到医疗、海洋等垂直领域专用模型开发成为新热点。

视觉语言模型在视觉任务上的研究综述论文链接：arxiv.org/pdf/2504.09480摘要——视觉-语言模型（VLM）已在开放词汇（OV）目标检测与分割任务中得到广泛应用。尽管它们在与开放词汇相关的任务中展现出良好的性能，但其在传统视觉任务中的有效性迄今尚未得到系统评估。

威化饼的一隅

【多模态】天池AFAC赛道四-智能体赋能的金融多模态报告自动化生成part2-报告输出本任务需要参赛团队研发一个能够自动撰写三大类季度/年度跟踪型金融研报（宏观经济/策略研报、行业/子行业研报、公司/个股研报）的智能Agent系统，需实现生成研报质量及构建使用技术两部分的目标。

威化饼的一隅

【多模态】天池AFAC赛道四-智能体赋能的金融多模态报告自动化生成part1-数据获取本任务需要参赛团队研发一个能够自动撰写三大类季度/年度跟踪型金融研报（宏观经济/策略研报、行业/子行业研报、公司/个股研报）的智能Agent系统，需实现生成研报质量及构建使用技术两部分的目标。

Idefics3：构建和更好地理解视觉-语言模型：洞察与未来方向温馨提示：本篇文章已同步至"AI专题精讲" Idefics3：构建和更好地理解视觉-语言模型：洞察与未来方向

InstructBLIP：通过指令微调迈向通用视觉-语言模型温馨提示：本篇文章已同步至"AI专题精讲" InstructBLIP：通过指令微调迈向通用视觉-语言模型

KOSMOS-2: 将多模态大型语言模型与世界对接温馨提示：本篇文章已同步至"AI专题精讲" KOSMOS-2: 将多模态大型语言模型与世界对接我们介绍了 KOSMOS-2，一种多模态大型语言模型（MLLM），赋予了模型感知物体描述（例如，边界框）并将文本与视觉世界对接的新能力。具体而言，我们将引用表达式表示为 Markdown 中的链接形式，即 “文本片段”，其中物体描述是位置标记的序列。通过与多模态语料库的结合，我们构建了大规模的图像-文本对（称为 GRIT）数据，用于训练模型。除了现有的 MLLM 能力（例如，感知一般模态、遵循指令和执行上下文学

TrOCR: 基于Transformer的光学字符识别方法，使用预训练模型温馨提示：本篇文章已同步至"AI专题精讲" TrOCR: 基于Transformer的光学字符识别方法，使用预训练模型

Clip微调系列：《MaPLe: Multi-modal Prompt Learning》论文链接：arxiv.org/pdf/2210.03117参考链接：(28 封私信) CVPR2023 | MaPLe: Multi-modal Prompt Learning - 知乎

高堂明镜悲白发

基于Chinese-CLIP与ChromaDB的中文图像检索功能实现本文按“原理 → 代码 → 讲解”三层展开，读者只需具备 Python 基础即可跟随完成一个可落地的以文搜图应用。

VISUALBERT：一个简单且高效的视觉与语言基线模型温馨提示：本篇文章已同步至"AI专题精讲" VISUALBERT：一个简单且高效的视觉与语言基线模型

用于构建多模态情绪识别与推理（MERR）数据集的自动化工具MER-Factory 项目是一个用于构建多模态情感识别与推理（MERR）数据集的自动化工厂，它能够处理多种类型的多媒体数据，并进行情感分析和推理。以下是该项目的主要功能：

九年义务漏网鲨鱼

【大模型学习 | MINIGPT-4原理】在GPT4未开源的情况下，作者认为其表现优越是因为采用了最为先进的LLM模型，因此，作者在BLIP2的基础上，将LLM模型替换为了Vicuna，同样也是通过一个线性映射层将图像表征映射为LLM的输入。此外，作者还提出只在短标题文本对上训练会出现不自然的语言描述（重复）。因此作者也构建了一个更加详细的图像描述数据集。

视频序列和射频信号多模态融合算法Fusion-Vital解读最近看了Fusion-Vital的视频-射频（RGB-RF）融合Transformer模型。记录一下，对于实际项目中的多模态数据融合有一定参考价值。原始论文，参考实现源码。具体来说，Fusion-Vital模型首先将多帧视频RGB图像投影到一个共享的时间差分域中，以有效捕捉微小的生理信号，同时避免全局运动的干扰。对于RF射频模态，利用多普勒特性，通过短时傅里叶变换（STFT）生成时间-频率图像，作为时间差分域的替代指标。模型采用并行编码分支，分别处理RGB和RF数据，并引入多级特征融合模块，利用交叉

风信子的猫Redamancy

百度文心 ERNIE 4.5 开源：开启中国多模态大模型开源新时代随着DeepSeek-R1的横空出示，越来越多大公司开始开源模型，像DeepSeek R1发布的时候Kimi同步开源了技术文档，随着R1推动着思维链推理技术的发展，开源社区也出现了越来越多开源推理大模型，比如前段时间开源的Qwen3，开始使用MOE架构并且能自由切换思维模式，以及Kimi也开源了一些模型，比如Kimi-VL多模态模型，也适用了思维链R1的方式应用到多模态大模型中。最近冲浪中，我又发现百度也开始进行开源了，6.30号的时候刚刚发布了开源模型，也就是文心大模型 ERNIE 4.5系列，现在在h

百度开源文心一言4.5：论文解读和使用入门近日，百度ERNIE团队发布的ERNIE 4.5模型家族。该家族包含10种不同的大规模多模态模型变体，涵盖了47B和3B激活参数的混合专家（MoE）模型，以及拥有424B总参数的模型和一个0.3B的密集模型。这些模型采用了新颖的异构模态结构，支持跨模态的参数共享，同时允许每个模态拥有独立的参数，以增强多模态理解能力，且不会损害文本相关任务的性能。所有模型均使用PaddlePaddle深度学习框架进行高效训练，实现了高性能推理和简化部署。

深度学习登上Nature子刊！特征选择创新思路2025深度学习发论文&模型涨点之——特征选择特征选择作为机器学习与数据挖掘领域的核心预处理步骤，其重要性在当今高维数据时代日益凸显。