多模态模型

司南OpenCompass1 小时前
人工智能·多模态模型·大模型评测·司南评测
衡量AI真实科研能力!司南科学智能评测上线随着人工智能与科学研究的深度融合,AI 驱动的科学发现正进入加速发展期。在这一背景下,如何科学、客观地衡量模型在真实科研场景中的能力,已成为推动 AI for Science 可持续发展的关键。
攻城狮7号3 天前
人工智能·openai·多模态模型·gpt-5.2
OpenAI发布GPT-5.2:是王者归来还是强弩之末?目录前言:不再“独孤求败”的十周年一、告别“一刀切”:三款模型,三种命运二、生产力的真相:从“聊天”到“干活”
司南OpenCompass7 天前
人工智能·多模态模型·大模型评测·司南评测·大模型测评·大模型安全评估·动态评估
AAAI 2026|SDEval:首个面向多模态模型的安全动态评估框架随着多模态大语言模型(MLLMs)能力不断增强,其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系,但可靠评估仍面临三大挑战:
minhuan7 天前
whisper·asr·多模态模型·语音转文本应用·语音大模型应用
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21前面我们详细介绍了文本转语音的细节和实践,今天我们继续探讨一下语音转文本(ASR),初次接触,OpenAI Whisper 是最易上手、效果最均衡的开源大模型,它无需复杂的专业知识,一行代码就能实现多语言语音转写,且在噪声、口音、多语言场景下的表现远优于传统 ASR。
司南OpenCompass8 天前
人工智能·多模态模型·大模型评测·司南评测·大模型测评
Gemini-3-Pro 强势登顶,GPT-5.1 转向“创作型选手”?丨多模态模型11月最新榜单揭晓多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释放价值,引领智能时代的全面升级与加速到来。
minhuan9 天前
多模态模型·大模型应用·speecht5模型·剧情配音系统·tts模型应用
大模型应用:基于 SpeechT5 的自媒体多角色剧情配音系统:架构、细节与实践.20在现在很多自媒体平台的剧情类短视频创作中,多角色配音是核心环节但痛点显著:真人配音成本高、周期长,通用 TTS 工具缺乏角色区分度,多语言 /多情绪适配性差,且难以批量处理剧本、生成标准化字幕。
商汤万象开发者15 天前
人工智能·多模态模型·ai应用·文档解析·版面分析·内容提取
UniParse:让多模态模型真正“读懂”文档的解析引擎在多模态大模型迅速发展的今天,我们已经能让模型“看图说话”,甚至“读懂表格”,但要让模型真正理解复杂的文档结构(例如在PDF中准确识别章节、表格、公式与图像的逻辑关系)依然是一个未被彻底解决的问题。 UniParse正是为此而生:它是一款面向AI应用的通用文档解析工具,旨在将文档中的非结构化内容转化为结构化语义信息,使多模态模型能够高效、精准地理解和利用文档内容。
小白狮ww2 个月前
人工智能·深度学习·机器学习·音视频·视频生成·多模态模型·人物视频
清华联合字节推出 HuMo,实现三模态协同生成人物视频如今文本生成图像与视频已不再是天方夜谭。然而,当大多数模型仍在为生成画面的清晰度与稳定性而努力时,一个更为棘手的挑战浮出水面:如何精准、一致地生成以「人物」为核心的高质量视频?对此,清华大学与字节跳动联合推出了一个名为 HuMo 的统一 HCVG 框架。它专为「创造人」而生,旨在攻克这一核心难题。
GPUStack2 个月前
大模型·ocr·paddleocr·多模态模型·模型推理
0.9B PaddleOCR-VL 登顶 SOTA!GPUStack 高效推理部署实战指南在全球多模态文档解析的激烈竞赛中,百度凭借 PaddleOCR-VL 模型给行业投下了一颗重磅炸弹。这个仅有 0.9B 参数量的轻量级多模态模型,不仅在 OmniDocBench V1.5 榜单上以 92.6 的综合得分登顶全球,更在文本识别、公式识别、表格理解和阅读顺序四大核心能力上全面斩获 SOTA,刷新了文档解析领域的性能天花板。
zhaosuyuan5 个月前
llm·多模态模型
CLIP详细讲解CLIP Contrastive language image pre-training ICML OpenAI 2021 论文:https://arxiv.org/pdf/2103.00020 代码:https://github.com/openai/CLIP 动机:在NLP领域,利用大规模数据预训练模型,用与下游任务无关的训练方式取得革命性的成功。将NLP的成功复制到其它领域中,如视觉领域。限定类别计算机视觉任务,简化了任务,同时也限制了模型的泛化能力,识别新类别。
CodeShare5 个月前
人工智能·多模态模型·机器人技术
谷歌推出基于Gemini 2.0的机器人AI模型谷歌DeepMind正式推出基于Gemini 2.0的两款机器人AI模型:查看技术报告 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手) 公众号二维码
lovep15 个月前
音视频·语音识别·多模态模型·音频识别·基础模型
CLAP文本-音频基础模型: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISIONcode:https://github.com/LAION-AI/CLAPcode:https://github.com/microsoft/CLAP
威化饼的一隅1 年前
深度学习·多模态·视觉语言模型·多模态模型·minicpm·minicpm-v
【多模态】MiniCPM-V多模态大模型使用学习前面学习了一些常见多模态模型的架构,现在开始学习使用minicpm-v-2.6模型,记录学习过程,欢迎批评指正~
威化饼的一隅1 年前
人工智能·深度学习·大模型·swift·多模态模型·qwen2-vl
【多模态】swift框架使用qwen2-vl前几篇里面学习了常见的一些多模态模型的典型架构和源代码,上一篇里面测试使用了minicpm-v系列模型,在尝试RLHF的时候发现swift特别好用特别全,记录一下对swift的一些使用,欢迎批评指正~   前一篇里面写了minicpm-v的使用方法,这里主要记录qwen2-vl的使用。
威化饼的一隅1 年前
人工智能·深度学习·计算机视觉·大模型·多模态·多模态模型·flamingo
【多模态】Flamingo模型技术学习最近多模态模型特别火,从头开始学习!在前面写的几篇里面学习了MiniCPM-V、ViT、CLIP和BLIP/BLIP-2之后,今天学习一下Flamingo模型,记录学习过程,欢迎批评指正,一起学习~~
OpenAppAI1 年前
多模态模型
《Baichuan-Omni》论文精读:第1个7B全模态模型 | 能够同时处理文本、图像、视频和音频输入论文介绍了一种新的多模态大型语言模型(Multimodal Large Language Model, MLLM),名为Baichuan-Omni。该模型是开源的,并且是首个能够同时处理图像、视频、音频和文本四种模态信息的70亿参数规模的模型。 文章指出了GPT-4o在多模态能力与交互体验方面的突出表现,但指出目前缺乏一个高性能的开源替代品。因此,本文旨在介绍Baichuan-Omni,以填补这一空白。
OpenAppAI1 年前
多模态模型·qwen2-vl
《Qwen2-VL》论文精读【下】:发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当《Qwen2-VL》论文精读【上】:发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当 上回详细分析了Qwen2-VL的论文摘要、引言、实验,下面继续精读Qwen2-VL的方法部分。
威化饼的一隅1 年前
人工智能·计算机视觉·大模型·transformer·vit·多模态模型·视觉编码器
ViT模型技术学习最近多模态模型特别火,模型也越来越小,MiniCPM-2.6只有8B,里面采用的图片编码器是SigLipViT模型,一起从头学习ViT和Transformer!本文记录一下学习过程,所以是自上而下的写,从ViT拆到Transformer。
十有久诚1 年前
人工智能·深度学习·提示学习·多模态模型
Progressive Multi-modal Conditional Prompt Tuning图像的重复消化有助于提高分类精度。ProMPT不是直接进行预测,而是多次重新访问原始图像以检查答案,逐步将预测从粗糙细化到精确。 希望达到的效果如下: 图7:通过迭代进化,ProMPT逐步将CLIP产生的错误结果纠正为正确的结果。 ✓ \checkmark ✓表示正确和×表示不正确的预测。
页页读2 年前
多模态模型
【LLAVA】Llava中在数据集制作过程中是怎么从CC3M中过滤出595K数据的?为什么这样做?原文:CC3M. We extract noun-phrases using Spacy for each caption over the whole cc3m dataset, and count the frequency of each unique noun-phrase. We skip noun-phrases whose frequency is smaller than 3, as they are usually rare combinations concept and attrib