多模态模型

InternLM5 天前
人工智能·大模型·多模态模型
从「模型类型不支持」到成功推理:Intern-S2-Preview oMLX 4bit 量化实录 | 与书生共创本文来自社区投稿,作者风外听竹Intern‑S2‑Preview 是由上海人工智能实验室开源发布,面向科学场景的多模态大模型。模型文本主干基于 Qwen3.5-MoE,同时还带有视觉编码器和一个 time_series 时间序列模块。我的目标是借助 oMLX 的 oQ(Optimal Quantization) 将模型压缩至 4bit。
兆。8 天前
架构·qwen·多模态模型·ollama
多模态模型详解:从拼接式到原生统一架构2026年,多模态AI已经从"新鲜事物"变成"基础设施"。GPT-4o 原生多模态架构的全面铺开、Gemini 2.5 的"统一表征空间"、Claude 4 的视觉理解能力跃升、以及 GPT-6(代号"Spud")于2026年4月14日正式发布——这些事件背后,是一个核心技术范式的转变:
2601_9578822412 天前
重构·音视频·geo·rag·多模态模型
多模态RAG与视觉红利:GEO(生成式引擎优化)中的图片与视频资产重构策略大语言模型(LLM)的演进速度超乎想象。随着 GPT-4o、Gemini 1.5 Pro 以及国内诸多原生多模态大模型的发布,AI搜索引擎(如各大厂的AI助手、智能搜索插件)的输入输出已经不再局限于纯文本。
苏盆栽1 个月前
机器人控制·多模态模型·ai自动化
实战Pi0机器人控制中心:轻松实现机器人智能操控Pi0机器人控制中心是一个基于先进视觉-语言-动作模型的智能操控平台,它彻底改变了传统机器人控制的复杂方式。这个项目将多视角视觉感知、自然语言理解和精准动作控制完美融合,让机器人操控变得像与人对话一样简单直观。
盼小辉丶2 个月前
深度学习·transformer·多模态模型
Transformer实战(39)——多模态生成式Transformer能够理解多种类型输入的模型被称为多模态模型。多模态学习是人工智能 (Artificial Intelligence, AI) 领域的重要研究方向之一,长期受到众多研究人员的关注。本节将介绍使用多模态模型的生成式 AI,包括文本到图像 (text-to-image) 和文本到音乐 (text-to-music) 的生成模型。将介绍 Stable Diffusion 及其工作原理,同时也将介绍 MusicGen 和 AudioGen 模型。
司南OpenCompass4 个月前
人工智能·大语言模型·多模态模型·大模型评测·司南评测
Gemini-3-Pro-Preview登顶,大模型迈入Agent元年丨大语言模型1月最新榜单揭晓进入 2026 年,全球大模型技术持续加速演进,新一轮模型发布不断刷新能力边界。行业关注重点从基础能力指标,转向模型在真实复杂场景中的综合表现。各类模型持续强化智能体相关能力,在编程、推理、工具调用与信息检索等关键方向不断提升,全面增强解决实际问题的能力。与此同时,中国大模型在全球舞台上持续受到关注,越来越多模型在海外社区引发热议,展现出中国在大模型日益增强的技术实力与创新活力。
程序员学习Chat4 个月前
多模态·多模态模型
多模态-8 YOLO World这篇文章介绍多模态模型-YOLO World多模态基础知识介绍可以看:多模态-1 基础理论Grounding DINO介绍可以看:多模态-7 Grounding DINO
司南OpenCompass4 个月前
人工智能·大模型·多模态模型·大模型评测·司南评测
当模型开始“记住”评测,如何用动态数据对抗污染?(上篇)随着大模型能力的持续跃升,一个不容忽视的现象逐渐显现:越来越多的评测,正在被模型“记住”。无论是安全评测、通用能力评测,还是面向科学推理的专业基准,一次性构建的静态数据集都难以在模型快速迭代的背景下长期保持区分力。模型可能并非真正理解了问题,而是学会了如何应对固定测试。
司南OpenCompass5 个月前
人工智能·大模型·多模态模型·大模型评测·司南评测·ai评测
司南“六位一体”评测体系的一年演进过去一年,通用人工智能在模型规模、能力边界与应用深度上持续突破。大模型正从通用问答走向科研发现、产业应用与真实世界交互,系统复杂性与潜在风险同步上升。在这一背景下,如何构建科学、公正、可复现的评测体系,持续刻画 AI 能力边界、引导技术健康演进,成为支撑人工智能高质量发展的关键基础设施问题。
司南OpenCompass6 个月前
人工智能·多模态模型·大模型评测·司南评测
衡量AI真实科研能力!司南科学智能评测上线随着人工智能与科学研究的深度融合,AI 驱动的科学发现正进入加速发展期。在这一背景下,如何科学、客观地衡量模型在真实科研场景中的能力,已成为推动 AI for Science 可持续发展的关键。
攻城狮7号6 个月前
人工智能·openai·多模态模型·gpt-5.2
OpenAI发布GPT-5.2:是王者归来还是强弩之末?目录前言:不再“独孤求败”的十周年一、告别“一刀切”:三款模型,三种命运二、生产力的真相:从“聊天”到“干活”
司南OpenCompass6 个月前
人工智能·多模态模型·大模型评测·司南评测·大模型测评·大模型安全评估·动态评估
AAAI 2026|SDEval:首个面向多模态模型的安全动态评估框架随着多模态大语言模型(MLLMs)能力不断增强,其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系,但可靠评估仍面临三大挑战:
minhuan6 个月前
whisper·asr·多模态模型·语音转文本应用·语音大模型应用
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21前面我们详细介绍了文本转语音的细节和实践,今天我们继续探讨一下语音转文本(ASR),初次接触,OpenAI Whisper 是最易上手、效果最均衡的开源大模型,它无需复杂的专业知识,一行代码就能实现多语言语音转写,且在噪声、口音、多语言场景下的表现远优于传统 ASR。
司南OpenCompass6 个月前
人工智能·多模态模型·大模型评测·司南评测·大模型测评
Gemini-3-Pro 强势登顶,GPT-5.1 转向“创作型选手”?丨多模态模型11月最新榜单揭晓多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释放价值,引领智能时代的全面升级与加速到来。
minhuan6 个月前
多模态模型·大模型应用·speecht5模型·剧情配音系统·tts模型应用
大模型应用:基于 SpeechT5 的自媒体多角色剧情配音系统:架构、细节与实践.20在现在很多自媒体平台的剧情类短视频创作中,多角色配音是核心环节但痛点显著:真人配音成本高、周期长,通用 TTS 工具缺乏角色区分度,多语言 /多情绪适配性差,且难以批量处理剧本、生成标准化字幕。
商汤万象开发者6 个月前
人工智能·多模态模型·ai应用·文档解析·版面分析·内容提取
UniParse:让多模态模型真正“读懂”文档的解析引擎在多模态大模型迅速发展的今天,我们已经能让模型“看图说话”,甚至“读懂表格”,但要让模型真正理解复杂的文档结构(例如在PDF中准确识别章节、表格、公式与图像的逻辑关系)依然是一个未被彻底解决的问题。 UniParse正是为此而生:它是一款面向AI应用的通用文档解析工具,旨在将文档中的非结构化内容转化为结构化语义信息,使多模态模型能够高效、精准地理解和利用文档内容。
小白狮ww8 个月前
人工智能·深度学习·机器学习·音视频·视频生成·多模态模型·人物视频
清华联合字节推出 HuMo,实现三模态协同生成人物视频如今文本生成图像与视频已不再是天方夜谭。然而,当大多数模型仍在为生成画面的清晰度与稳定性而努力时,一个更为棘手的挑战浮出水面:如何精准、一致地生成以「人物」为核心的高质量视频?对此,清华大学与字节跳动联合推出了一个名为 HuMo 的统一 HCVG 框架。它专为「创造人」而生,旨在攻克这一核心难题。
GPUStack8 个月前
大模型·ocr·paddleocr·多模态模型·模型推理
0.9B PaddleOCR-VL 登顶 SOTA!GPUStack 高效推理部署实战指南在全球多模态文档解析的激烈竞赛中,百度凭借 PaddleOCR-VL 模型给行业投下了一颗重磅炸弹。这个仅有 0.9B 参数量的轻量级多模态模型,不仅在 OmniDocBench V1.5 榜单上以 92.6 的综合得分登顶全球,更在文本识别、公式识别、表格理解和阅读顺序四大核心能力上全面斩获 SOTA,刷新了文档解析领域的性能天花板。
zhaosuyuan10 个月前
llm·多模态模型
CLIP详细讲解CLIP Contrastive language image pre-training ICML OpenAI 2021 论文:https://arxiv.org/pdf/2103.00020 代码:https://github.com/openai/CLIP 动机:在NLP领域,利用大规模数据预训练模型,用与下游任务无关的训练方式取得革命性的成功。将NLP的成功复制到其它领域中,如视觉领域。限定类别计算机视觉任务,简化了任务,同时也限制了模型的泛化能力,识别新类别。
CodeShare10 个月前
人工智能·多模态模型·机器人技术
谷歌推出基于Gemini 2.0的机器人AI模型谷歌DeepMind正式推出基于Gemini 2.0的两款机器人AI模型:查看技术报告 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手) 公众号二维码