AI核心知识29——大语言模型之Multimodality(简洁且通俗易懂版)

多模态(Multimodality) 是大语言模型进化史上最重要的里程碑之一。

如果说之前的 AI 是一个**"虽然博学但又聋又瞎的哲学家"(只能读文字、写文字),那么多模态 AI** 就意味着这个哲学家长出了眼睛、耳朵和嘴巴


1. 💡 什么是"模态" (Modality)?

在计算机科学里,"模态"就是指数据的存在形式。

常见的模态有:

  • 文本 (Text)

  • 图像 (Image)

  • 音频 (Audio)

  • 视频 (Video)

多模态大模型 (Multimodal LLM / LMM) ,就是指这个 AI 模型不再局限于处理单一的文本,而是能够同时理解、处理和生成多种不同形式的数据。


2. 👁️ 形象的比喻:从"读信"到"视频通话"

  • 单模态模型 (如早期的 GPT-3):

    就像你被关在一个黑屋子里,外界只能通过门缝塞进来小纸条(文字)和你交流。你无法看到外面的世界,只能靠文字描述来想象。

  • 多模态模型 (如 GPT-4o, Gemini 1.5, Claude 3.5 Sonnet):

    就像你走出了黑屋子,或者和外界打通了视频电话。

    • 你给他看一张照片,它能看懂(视觉)。

    • 你对它说话,它能听懂语气(听觉)。

    • 它可以画一张图回应你,或者直接开口说话(生成)。


3. 🛠️ 它是怎么实现的?(统一的语言)

多模态核心是通过Embedding(嵌入/向量化) 来实现的。

在多模态模型眼里,"一张猫的照片""猫这个单词" ,虽然人类看着不一样,但经过数学转换后,它们在模型的向量空间 里,指向的是同一个位置

🧠 技术原理:Token 的大一统

现在的多模态模型把所有东西都切成 Token:

  • 文字切成 Token。

  • 图片切成一个个小方块(Patch),也变成 Token。

  • 声音切成一小段波形,也变成 Token。

对于模型来说,它看到的不再是"图"或"字",而是一长串数字序列。 这让它能够把图片和文字混在一起"阅读"。


4. 🚀 多模态能干什么?(经典场景)

多模态彻底改变了我们使用 AI 的方式,也就是所谓的 Any-to-Any(任意输入到任意输出)

模式 场景示例
图生文 (Image-to-Text) 拍照解题:拍一张数学卷子,AI 识别题目并给出解题步骤。 冰箱大厨:拍一张冰箱里的食材照片,AI 告诉你今晚能做什么菜。
文生图 (Text-to-Image) 设计辅助:你说"画一只在月球上骑自行车的熊猫",DALL·E 或 Midjourney 直接生成图片。
文/图生视频 (Text-to-Video) Sora / Kling:你给一张照片或一段文字,AI 生成一段 60 秒的高清电影镜头。
语音对话 (Speech-to-Speech) 实时翻译:你对着手机说中文,AI 听到后直接用法语说出来,连你的情绪和语调都能模仿(如 GPT-4o 的高级语音模式)。

5. 🧬 "原生多模态" vs. "拼凑多模态"

这是目前业界的一个重要区分:

  1. 拼凑多模态 (Pipeline / Glue)

    • 做法:用一个模型把声音转成字,再把字喂给 LLM,LLM 生成字,再用另一个模型把字转成声音。

    • 缺点:慢,而且会丢失情感(比如你的笑声、叹气声,转成文字就没了)。

  2. 原生多模态 (Native Multimodal)

    • 代表GPT-4o (Omni) , Gemini 1.5 Pro

    • 做法 :模型从训练的第一天起,就是看着视频、听着声音长大的。它是一个端到端 (End-to-End) 的模型。

    • 优点:极快,而且能听懂你的喘息、犹豫、甚至能看懂你视频背景里的一闪而过的细节。


总结

多模态就是 AI 的感官觉醒。 它打破了数字世界和物理世界的隔阂,让 AI 能够像人类一样,通过看、听、说来感知和交互。

这也是为什么现在我们常说:"以后的 Prompt 不仅仅是提示词,还可以是提示图、提示视频。"

相关推荐
却尘1 分钟前
Codex CLI 的 config.toml 比你想象的能玩:六层优先级、信任沙箱、还有一堆官方默默打开的好东西
aigc·openai·ai编程
小饕5 分钟前
从 Word2Vec 到多模态:词嵌入技术的演进全景
人工智能·算法·机器学习
上海云盾第一敬业销售5 分钟前
生成式AI催生深度伪造攻击,WAF如何识别“假流量“?
人工智能
ykjhr_3d6 分钟前
数字工具AI智能学伴,助力教育数字化转型
大数据·人工智能·ai·ai人工智能·华锐视点·华锐云空间
LIUAWEIO8 分钟前
鸽鸽工具网:免费在线工具大全,打开网页即用
人工智能·安全·ai·json
饭后一颗花生米11 分钟前
养马养虾助手免费下载免费安装教程,一键部署永久使用
ai
动恰客流管家12 分钟前
动恰3DV3丨客流统计系统:旺季人手不够淡季闲人太多?客流统计帮你科学优化人力成本
大数据·运维·人工智能·3d
吻等离子15 分钟前
机器学习基本概念篇(含思维导图)
人工智能·机器学习
乐维_lwops16 分钟前
智变2026:中国IT运维管理软件行业全景洞察——从AI重塑到信创深水区
运维·人工智能
Hui_AI72018 分钟前
基于RAG的农产品GEO溯源智能问答系统实现
开发语言·网络·人工智能·python·算法·创业创新