AI核心知识29——大语言模型之Multimodality(简洁且通俗易懂版)

多模态(Multimodality) 是大语言模型进化史上最重要的里程碑之一。

如果说之前的 AI 是一个**"虽然博学但又聋又瞎的哲学家"(只能读文字、写文字),那么多模态 AI** 就意味着这个哲学家长出了眼睛、耳朵和嘴巴


1. 💡 什么是"模态" (Modality)?

在计算机科学里,"模态"就是指数据的存在形式。

常见的模态有:

  • 文本 (Text)

  • 图像 (Image)

  • 音频 (Audio)

  • 视频 (Video)

多模态大模型 (Multimodal LLM / LMM) ,就是指这个 AI 模型不再局限于处理单一的文本,而是能够同时理解、处理和生成多种不同形式的数据。


2. 👁️ 形象的比喻:从"读信"到"视频通话"

  • 单模态模型 (如早期的 GPT-3):

    就像你被关在一个黑屋子里,外界只能通过门缝塞进来小纸条(文字)和你交流。你无法看到外面的世界,只能靠文字描述来想象。

  • 多模态模型 (如 GPT-4o, Gemini 1.5, Claude 3.5 Sonnet):

    就像你走出了黑屋子,或者和外界打通了视频电话。

    • 你给他看一张照片,它能看懂(视觉)。

    • 你对它说话,它能听懂语气(听觉)。

    • 它可以画一张图回应你,或者直接开口说话(生成)。


3. 🛠️ 它是怎么实现的?(统一的语言)

多模态核心是通过Embedding(嵌入/向量化) 来实现的。

在多模态模型眼里,"一张猫的照片""猫这个单词" ,虽然人类看着不一样,但经过数学转换后,它们在模型的向量空间 里,指向的是同一个位置

🧠 技术原理:Token 的大一统

现在的多模态模型把所有东西都切成 Token:

  • 文字切成 Token。

  • 图片切成一个个小方块(Patch),也变成 Token。

  • 声音切成一小段波形,也变成 Token。

对于模型来说,它看到的不再是"图"或"字",而是一长串数字序列。 这让它能够把图片和文字混在一起"阅读"。


4. 🚀 多模态能干什么?(经典场景)

多模态彻底改变了我们使用 AI 的方式,也就是所谓的 Any-to-Any(任意输入到任意输出)

模式 场景示例
图生文 (Image-to-Text) 拍照解题:拍一张数学卷子,AI 识别题目并给出解题步骤。 冰箱大厨:拍一张冰箱里的食材照片,AI 告诉你今晚能做什么菜。
文生图 (Text-to-Image) 设计辅助:你说"画一只在月球上骑自行车的熊猫",DALL·E 或 Midjourney 直接生成图片。
文/图生视频 (Text-to-Video) Sora / Kling:你给一张照片或一段文字,AI 生成一段 60 秒的高清电影镜头。
语音对话 (Speech-to-Speech) 实时翻译:你对着手机说中文,AI 听到后直接用法语说出来,连你的情绪和语调都能模仿(如 GPT-4o 的高级语音模式)。

5. 🧬 "原生多模态" vs. "拼凑多模态"

这是目前业界的一个重要区分:

  1. 拼凑多模态 (Pipeline / Glue)

    • 做法:用一个模型把声音转成字,再把字喂给 LLM,LLM 生成字,再用另一个模型把字转成声音。

    • 缺点:慢,而且会丢失情感(比如你的笑声、叹气声,转成文字就没了)。

  2. 原生多模态 (Native Multimodal)

    • 代表GPT-4o (Omni) , Gemini 1.5 Pro

    • 做法 :模型从训练的第一天起,就是看着视频、听着声音长大的。它是一个端到端 (End-to-End) 的模型。

    • 优点:极快,而且能听懂你的喘息、犹豫、甚至能看懂你视频背景里的一闪而过的细节。


总结

多模态就是 AI 的感官觉醒。 它打破了数字世界和物理世界的隔阂,让 AI 能够像人类一样,通过看、听、说来感知和交互。

这也是为什么现在我们常说:"以后的 Prompt 不仅仅是提示词,还可以是提示图、提示视频。"

相关推荐
Keep__Fighting1 小时前
【机器学习:逻辑回归】
人工智能·python·算法·机器学习·逻辑回归·scikit-learn·matplotlib
23遇见1 小时前
AI情绪识别技术:价值与局限并存的智能革新
人工智能
科技与数码1 小时前
国产MATLAB替代软件的关键能力与生态发展现状
大数据·人工智能·matlab
数据的世界011 小时前
重构智慧书-第6条:在趋近圆满中践行成长
人工智能
极市平台1 小时前
骁龙大赛技术分享第4期来了
人工智能·经验分享·笔记·后端·个人开发
致Great1 小时前
DeepSeek-V3.2技术报告解读:开源大模型的逆袭之战——如何用10%算力追平GPT-5
人工智能·gpt·开源·大模型·agent·智能体
Baihai_IDP1 小时前
为什么语言模型偏爱使用破折号?反驳多种主流解释,并提出猜想
人工智能·面试·llm
玖日大大1 小时前
LSTM 深度解析:原理、实现与实战应用
人工智能·rnn·lstm
jinxinyuuuus1 小时前
AI 塔罗占卜(塔罗之心):LLM的文化符号概率解释与信念系统建模
人工智能