根据最新的2025年研究,我为你详细解析这些概念及其在实际应用中的区别。
一、核心概念界定
1. 多模态(Multimodal)vs 全模态(Omnimodal)
多模态(MLLM - Multimodal Large Language Models): 处理多种输入模态(如文本、图像、音频、视频)的大型语言模型,但通常输出单一模态(文本)。这些模型能够整合来自多个数据源的知识,在视觉问答、标题生成和跨模态检索等任务中表现出色。
全模态/完全多模态(Omnimodal): 真正的全模态系统不仅处理多种输入,还能生成多种输出。例如Gemini 2.0、2.5等支持音频/视频/图像/文本输入,输出规模达1,000,000+令牌。不同之处在于输出能力的完整性。
2. VLM(视觉语言模型)
VLM是一个LLM配备了视觉编码器,使其能够理解图像。这是多模态模型的一个专门子类,仅整合文本和图像输入并生成文本输出。
VLM的关键架构:
- 视觉编码器(如Vision Transformer)
- 语言编码器(如BERT/GPT)
- 模态融合层(实现视觉-语言对齐)
VLM通常由两个关键组件组成:视觉编码器捕获语义含义并将其转换为文本嵌入,语言编码器是transformer架构,如Google的BERT或OpenAI的GPT。
二、音视频处理模型详解
3. ASR(自动语音识别)= STT(语音转文本)
这两个术语完全相同:自动语音识别(ASR),也被称为语音转文本(STT),其核心任务是将人类的语音信号自动识别并转换成可读的文字。它是所有语音交互系统的起点。
最新ASR模型进展: 2025年3月20日,OpenAI推出了gpt-4o-transcribe模型,这是Whisper模型的继任者,在英语中实现了2.46%的字错误率(WER),这是对以前模型的显著改进,包括噪声消除在具有挑战性条件下的转录质量提升。
4. TTS(文本转语音)
文本转语音(TTS),也被称为语音合成(Speech Synthesis),其核心任务是将输入的文本信息,以非常自然和清晰的方式合成为人类语音。它是语音交互系统的输出端。
核心差异 :ASR/STT 是 解析型 (一个方向),TTS 是 生成型(相反方向)
5. OCR(光学字符识别)
Mistral OCR是一个光学字符识别API,设定了文档理解的新标准。与其他模型不同,Mistral OCR理解文档的每个元素------媒体、文本、表格、方程式------具有前所未有的准确性。
OCR vs VLM在文档处理中的区别:
- OCR专门针对文本提取优化
- VLM可以理解文本的上下文含义
- 读取API经过优化,用于处理具有大量文本内容的扫描文档,而OCR API有效地从图像中提取有限的文本
三、模型间的一致性分析
一致之处:
统一的底层架构: 现代VLM已经转向动态分辨率方法,可以更有效地处理可变输入大小。对于现代VLM,一般的模式是使用视觉编码器进行视觉数据的额外处理。LLM优先考虑语言,大部分训练集中在语言上。
融合方法论相同:无论是VLM、多模态模型还是全模态模型,都使用:
- 早期融合:在输入级别结合模态
- 晚期融合:分别处理每个模态再合并
- 中间融合:在中间表示处结合
不一致之处:
| 模型类型 | 输入 | 输出 | 用途 |
|---|---|---|---|
| VLM | 文本 + 图像 | 文本 | 视觉理解、分析 |
| ASR/STT | 音频 | 文本 | 语音识别 |
| TTS | 文本 | 音频 | 语音合成 |
| OCR | 图像 | 文本 | 文本提取 |
| 多模态 | 文本、图像、音频 | 文本 | 多维理解 |
| 全模态 | 任何 | 任何 | 完整交互 |
四、接口API对比
1. VLM API 调用示例
# OpenAI GPT-4o Vision API
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "分析这张图片"},
{
"type": "image_url",
"image_url": {"url": "https://example.com/image.jpg"}
}
],
}
],
max_tokens=1024,
)
2. ASR/STT API 调用示例
七牛云ASR API的请求格式包括模型指定为"asr",音频对象包含格式和URL,响应结构包含reqid、操作和包含识别结果的数据:
# ASR API 请求
{
"model": "asr",
"audio": {
"format": "mp3",
"url": "https://example.com/audio.mp3"
}
}
# 响应
{
"reqid": "xxx",
"operation": "asr",
"data": {
"result": {
"text": "识别出的文本"
}
}
}
3. TTS API 调用示例
TTS请求包含音频配置(语音类型、编码格式、速度比)和请求体(文本),基于WebSocket支持流式推理,可以实现低延迟的语音输出:
# TTS API 请求
{
"audio": {
"voice_type": "qiniu_zh_female_wwxkjx",
"encoding": "mp3",
"speed_ratio": 1.0
},
"request": {
"text": "你好,世界!"
}
}
4. OCR API 调用示例
OCR(如DeepSeek-OCR)通过OpenAI兼容API调用,传入包含图像URL和文本提示的messages列表,可配置max_tokens和特殊的extra_body参数控制OCR特定的处理逻辑如n-gram处理:
# OCR API 请求
messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": "https://example.com/receipt.png"}
},
{"type": "text", "text": "提取这张发票的信息"}
]
}
]
response = client.chat.completions.create(
model="deepseek-ocr",
messages=messages,
max_tokens=2048,
)
五、调用参数的关键区别
参数维度对比表
| 参数类别 | VLM | ASR | TTS | OCR |
|---|---|---|---|---|
| 输入格式 | image_url/base64 | audio_url/bytes | text string | image_url/base64 |
| 模型指定 | gpt-4o/claude等 | asr/transcribe | tts/voice | ocr/deepseek-ocr |
| 关键参数 | max_tokens, temperature | language_hints, format | voice_type, speed_ratio | max_tokens, special_tokens |
| 流式支持 | 部分支持 | WebSocket支持 | 原生支持 | 不支持 |
| 响应格式 | 文本 | 文本 | 音频字节流 | 文本/markdown |
| 处理时间 | 中等 | 实时优先 | 实时优先 | 中等 |
关键差异详解
-
输入参数
- VLM:需要
content数组,同时包含type: "text"和type: "image_url" - ASR:需要
audio对象,包含format和url - TTS:需要
text和audio配置(voice_type、encoding) - OCR:同VLM,但特殊参数如
whitelist_token_ids用于HTML标签处理
- VLM:需要
-
模型指定
- VLM:模型名称通常为
gpt-4o、claude-opus-4、gemini-2.5-pro - ASR:
gpt-4o-transcribe、gpt-4o-mini-transcribe - TTS:
gpt-4o-mini-tts、text-speech-1 - OCR:
deepseek-ocr、mistral-ocr-latest
- VLM:模型名称通常为
-
特有参数
- TTS独有 :
voice参数选择声音(alloy、echo、fable等) - ASR独有 :
language_hints参数优化特定语言识别(虽然通常最好留空以启用自动检测) - OCR独有 :
vllm_xargs包含ngram_size和window_size用于表格识别优化
- TTS独有 :
六、2025年最新发展趋势
端到端多模态模型的兴起
GLM-4-VOICE是一款端到端语音模型,具备直接理解和生成中英文语音的能力。其架构由三个核心部分组成:GLM-4-Voice-Tokenizer将连续语音转换为离散token,GLM-4-Voice-Decoder基于Flow Matching支持流式推理,GLM-4-Voice-9B基础模型进行了语音预训练和对齐。
这代表了一个重要的转变:从级联方案(ASR→LLM→TTS)转向端到端方案,降低了延迟并提高了质量。
VLM推理能力的突破
2025年初引入了smolagents,一个轻量级智能体库,支持ReAct框架并整合视觉语言支持。用于两个用例:开始时提供一次性图像(适合文档AI)和动态检索图像(适合GUI控制)。
七、实际集成建议
完整技术栈示例
# 完整的多模态交互流程
from openai import OpenAI
client = OpenAI()
# 1. 语音识别 (ASR)
asr_response = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
)
text_input = asr_response.text
# 2. 文档OCR提取
ocr_response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": document_image}},
{"type": "text", "text": "提取表格数据"}
]
}],
)
# 3. VLM分析
analysis = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": f"分析:{text_input}"},
{"type": "image_url", "image_url": {"url": visual_data}}
]
}],
)
# 4. 语音输出 (TTS)
tts_response = client.audio.speech.create(
model="tts-1",
voice="nova",
input=analysis.choices[0].message.content,
)
总结
这些模型的关键区别:
- 它们不完全一致,而是在不同的模态维度上专业化
- 接口遵循OpenAI兼容规范,但参数结构有针对性差异
- 2025年的趋势是端到端整合而非分离的pipeline
- 全模态模型(如GPT-4o、Gemini 3.0)正在统一这些能力
选择合适的模型组合取决于你的具体使用场景和延迟要求。