它们都属于人工智能的应用方向 ,更具体地说,是 AI 下面不同模态的任务领域。现在主流实现方式大多是机器学习 / 深度学习,尤其是深度学习。
可以这样理解:
text
人工智能 AI
├── 机器学习 ML
│ └── 深度学习 DL
│ ├── NLP:自然语言处理
│ ├── CV:计算机视觉
│ ├── OCR:文字识别 / 文档智能
│ ├── ASR:语音识别
│ └── TTS:语音合成
一句话分类
| 技术 | 中文名称 | 所属 AI 范畴 | 输入 | 输出 |
|---|---|---|---|---|
| NLP | 自然语言处理 | 语言智能 / 文本智能 | 文本 | 文本、标签、意图、摘要等 |
| CV | 计算机视觉 | 视觉智能 | 图片 / 视频 | 分类、检测、分割、识别结果 |
| OCR | 光学字符识别 | 视觉智能 + 文档智能 | 图片 / 扫描件 | 文字 |
| ASR | 自动语音识别 | 语音智能 | 音频 / 语音 | 文字 |
| TTS | 文本转语音 | 语音智能 / 生成式 AI | 文字 | 语音 |
1. NLP 属于语言智能
NLP,全称 Natural Language Processing,自然语言处理。
它主要处理文字和语言理解问题,比如:
text
文本分类
情感分析
关键词提取
机器翻译
文本摘要
智能问答
意图识别
实体识别
大语言模型
像 ChatGPT、智能客服、文案润色、合同分析、知识库问答,都属于 NLP 或大模型应用方向。
现在的大语言模型,本质上就是 NLP 发展出来的深度学习大模型。
2. CV 属于视觉智能
CV,全称 Computer Vision,计算机视觉。
它主要让机器理解图片和视频,比如:
text
图像分类
目标检测
图像分割
人脸识别
姿态识别
视频理解
缺陷检测
自动驾驶感知
比如你之前做的游戏截图识别、卡片检测、模板匹配、YOLO 检测,都属于 CV 范畴。
3. OCR 属于视觉智能,也属于文档智能
OCR,全称 Optical Character Recognition,光学字符识别。
它的任务是:
text
图片里的文字 → 识别成可编辑文本
比如:
text
身份证识别
发票识别
截图文字识别
表格识别
银行卡识别
游戏界面文字识别
合同扫描件识别
OCR 本质上属于 CV,因为它先要从图片中找文字、识别文字。但在实际项目中,OCR 经常还会结合 NLP,比如:
text
识别文字
字段抽取
文本纠错
版面分析
语义理解
结构化输出
所以 OCR 可以看成:
text
OCR = CV + 文档理解 + 部分 NLP
4. ASR 属于语音智能
ASR,全称 Automatic Speech Recognition,自动语音识别。
它的任务是:
text
语音 → 文字
比如:
text
电话录音转文字
会议纪要
语音输入法
客服通话质检
语音助手
实时字幕
你之前提到的录音质检系统,里面如果要把通话录音转成文本,就需要 ASR。
ASR 常见流程是:
text
音频输入 → 语音识别 → 文本结果 → NLP 分析
例如客服质检:
text
客户录音
→ ASR 转文字
→ NLP 判断是否命中风险话术
→ 输出质检结果
5. TTS 属于语音智能,也属于生成式 AI
TTS,全称 Text To Speech,文本转语音。
它的任务是:
text
文字 → 语音
比如:
text
导航语音
有声书
智能客服播报
数字人配音
AI 语音助手
短视频配音
TTS 和 ASR 正好相反:
text
ASR:语音 → 文字
TTS:文字 → 语音
现在很多高质量 AI 配音、声音克隆、情感语音合成,都属于 TTS 的增强方向,也可以归到生成式 AI 里面。
结论
这些都属于人工智能,只是方向不同:
text
NLP:语言智能
CV:视觉智能
OCR:视觉智能 + 文档智能
ASR:语音识别 / 语音智能
TTS:语音合成 / 语音智能 / 生成式 AI