NLP、CV、OCR、ASR、TTS等属于人工智能什么范畴?

它们都属于人工智能的应用方向 ,更具体地说,是 AI 下面不同模态的任务领域。现在主流实现方式大多是机器学习 / 深度学习,尤其是深度学习。

可以这样理解:

text 复制代码
人工智能 AI
├── 机器学习 ML
│   └── 深度学习 DL
│       ├── NLP:自然语言处理
│       ├── CV:计算机视觉
│       ├── OCR:文字识别 / 文档智能
│       ├── ASR:语音识别
│       └── TTS:语音合成

一句话分类

技术 中文名称 所属 AI 范畴 输入 输出
NLP 自然语言处理 语言智能 / 文本智能 文本 文本、标签、意图、摘要等
CV 计算机视觉 视觉智能 图片 / 视频 分类、检测、分割、识别结果
OCR 光学字符识别 视觉智能 + 文档智能 图片 / 扫描件 文字
ASR 自动语音识别 语音智能 音频 / 语音 文字
TTS 文本转语音 语音智能 / 生成式 AI 文字 语音

1. NLP 属于语言智能

NLP,全称 Natural Language Processing,自然语言处理。

它主要处理文字和语言理解问题,比如:

text 复制代码
文本分类
情感分析
关键词提取
机器翻译
文本摘要
智能问答
意图识别
实体识别
大语言模型

像 ChatGPT、智能客服、文案润色、合同分析、知识库问答,都属于 NLP 或大模型应用方向。

现在的大语言模型,本质上就是 NLP 发展出来的深度学习大模型。


2. CV 属于视觉智能

CV,全称 Computer Vision,计算机视觉。

它主要让机器理解图片和视频,比如:

text 复制代码
图像分类
目标检测
图像分割
人脸识别
姿态识别
视频理解
缺陷检测
自动驾驶感知

比如你之前做的游戏截图识别、卡片检测、模板匹配、YOLO 检测,都属于 CV 范畴。


3. OCR 属于视觉智能,也属于文档智能

OCR,全称 Optical Character Recognition,光学字符识别。

它的任务是:

text 复制代码
图片里的文字 → 识别成可编辑文本

比如:

text 复制代码
身份证识别
发票识别
截图文字识别
表格识别
银行卡识别
游戏界面文字识别
合同扫描件识别

OCR 本质上属于 CV,因为它先要从图片中找文字、识别文字。但在实际项目中,OCR 经常还会结合 NLP,比如:

text 复制代码
识别文字
字段抽取
文本纠错
版面分析
语义理解
结构化输出

所以 OCR 可以看成:

text 复制代码
OCR = CV + 文档理解 + 部分 NLP

4. ASR 属于语音智能

ASR,全称 Automatic Speech Recognition,自动语音识别。

它的任务是:

text 复制代码
语音 → 文字

比如:

text 复制代码
电话录音转文字
会议纪要
语音输入法
客服通话质检
语音助手
实时字幕

你之前提到的录音质检系统,里面如果要把通话录音转成文本,就需要 ASR。

ASR 常见流程是:

text 复制代码
音频输入 → 语音识别 → 文本结果 → NLP 分析

例如客服质检:

text 复制代码
客户录音
→ ASR 转文字
→ NLP 判断是否命中风险话术
→ 输出质检结果

5. TTS 属于语音智能,也属于生成式 AI

TTS,全称 Text To Speech,文本转语音。

它的任务是:

text 复制代码
文字 → 语音

比如:

text 复制代码
导航语音
有声书
智能客服播报
数字人配音
AI 语音助手
短视频配音

TTS 和 ASR 正好相反:

text 复制代码
ASR:语音 → 文字
TTS:文字 → 语音

现在很多高质量 AI 配音、声音克隆、情感语音合成,都属于 TTS 的增强方向,也可以归到生成式 AI 里面。

结论

这些都属于人工智能,只是方向不同:

text 复制代码
NLP:语言智能
CV:视觉智能
OCR:视觉智能 + 文档智能
ASR:语音识别 / 语音智能
TTS:语音合成 / 语音智能 / 生成式 AI