NLP、CV、OCR、ASR、TTS等属于人工智能什么范畴？

它们都属于人工智能的应用方向 ，更具体地说，是 AI 下面不同模态的任务领域。现在主流实现方式大多是机器学习 / 深度学习，尤其是深度学习。

可以这样理解：

text 复制代码

人工智能 AI
├── 机器学习 ML
│   └── 深度学习 DL
│       ├── NLP：自然语言处理
│       ├── CV：计算机视觉
│       ├── OCR：文字识别 / 文档智能
│       ├── ASR：语音识别
│       └── TTS：语音合成

一句话分类

技术	中文名称	所属 AI 范畴	输入	输出
NLP	自然语言处理	语言智能 / 文本智能	文本	文本、标签、意图、摘要等
CV	计算机视觉	视觉智能	图片 / 视频	分类、检测、分割、识别结果
OCR	光学字符识别	视觉智能 + 文档智能	图片 / 扫描件	文字
ASR	自动语音识别	语音智能	音频 / 语音	文字
TTS	文本转语音	语音智能 / 生成式 AI	文字	语音

1. NLP 属于语言智能

NLP，全称 Natural Language Processing，自然语言处理。

它主要处理文字和语言理解问题，比如：

text 复制代码

文本分类
情感分析
关键词提取
机器翻译
文本摘要
智能问答
意图识别
实体识别
大语言模型

像 ChatGPT、智能客服、文案润色、合同分析、知识库问答，都属于 NLP 或大模型应用方向。

现在的大语言模型，本质上就是 NLP 发展出来的深度学习大模型。

2. CV 属于视觉智能

CV，全称 Computer Vision，计算机视觉。

它主要让机器理解图片和视频，比如：

text 复制代码

图像分类
目标检测
图像分割
人脸识别
姿态识别
视频理解
缺陷检测
自动驾驶感知

比如你之前做的游戏截图识别、卡片检测、模板匹配、YOLO 检测，都属于 CV 范畴。

3. OCR 属于视觉智能，也属于文档智能

OCR，全称 Optical Character Recognition，光学字符识别。

它的任务是：

text 复制代码

图片里的文字 → 识别成可编辑文本

比如：

text 复制代码

身份证识别
发票识别
截图文字识别
表格识别
银行卡识别
游戏界面文字识别
合同扫描件识别

OCR 本质上属于 CV，因为它先要从图片中找文字、识别文字。但在实际项目中，OCR 经常还会结合 NLP，比如：

text 复制代码

识别文字
字段抽取
文本纠错
版面分析
语义理解
结构化输出

所以 OCR 可以看成：

text 复制代码

OCR = CV + 文档理解 + 部分 NLP

4. ASR 属于语音智能

ASR，全称 Automatic Speech Recognition，自动语音识别。

它的任务是：

text 复制代码

语音 → 文字

比如：

text 复制代码

电话录音转文字
会议纪要
语音输入法
客服通话质检
语音助手
实时字幕

你之前提到的录音质检系统，里面如果要把通话录音转成文本，就需要 ASR。

ASR 常见流程是：

text 复制代码

音频输入 → 语音识别 → 文本结果 → NLP 分析

例如客服质检：

text 复制代码

客户录音
→ ASR 转文字
→ NLP 判断是否命中风险话术
→ 输出质检结果

5. TTS 属于语音智能，也属于生成式 AI

TTS，全称 Text To Speech，文本转语音。

它的任务是：

text 复制代码

文字 → 语音

比如：

text 复制代码

导航语音
有声书
智能客服播报
数字人配音
AI 语音助手
短视频配音

TTS 和 ASR 正好相反：

text 复制代码

ASR：语音 → 文字
TTS：文字 → 语音

现在很多高质量 AI 配音、声音克隆、情感语音合成，都属于 TTS 的增强方向，也可以归到生成式 AI 里面。

结论

这些都属于人工智能，只是方向不同：

text 复制代码

NLP：语言智能
CV：视觉智能
OCR：视觉智能 + 文档智能
ASR：语音识别 / 语音智能
TTS：语音合成 / 语音智能 / 生成式 AI