目录
[三、文本分类任务(Text Classification)](#三、文本分类任务(Text Classification))
[四、序列标注任务(Sequence Labeling)](#四、序列标注任务(Sequence Labeling))
[五、语义匹配任务(Semantic Matching)](#五、语义匹配任务(Semantic Matching))
[七、问答系统(QA System)](#七、问答系统(QA System))
[八、机器翻译(Machine Translation)](#八、机器翻译(Machine Translation))
[九、文本摘要(Text Summarization)](#九、文本摘要(Text Summarization))
[十、语言模型任务(Language Modeling)](#十、语言模型任务(Language Modeling))
[十一、对话系统(Dialogue System)](#十一、对话系统(Dialogue System))
一、前言
Natural Language Processing的目标是让机器具备理解和生成语言的能力,而实现这一目标,需要拆解成多个具体任务。
不同任务对应不同能力层级:
理解 → 分析 → 推理 → 生成
随着Transformer和大语言模型的发展,这些任务也逐渐从"单点能力"演化为"统一建模"。
二、NLP任务整体分类
NLP常见任务可以分为四大类:
1. 文本分类类任务
2. 序列标注类任务
3. 语义匹配类任务
4. 生成式任务
三、文本分类任务(Text Classification)
(一)任务定义
将文本映射到预定义类别
(二)典型任务
-
情感分析
-
垃圾邮件识别
-
新闻分类
(三)输入输出
输入:一段文本
输出:类别标签
(四)示例
"这部电影很好看" → 正面情感
(五)核心模型
-
CNN for NLP
-
RNN / LSTM
-
BERT / Transformer
四、序列标注任务(Sequence Labeling)
(一)任务定义
为文本中的每个词分配标签
(二)典型任务
-
分词
-
词性标注(POS)
-
命名实体识别(NER)
(三)示例
北京 / B-LOC
是 / O
中国 / B-LOC
首都 / O
(四)核心特点
输出与输入长度一致
(五)常用模型
-
CRF
-
BiLSTM-CRF
-
Transformer Encoder
五、语义匹配任务(Semantic Matching)
(一)任务定义
判断两个文本是否语义相关
(二)典型任务
-
问答匹配
-
相似句判断
-
检索排序
(三)示例
Q: "如何学习Python?"
A: "Python入门教程推荐" → 相关
(四)核心方法
-
Siamese Network
-
Cross Encoder(BERT)
-
Embedding similarity
(五)关键思想
语义空间距离决定相似度
六、自然语言生成任务(NLG)
(一)任务定义
根据输入生成自然语言文本
(二)典型任务
-
机器翻译
-
文本摘要
-
对话生成
-
文生文
(三)示例
输入:英文句子
输出:中文翻译
(四)核心模型
-
Seq2Seq
-
Transformer Decoder
-
GPT系列
(五)特点
输出是开放空间,不是固定类别
七、问答系统(QA System)
(一)任务定义
根据问题从文本中或知识中找答案
(二)类型
1、抽取式问答
- 从文本中找答案
2、生成式问答
- 直接生成答案
(三)示例
Q: 中国首都?
A: 北京
(四)模型
-
BERT QA
-
GPT
-
RAG系统
八、机器翻译(Machine Translation)
(一)任务定义
将一种语言转换为另一种语言
(二)示例
Hello → 你好
(三)核心模型
-
Seq2Seq
-
Transformer
(四)关键问题
-
语义对齐
-
长句建模
九、文本摘要(Text Summarization)
(一)任务定义
将长文本压缩为短文本
(二)类型
1、抽取式摘要
- 提取关键句
2、生成式摘要
- 重新生成摘要
(三)示例
长文章 → 一句话总结
十、语言模型任务(Language Modeling)
(一)任务定义
预测下一个词或句子
(二)数学表达
P(w_1,w_2,...,w_n)=\prod_{t=1}^n P(w_t|w_{<t})
(三)核心模型
-
GPT
-
Transformer Decoder
十一、对话系统(Dialogue System)
(一)任务定义
与人类进行多轮交互
(二)类型
-
任务型对话
-
开放域对话
(三)示例
用户:今天天气怎么样?
系统:晴天,适合出行
(四)核心模型
-
Seq2Seq
-
GPT类模型
十二、信息检索(IR)
(一)任务定义
从大规模文本中查找相关内容
(二)应用
-
搜索引擎
-
推荐系统
(三)方法
-
BM25
-
Dense Retrieval(向量检索)
十三、NLP任务关系总结
分类任务 → 理解能力
标注任务 → 结构分析
匹配任务 → 语义理解
生成任务 → 内容创造
十四、NLP任务演进趋势
(一)从单任务到统一模型
BERT / GPT统一多任务能力
(二)从理解到生成
生成能力成为核心
(三)从模型到系统
-
RAG
-
Agent系统
十五、总结
自然语言处理的常见任务构成了整个NLP技术体系的基础,从文本分类到生成式任务,每一类任务都对应不同层次的语言能力,而随着大模型的发展,这些任务正在逐渐被统一在一个通用的预训练框架之中。
本文系统讲解了:
1、文本分类任务
2、序列标注任务
3、语义匹配任务
4、生成式任务
5、问答系统
6、机器翻译
7、文本摘要
8、语言模型
9、对话系统
10、信息检索
11、任务关系与演进
可以将NLP任务体系理解为:
"从理解语言结构,到理解语义关系,再到生成语言内容的完整能力谱系。"
掌握NLP常见任务,就等于掌握了自然语言处理的全景地图。