NLP,全称是 Natural Language Processing ,即自然语言处理。它是人工智能(AI)和计算语言学的一个重要分支,研究的是计算机如何理解、解释、生成和与人类语言互动的技术。
一、NLP 是什么
NLP 让计算机"读懂人类的语言",包括中文、英文等自然语言,并基于这些语言做出推理、回答、翻译等动作。它是"人机沟通"的核心技术。
二、NLP 的核心任务分类
1. 语言理解(NLU)
让机器读懂语言的意思。
- 分词:把句子分成有意义的词(主要是中文里要做,英文天生有空格)。
- 词性标注:识别词汇的语法角色(如名词、动词)。
- 命名实体识别(NER):识别人名、地名、机构名等。
- 句法分析:分析句子的语法结构。
- 语义理解:理解句子的实际含义,比如"我今天没去上班"表达的是缺勤的事实。
2. 语言生成(NLG)
让机器能写出语言。
- 文本生成:如 ChatGPT 自动写文章、写摘要。
- 对话系统:自动客服、AI助手。
- 自动翻译:如 Google 翻译、百度翻译。
- 文本摘要:提取文章主旨。
3. 语言转换
- 语音识别(ASR):把说话声转换成文字。
- 语音合成(TTS):让机器"开口说话"。
三、NLP 的典型应用
| 应用领域 | 举例 |
|---|---|
| 搜索引擎 | 用户搜索意图理解、关键词扩展 |
| 智能客服 | 问答系统、FAQ 机器人 |
| 机器翻译 | 英文↔中文,神经网络翻译 |
| 语音助手 | Siri、Alexa、科大讯飞 |
| 情感分析 | 判断评论是正面还是负面 |
| 文本生成 | 自动写稿、写代码、写邮件 |
| 法律/医疗/金融 | 文书分析、自动摘要、合同审核 |
四、NLP 的底层技术(简要)
1. 文本表示
- 词袋模型(Bag of Words)
- TF-IDF(词频-逆文档频率)
- Word2Vec / GloVe:将词变成向量(可用来计算"男人 - 女人 ≈ 国王 - 女王")
- BERT / GPT:上下文理解强的预训练模型
2. 模型类型
- 传统模型:决策树、SVM、HMM(隐马尔可夫模型)
- 深度学习模型 :
- RNN / LSTM:擅长处理顺序文本
- Transformer(BERT、GPT 属于此):目前主流、效果好
五、NLP 面临的挑战
- 歧义:一句话可能有多种解释,例如"他看着那棵树哭了"。
- 上下文理解:需要"记住"前面说了什么。
- 多语言处理:语言差异很大(如中英结构差异)。
- 常识推理:如"把杯子倒过来水会洒出来",需要常识。
六、热门模型举例
| 模型名称 | 简介 |
|---|---|
| BERT | Google提出,强在理解句子 |
| GPT | OpenAI推出,强在生成内容 |
| ChatGPT | GPT的应用产品,具备对话能力 |
| T5 | Text-to-Text 统一模型,翻译、摘要都能做 |
| RoBERTa | 对BERT优化,理解力更强 |
七、NLP 和其他领域的关系
- 与计算机视觉结合:如图文识别、图像描述生成
- 与推荐系统结合:理解用户评论、文章内容
- 与知识图谱结合:理解实体之间的关系