NLP基础(一)_简介

AI大模型学徒2025-11-13 19:03

NLP，全称是 Natural Language Processing ，即自然语言处理。它是人工智能（AI）和计算语言学的一个重要分支，研究的是计算机如何理解、解释、生成和与人类语言互动的技术。

一、NLP 是什么

NLP 让计算机"读懂人类的语言"，包括中文、英文等自然语言，并基于这些语言做出推理、回答、翻译等动作。它是"人机沟通"的核心技术。

二、NLP 的核心任务分类

1. 语言理解（NLU）

让机器读懂语言的意思。

分词：把句子分成有意义的词（主要是中文里要做，英文天生有空格）。
词性标注：识别词汇的语法角色（如名词、动词）。
命名实体识别（NER）：识别人名、地名、机构名等。
句法分析：分析句子的语法结构。
语义理解：理解句子的实际含义，比如"我今天没去上班"表达的是缺勤的事实。

2. 语言生成（NLG）

让机器能写出语言。

文本生成：如 ChatGPT 自动写文章、写摘要。
对话系统：自动客服、AI助手。
自动翻译：如 Google 翻译、百度翻译。
文本摘要：提取文章主旨。

3. 语言转换

语音识别（ASR）：把说话声转换成文字。
语音合成（TTS）：让机器"开口说话"。

三、NLP 的典型应用

应用领域	举例
搜索引擎	用户搜索意图理解、关键词扩展
智能客服	问答系统、FAQ 机器人
机器翻译	英文↔中文，神经网络翻译
语音助手	Siri、Alexa、科大讯飞
情感分析	判断评论是正面还是负面
文本生成	自动写稿、写代码、写邮件
法律/医疗/金融	文书分析、自动摘要、合同审核

四、NLP 的底层技术（简要）

1. 文本表示

词袋模型（Bag of Words）
TF-IDF（词频-逆文档频率）
Word2Vec / GloVe：将词变成向量（可用来计算"男人 - 女人 ≈ 国王 - 女王"）
BERT / GPT：上下文理解强的预训练模型

2. 模型类型

传统模型：决策树、SVM、HMM（隐马尔可夫模型）
深度学习模型 ：
- RNN / LSTM：擅长处理顺序文本
- Transformer（BERT、GPT 属于此）：目前主流、效果好

五、NLP 面临的挑战

歧义：一句话可能有多种解释，例如"他看着那棵树哭了"。
上下文理解：需要"记住"前面说了什么。
多语言处理：语言差异很大（如中英结构差异）。
常识推理：如"把杯子倒过来水会洒出来"，需要常识。

六、热门模型举例

模型名称	简介
BERT	Google提出，强在理解句子
GPT	OpenAI推出，强在生成内容
ChatGPT	GPT的应用产品，具备对话能力
T5	Text-to-Text 统一模型，翻译、摘要都能做
RoBERTa	对BERT优化，理解力更强

七、NLP 和其他领域的关系

与计算机视觉结合：如图文识别、图像描述生成
与推荐系统结合：理解用户评论、文章内容
与知识图谱结合：理解实体之间的关系

上一篇：pnpm环境下防止误使用npm的方法

下一篇：使用npm运行js脚本覆盖vue依赖包

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）05本地部署阿里最新开源的Z-Image 06安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）07Linux下V2Ray安装配置指南 08Labelme从安装到标注：零基础完整指南 09Meta第三代“分割一切”模型——SAM 3本地部署教程：首支持文本提示分割，400万概念、30毫秒响应，检测分割追踪一网打尽 10【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连