LLM学习指南(二)—— NLP基础

一、NLP 概念

自然语言处理(NLP)是人工智能的重要分支,核心目标是让计算机理解、解释和生成人类自然语言,实现人机无缝交流。它融合计算机科学、语言学、人工智能、心理学等多学科知识,既能处理语言表层结构(如文字切割),也需理解深层含义(如语义、情感、文化背景)。

当前 NLP 借助深度学习实现显著突破,部分任务性能接近人类水平,但仍面临歧义处理、抽象概念理解、隐喻 / 讽刺识别等挑战,需通过更优算法、更大规模数据集持续优化。

二、NLP 发展历程

NLP 发展以 "技术驱动" 为核心,历经三次关键阶段,从 "规则依赖" 逐步走向 "数据智能":

2.1 早期探索阶段(1940 年代 - 1960 年代)

  • 核心技术:基于人工编写的规则和字典,如依赖词典查找、简单词序规则处理语言。
  • 关键事件:1950 年图灵测试提出(判断机器是否具备类人智能)、乔姆斯基生成语法理论(为语言结构分析提供基础)。
  • 局限:机器翻译等任务效果差,无法应对复杂语言场景

2.2 符号主义与统计方法阶段(1970 年代 - 1990 年代)

  • 技术分野:符号主义延续 "规则驱动",聚焦形式语言和语法;统计方法兴起,通过统计语料中词汇 / 短语的出现概率建模语言。
  • 关键转折:1980 年代计算能力提升 + 机器学习算法引入,统计模型逐渐取代人工规则,解决部分复杂场景问题。

2.3 机器学习与深度学习阶段(2000 年代至今)

  • 核心技术:深度学习模型(RNN、LSTM、注意力机制)普及,预训练模型成为主流。
  • 关键突破:2013 年 Word2Vec(优化词向量表示)、2018 年 BERT(预训练语言模型新浪潮)、GPT 系列(大参数模型实现高质量文本生成)。
  • 成果:多任务性能大幅提升,推动 NLP 进入工业化应用(如智能客服、自动翻译)。

三、NLP 核心任务

NLP 核心任务覆盖 "文本预处理→语义理解→内容生成" 全流程,每项任务均为下游应用的基础:

|------|--------------------------------------------|-----------------------------------------------------------------|
| 任务名称 | 核心目标 | 简单示例 |
| 中文分词 | 将无空格分隔的中文文本,切分为有意义的词汇序列(中文 NLP 首要步骤) | 输入 "今天天气真好"→输出 ["今天", "天气", "真", "好"] |
| 子词切分 | 将词汇拆分为更小的子词单位,解决罕见词 / 新词处理问题 | 输入 "unhappiness"→BPE 算法输出 ["un", "happi", "ness"] |
| 词性标注 | 为分词后的每个词汇分配词性标签(如名词、动词),辅助理解词汇功能 | 输入 "She is playing"→输出 [She (代词), is (动词), playing (动词现在分词)] |
| 文本分类 | 将文本自动分配到预定义类别,实现信息归类 | 输入 "NBA 季后赛下周开赛"→归类为 "体育" |
| 实体识别 | 从文本中识别特定意义实体(人名、地名、日期等)并分类 | 输入 "李雷 2024 年去上海"→输出 [("李雷", 人名), ("2024 年", 日期), ("上海", 地名)] |
| 关系抽取 | 识别文本中实体间的语义关系(如创始人、所属地) | 输入 "比尔・盖茨是微软创始人"→输出 [("比尔・盖茨", "创始人", "微软")] |
| 文本摘要 | 生成简洁准确的文本概括,分 "抽取式(选原文关键句)" 和 "生成式(改写新内容)" | 输入火星探测器着陆新闻→生成式摘要:"天问一号成功火星着陆,我国深空探测获突破" |
| 机器翻译 | 将源语言文本自动转换为目标语言,保持语义和流畅度 | 输入 "今天天气很好"→输出 "The weather is very nice today" |
| 自动问答 | 理解自然语言问题,从数据源(文本、知识库)中返回准确答案 | 问题 "天问一号着陆时间"→答案 "2021 年 5 月 22 日" |

四、文本表示方法

4.1 核心概念

文本表示方法是将人类可读的自然语言文本 ,转换为计算机可处理的数值形式(如向量、矩阵) 的技术,也称为 "词嵌入" 或 "文本向量化"。

4.2 核心作用

计算机无法直接理解文字符号,文本表示是连接自然语言与计算机算法的桥梁------ 只有将文本数字化,后续的分类、翻译、问答等 NLP 任务才能有效开展,其表示效果直接决定 NLP 系统的性能。

4.3 与 NLP 的关系

文本表示是所有 NLP 任务的前置基础:无合理的文本向量,NLP 任务无法落地;更优的文本表示(如从稀疏向量到密集向量),能显著提升 NLP 任务的准确率和效率(例:Word2Vec 相比传统向量空间模型,更能捕捉语义关系)。

4.4 主流方法

|-----------|--------------------------------------------|---------------------|------------------------|
| 方法名称 | 核心思路 | 优点 | 局限 |
| 向量空间模型 | 基于 "词袋思想",将文本转为高维向量,用 TF/TF-IDF 计算词汇权重 | 简单易实现,适用于相似度计算、信息检索 | 稀疏性严重(多数维度为 0)、忽略词序和语义 |
| N-gram 模型 | 基于马尔可夫假设,用连续 N 个词的概率预测当前词,捕捉局部词汇搭配 | 实现简单,在语音识别、拼写纠错中实用 | N 增大时参数爆炸、无法捕捉长距离依赖 |
| Word2Vec | 基于神经网络,通过上下文学习生成低维密集向量,语义相似词向量距离近 | 维度低、计算快,能泛化到未见过的词 | 依赖局部上下文,无法处理多义性 |
| ELMo | 基于双向 LSTM 的预训练模型,生成 "动态词向量"(同一词在不同语境有不同向量) | 解决多义性,捕捉上下文语义 | 模型复杂、训练耗时长、计算资源需求高 |

相关推荐
rayufo2 小时前
AI掼蛋难度评估
人工智能
小程故事多_802 小时前
从“会回答”到“会干活”,Agent Skills 重构 AI 智能体的做事逻辑
人工智能·重构
IT_陈寒2 小时前
Vite 4.0实战:5个被低估的配置项让构建速度提升50%
前端·人工智能·后端
A7bert7772 小时前
【DeepSeek R1部署至RK3588】RKLLM转换→板端部署→局域网web浏览
c++·人工智能·深度学习·ubuntu·自然语言处理·nlp
zhangyifang_0092 小时前
如何通过提示词优化,实现 AI 辅助编码的高质量输出
人工智能
FL16238631292 小时前
C# winform部署yolo26目标检测的onnx模型演示源码+模型+说明
人工智能·目标检测·计算机视觉
Agilex松灵机器人2 小时前
持续更新|第十七弹:用LIMO复现一篇IEEE论文
人工智能·ros·定位导航·模型·路径规划·ieee·rda
得贤招聘官2 小时前
AI招聘的核心:以心理学筑牢精准与体验双重壁垒
人工智能
予枫的编程笔记2 小时前
【JDK版本】JDK版本迁移避坑指南:从8→17/21实操全解析
java·人工智能·jdk