原教程适用于基础算法薄弱者(附上教程链接):https://github.com/datawhalechina/base-llm
学习安排如下图所示:
一、什么是自然语言处理?
自然语言处理( NLP) 是计算机科学、人工智能和语言学的交叉领域,研究如何让计算机理解、解释和生成人类语言
核心矛盾在于:人类语言是模糊的、 context-dependent 的,而计算机需要精确的、形式化的输入
举个例子:你说"苹果很好吃",人类知道你在说水果;但如果说"苹果发布了新手机",人类能瞬间切换理解为苹果公司。这种歧义消解 和上下文理解正是NLP要解决的核心问题。
-
计算语言学:更偏语言学理论,NLP更偏工程实现
-
语音识别:把语音转为文字,是NLP的前置步骤
-
自然语言理解:NLP的子集,侧重理解而非生成
-
自然语言生成:NLP的子集,侧重生成文本
-
大语言模型:当前NLP的主流技术范式,基于Transformer架构
二、核心任务分类
NLP任务可分为 理解 和 生成两大维度
| 任务 | 说明 | 示例 |
|---|---|---|
| 分词 | 将句子切分为词或子词单元 | "我爱北京天安门" → ["我", "爱", "北京", "天安门"] |
| 词性标注 | 标注每个词的语法类别 | "run/VB", "苹果/NN" |
| 命名实体识别 | 识别专有名词(人名、地名、机构名) | "马云创立了阿里巴巴" → [马云/人名, 阿里巴巴/机构名] |
| 词义消歧 | 确定多义词在上下文中的具体含义 | "bank"是银行还是河岸? |
| 任务 | 说明 | 应用 |
|---|---|---|
| 句法分析 | 分析句子结构,生成语法树 | 确定主谓宾关系 |
| 依存句法分析 | 标注词与词之间的依存关系 | 主语←谓语→宾语 |
| 短语结构分析 | 识别名词短语、动词短语等 | NP, VP chunking |
| 任务 | 说明 | 示例 |
|---|---|---|
| 语义角色标注 | 识别"谁对谁做了什么" | "小明吃了苹果" → 施事:小明, 动作:吃, 受事:苹果 |
| 语义相似度计算 | 判断两个句子意思是否相近 | "我喜欢你" vs "我对你有好感" → 高相似度 |
| 指代消解 | 确定代词指代的对象 | "小明说他饿了" → "他"=小明 |
| 关系抽取 | 从文本中提取实体间关系 | "马云是阿里巴巴创始人" → (马云, 创始人, 阿里巴巴) |
| 任务 | 说明 |
|---|---|
| 共指消解 | 跨句识别同一实体不同表述 |
| 篇章分析 | 理解段落间的逻辑关系(因果、转折等) |
| 对话状态跟踪 | 多轮对话中维护上下文信息 |
-
机器翻译:中英互译、多语言翻译
-
文本摘要:抽取式 vs 生成式摘要
-
问答系统:阅读理解、知识图谱问答、开放域问答
-
对话系统:任务型对话(订机票)vs 开放域聊天
-
文本生成:创意写作、代码生成、报告撰写
三、技术层次架构
从工程实现角度,NLP技术可分为五层:应用层、任务层、模型层、表示层、基础层
第一代:符号表示
- One-hot编码:维度灾难,语义鸿沟("国王"和"女王"的向量正交,毫无相似性)
第二代:分布式表示(统计学习时代)
-
N-gram:基于统计的词共现,无法解决长距离依赖
-
Word2Vec(2013):通过上下文预测学习词向量,"king - man + woman ≈ queen"
-
GloVe:结合全局统计和局部上下文
第三代:上下文相关表示(深度学习时代)
-
ELMo(2018):双向LSTM,一词多义问题得到缓解
-
BERT(2018):双向Transformer编码器,"理解"能力极强
-
GPT系列(2018-至今):单向Transformer解码器,生成能力突出
第四代:大模型时代(LLM)
-
GPT-3/4、ChatGPT、Claude、DeepSeek:涌现能力(Emergent Abilities)、上下文学习(In-context Learning)、思维链(Chain-of-Thought)
-
范式转变:从"预训练+微调"到"提示工程(Prompt Engineering)"再到"智能体(Agent)"
四、当前面临的主要挑战
-
歧义性(Ambiguity)
-
词法歧义:"行"(xíng/háng)
-
句法歧义:"咬死了猎人的狗"(是狗咬死了猎人?还是猎人的狗被咬死了?)
-
语义歧义:"他走了一个小时"(离开?步行?去世?)
-
-
常识推理(Commonsense Reasoning)
-
问题:"我把玻璃杯扔到水泥地上,会怎样?"
-
LLM能回答,但缺乏真正的物理世界理解,只是统计关联
-
-
隐喻与抽象(Metaphor & Abstraction)
- "时间就是金钱"------如何理解这种跨域映射?
-
长文本处理
-
Transformer的O(n2) 注意力复杂度限制上下文长度
-
解决方案:稀疏注意力、滑动窗口、RAG(检索增强生成)
-
-
低资源语言/领域
-
小语种、专业领域(如法律、医疗)数据稀缺
-
解决方案:迁移学习、多语言预训练、领域自适应
-
-
幻觉问题(Hallucination)
-
LLM生成看似合理但实际错误的内容
-
缓解方案:RAG、事实核查、不确定性量化
-
-
偏见与公平性:训练数据中的性别、种族偏见被模型放大
-
隐私泄露:模型可能记忆训练数据中的敏感信息
-
恶意使用:深度伪造、自动化诈骗、虚假信息生成
-
对齐问题(Alignment):如何让模型行为符合人类价值观
五、与LLM/Agent的关系(结合我自己的学习方向,同学们可以自行制定学习计划)
之前学习过RAG、Agent范式(ReAct、Plan-and-Solve),这些正是当前NLP的前沿应用:
关键转变:
-
从特征工程到提示工程:不再手工设计特征,而是设计如何与模型交互
-
从单任务到通用能力:一个模型通过提示适配多种任务
-
从工具到智能体:LLM作为"大脑",通过工具调用与外部世界交互
六、学习路径建议(根据个人具体情况)
-
基础巩固:Python、数据结构、概率统计、线性代数(已学习)
-
传统NLP:掌握分词、TF-IDF、Word2Vec、TextCNN、BiLSTM+CRF(理解原理即可,不必深入实现)
-
Transformer架构:必须手写实现一遍,理解Self-Attention、多头注意力、位置编码
-
BERT/GPT原理:理解预训练任务(MLM、NSP、CLM)、微调方法
-
LLM应用:提示工程、RAG(已学习)、Agent设计(ReAct等)
-
工程实践:LangChain/LlamaIndex、模型部署(vLLM)、量化推理
七、总结
NLP的本质是跨越人类语义空间与计算机数值空间的鸿沟 。从规则到统计,从深度学习到大模型,技术范式不断演进,但核心挑战------让机器真正理解语言 ------依然存在。当前我们正处于**"大模型统一范式"**的时代,NLP的边界正在模糊化:视觉-语言模型(VLM)、世界模型、具身智能,都在推动AI向更通用的方向演进。对我而言,理解NLP的历史脉络和技术层次,有助于更好地把握LLM的底层逻辑,在考研复试或求职面试中展现出系统性思维
