DataWhale—大模型的算法基础（环境的部署Anaconda）

原教程适用于基础算法薄弱者（附上教程链接）：https://github.com/datawhalechina/base-llm

学习安排如下图所示：

一、什么是自然语言处理？

自然语言处理（ NLP） 是计算机科学、人工智能和语言学的交叉领域，研究如何让计算机理解、解释和生成人类语言

核心矛盾在于：人类语言是模糊的、 context-dependent 的，而计算机需要精确的、形式化的输入

举个例子：你说"苹果很好吃"，人类知道你在说水果；但如果说"苹果发布了新手机"，人类能瞬间切换理解为苹果公司。这种歧义消解 和上下文理解正是NLP要解决的核心问题。

计算语言学：更偏语言学理论，NLP更偏工程实现
语音识别：把语音转为文字，是NLP的前置步骤
自然语言理解：NLP的子集，侧重理解而非生成
自然语言生成：NLP的子集，侧重生成文本
大语言模型：当前NLP的主流技术范式，基于Transformer架构

二、核心任务分类

NLP任务可分为理解和生成两大维度

任务	说明	示例
分词	将句子切分为词或子词单元	"我爱北京天安门" → ["我", "爱", "北京", "天安门"]
词性标注	标注每个词的语法类别	"run/VB", "苹果/NN"
命名实体识别	识别专有名词（人名、地名、机构名）	"马云创立了阿里巴巴" → [马云/人名, 阿里巴巴/机构名]
词义消歧	确定多义词在上下文中的具体含义	"bank"是银行还是河岸？

任务	说明	应用
句法分析	分析句子结构，生成语法树	确定主谓宾关系
依存句法分析	标注词与词之间的依存关系	主语←谓语→宾语
短语结构分析	识别名词短语、动词短语等	NP, VP chunking

任务	说明	示例
语义角色标注	识别"谁对谁做了什么"	"小明吃了苹果" → 施事:小明, 动作:吃, 受事:苹果
语义相似度计算	判断两个句子意思是否相近	"我喜欢你" vs "我对你有好感" → 高相似度
指代消解	确定代词指代的对象	"小明说他饿了" → "他"=小明
关系抽取	从文本中提取实体间关系	"马云是阿里巴巴创始人" → (马云, 创始人, 阿里巴巴)

任务	说明
共指消解	跨句识别同一实体不同表述
篇章分析	理解段落间的逻辑关系（因果、转折等）
对话状态跟踪	多轮对话中维护上下文信息

机器翻译：中英互译、多语言翻译
文本摘要：抽取式 vs 生成式摘要
问答系统：阅读理解、知识图谱问答、开放域问答
对话系统：任务型对话（订机票）vs 开放域聊天
文本生成：创意写作、代码生成、报告撰写

三、技术层次架构

从工程实现角度，NLP技术可分为五层：应用层、任务层、模型层、表示层、基础层

第一代：符号表示

One-hot编码：维度灾难，语义鸿沟（"国王"和"女王"的向量正交，毫无相似性）

第二代：分布式表示（统计学习时代）

N-gram：基于统计的词共现，无法解决长距离依赖
Word2Vec（2013）：通过上下文预测学习词向量，"king - man + woman ≈ queen"
GloVe：结合全局统计和局部上下文

第三代：上下文相关表示（深度学习时代）

ELMo（2018）：双向LSTM，一词多义问题得到缓解
BERT（2018）：双向Transformer编码器，"理解"能力极强
GPT系列（2018-至今）：单向Transformer解码器，生成能力突出

第四代：大模型时代（LLM）

GPT-3/4、ChatGPT、Claude、DeepSeek：涌现能力（Emergent Abilities）、上下文学习（In-context Learning）、思维链（Chain-of-Thought）
范式转变：从"预训练+微调"到"提示工程（Prompt Engineering）"再到"智能体（Agent）"

四、当前面临的主要挑战

歧义性（Ambiguity）
- 词法歧义："行"（xíng/háng）
- 句法歧义："咬死了猎人的狗"（是狗咬死了猎人？还是猎人的狗被咬死了？）
- 语义歧义："他走了一个小时"（离开？步行？去世？）
常识推理（Commonsense Reasoning）
- 问题："我把玻璃杯扔到水泥地上，会怎样？"
- LLM能回答，但缺乏真正的物理世界理解，只是统计关联
隐喻与抽象（Metaphor & Abstraction）
- "时间就是金钱"------如何理解这种跨域映射？
长文本处理
- Transformer的O(n2) 注意力复杂度限制上下文长度
- 解决方案：稀疏注意力、滑动窗口、RAG（检索增强生成）
低资源语言/领域
- 小语种、专业领域（如法律、医疗）数据稀缺
- 解决方案：迁移学习、多语言预训练、领域自适应
幻觉问题（Hallucination）
- LLM生成看似合理但实际错误的内容
- 缓解方案：RAG、事实核查、不确定性量化

偏见与公平性：训练数据中的性别、种族偏见被模型放大
隐私泄露：模型可能记忆训练数据中的敏感信息
恶意使用：深度伪造、自动化诈骗、虚假信息生成
对齐问题（Alignment）：如何让模型行为符合人类价值观

五、与LLM/Agent的关系（结合我自己的学习方向，同学们可以自行制定学习计划）

之前学习过RAG、Agent范式（ReAct、Plan-and-Solve），这些正是当前NLP的前沿应用：

关键转变：

从特征工程到提示工程：不再手工设计特征，而是设计如何与模型交互
从单任务到通用能力：一个模型通过提示适配多种任务
从工具到智能体：LLM作为"大脑"，通过工具调用与外部世界交互

六、学习路径建议（根据个人具体情况）

基础巩固：Python、数据结构、概率统计、线性代数（已学习）
传统NLP：掌握分词、TF-IDF、Word2Vec、TextCNN、BiLSTM+CRF（理解原理即可，不必深入实现）
Transformer架构：必须手写实现一遍，理解Self-Attention、多头注意力、位置编码
BERT/GPT原理：理解预训练任务（MLM、NSP、CLM）、微调方法
LLM应用：提示工程、RAG（已学习）、Agent设计（ReAct等）
工程实践：LangChain/LlamaIndex、模型部署（vLLM）、量化推理

七、总结

NLP的本质是跨越人类语义空间与计算机数值空间的鸿沟 。从规则到统计，从深度学习到大模型，技术范式不断演进，但核心挑战------让机器真正理解语言 ------依然存在。当前我们正处于**"大模型统一范式"**的时代，NLP的边界正在模糊化：视觉-语言模型（VLM）、世界模型、具身智能，都在推动AI向更通用的方向演进。对我而言，理解NLP的历史脉络和技术层次，有助于更好地把握LLM的底层逻辑，在考研复试或求职面试中展现出系统性思维