DataWhale—大模型的算法基础(环境的部署Anaconda)

原教程适用于基础算法薄弱者(附上教程链接):https://github.com/datawhalechina/base-llm

学习安排如下图所示:

一、什么是自然语言处理?

自然语言处理( NLP) 是计算机科学、人工智能和语言学的交叉领域,研究如何让计算机理解、解释和生成人类语言

核心矛盾在于:人类语言是模糊的、 context-dependent 的,而计算机需要精确的、形式化的输入

举个例子:你说"苹果很好吃",人类知道你在说水果;但如果说"苹果发布了新手机",人类能瞬间切换理解为苹果公司。这种歧义消解上下文理解正是NLP要解决的核心问题。

  • 计算语言学:更偏语言学理论,NLP更偏工程实现

  • 语音识别:把语音转为文字,是NLP的前置步骤

  • 自然语言理解:NLP的子集,侧重理解而非生成

  • 自然语言生成:NLP的子集,侧重生成文本

  • 大语言模型:当前NLP的主流技术范式,基于Transformer架构

二、核心任务分类

NLP任务可分为 理解生成两大维度

任务 说明 示例
分词 将句子切分为词或子词单元 "我爱北京天安门" → ["我", "爱", "北京", "天安门"]
词性标注 标注每个词的语法类别 "run/VB", "苹果/NN"
命名实体识别 识别专有名词(人名、地名、机构名) "马云创立了阿里巴巴" → [马云/人名, 阿里巴巴/机构名]
词义消歧 确定多义词在上下文中的具体含义 "bank"是银行还是河岸?
任务 说明 应用
句法分析 分析句子结构,生成语法树 确定主谓宾关系
依存句法分析 标注词与词之间的依存关系 主语←谓语→宾语
短语结构分析 识别名词短语、动词短语等 NP, VP chunking
任务 说明 示例
语义角色标注 识别"谁对谁做了什么" "小明吃了苹果" → 施事:小明, 动作:吃, 受事:苹果
语义相似度计算 判断两个句子意思是否相近 "我喜欢你" vs "我对你有好感" → 高相似度
指代消解 确定代词指代的对象 "小明说他饿了" → "他"=小明
关系抽取 从文本中提取实体间关系 "马云是阿里巴巴创始人" → (马云, 创始人, 阿里巴巴)
任务 说明
共指消解 跨句识别同一实体不同表述
篇章分析 理解段落间的逻辑关系(因果、转折等)
对话状态跟踪 多轮对话中维护上下文信息
  • 机器翻译:中英互译、多语言翻译

  • 文本摘要:抽取式 vs 生成式摘要

  • 问答系统:阅读理解、知识图谱问答、开放域问答

  • 对话系统:任务型对话(订机票)vs 开放域聊天

  • 文本生成:创意写作、代码生成、报告撰写

三、技术层次架构

从工程实现角度,NLP技术可分为五层:应用层、任务层、模型层、表示层、基础层

第一代:符号表示

  • One-hot编码:维度灾难,语义鸿沟("国王"和"女王"的向量正交,毫无相似性)

第二代:分布式表示(统计学习时代)

  • N-gram:基于统计的词共现,无法解决长距离依赖

  • Word2Vec(2013):通过上下文预测学习词向量,"king - man + woman ≈ queen"

  • GloVe:结合全局统计和局部上下文

第三代:上下文相关表示(深度学习时代)

  • ELMo(2018):双向LSTM,一词多义问题得到缓解

  • BERT(2018):双向Transformer编码器,"理解"能力极强

  • GPT系列(2018-至今):单向Transformer解码器,生成能力突出

第四代:大模型时代(LLM)

  • GPT-3/4、ChatGPT、Claude、DeepSeek:涌现能力(Emergent Abilities)、上下文学习(In-context Learning)、思维链(Chain-of-Thought)

  • 范式转变:从"预训练+微调"到"提示工程(Prompt Engineering)"再到"智能体(Agent)"

四、当前面临的主要挑战

  1. 歧义性(Ambiguity)

    • 词法歧义:"行"(xíng/háng)

    • 句法歧义:"咬死了猎人的狗"(是狗咬死了猎人?还是猎人的狗被咬死了?)

    • 语义歧义:"他走了一个小时"(离开?步行?去世?)

  2. 常识推理(Commonsense Reasoning)

    • 问题:"我把玻璃杯扔到水泥地上,会怎样?"

    • LLM能回答,但缺乏真正的物理世界理解,只是统计关联

  3. 隐喻与抽象(Metaphor & Abstraction)

    • "时间就是金钱"------如何理解这种跨域映射?
  4. 长文本处理

    • Transformer的O(n2) 注意力复杂度限制上下文长度

    • 解决方案:稀疏注意力、滑动窗口、RAG(检索增强生成)

  5. 低资源语言/领域

    • 小语种、专业领域(如法律、医疗)数据稀缺

    • 解决方案:迁移学习、多语言预训练、领域自适应

  6. 幻觉问题(Hallucination)

    • LLM生成看似合理但实际错误的内容

    • 缓解方案:RAG、事实核查、不确定性量化

  • 偏见与公平性:训练数据中的性别、种族偏见被模型放大

  • 隐私泄露:模型可能记忆训练数据中的敏感信息

  • 恶意使用:深度伪造、自动化诈骗、虚假信息生成

  • 对齐问题(Alignment):如何让模型行为符合人类价值观

五、与LLM/Agent的关系(结合我自己的学习方向,同学们可以自行制定学习计划)

之前学习过RAG、Agent范式(ReAct、Plan-and-Solve),这些正是当前NLP的前沿应用:

关键转变

  • 从特征工程到提示工程:不再手工设计特征,而是设计如何与模型交互

  • 从单任务到通用能力:一个模型通过提示适配多种任务

  • 从工具到智能体:LLM作为"大脑",通过工具调用与外部世界交互

六、学习路径建议(根据个人具体情况)

  1. 基础巩固:Python、数据结构、概率统计、线性代数(已学习)

  2. 传统NLP:掌握分词、TF-IDF、Word2Vec、TextCNN、BiLSTM+CRF(理解原理即可,不必深入实现)

  3. Transformer架构:必须手写实现一遍,理解Self-Attention、多头注意力、位置编码

  4. BERT/GPT原理:理解预训练任务(MLM、NSP、CLM)、微调方法

  5. LLM应用:提示工程、RAG(已学习)、Agent设计(ReAct等)

  6. 工程实践:LangChain/LlamaIndex、模型部署(vLLM)、量化推理

七、总结

NLP的本质是跨越人类语义空间与计算机数值空间的鸿沟 。从规则到统计,从深度学习到大模型,技术范式不断演进,但核心挑战------让机器真正理解语言 ------依然存在。当前我们正处于**"大模型统一范式"**的时代,NLP的边界正在模糊化:视觉-语言模型(VLM)、世界模型、具身智能,都在推动AI向更通用的方向演进。对我而言,理解NLP的历史脉络和技术层次,有助于更好地把握LLM的底层逻辑,在考研复试或求职面试中展现出系统性思维

相关推荐
Sakinol#2 小时前
Leetcode Hot 100 —— 图论
算法·leetcode·图论
机器学习之心2 小时前
一区级光伏功率预测创新模型!CEEMDAN-KPCA-PINN多变量时序预测!完全自适应噪声集合经验模态分解+核主成份降维+物理信息神经网络
人工智能·深度学习·神经网络·ceemdan·光伏功率预测·多变量时序预测·pinn
轻竹办公PPT2 小时前
2026年成考来临,毕业论文不会写?这些方法你知道几个?
人工智能·python
fof9202 小时前
Base LLM | 从 NLP 到 LLM 的算法全栈教程 第一天
人工智能·自然语言处理
一拳不是超人2 小时前
龙虾🦞(OpenClaw) 本地部署体验:是真变革还是旧酒装新瓶?
前端·人工智能·程序员
云境筑桃源哇2 小时前
2026年科研软件分类及主流工具汇总
人工智能·分类·数据挖掘
ZZhYasuo2 小时前
冒泡排序1
java·算法·排序算法
LS_learner2 小时前
OpenCode 的 skills 网站相关信息
人工智能
重生之后端学习2 小时前
72. 编辑距离
数据结构·算法·leetcode·深度优先·图论