llm课程学习心得，第一课

课程把自然语言处理相关的技术内容从头到尾梳理了一遍，从基础定义、发展历程，再到各类核心任务和文本表示技术全都讲到了，整体逻辑很顺，能清晰看懂 NLP 整套技术的演变逻辑。

先说 NLP 本身，这项技术说白了就是让电脑读懂、生成人类的语言，融合了计算机、语言学还有机器学习好几门学科。整套技术分为文本理解和文本生成两大方向，我们平时见到的分词、机器翻译、智能问答都属于它的落地应用。虽然现在深度学习让 NLP 效果提升特别多，但技术上依旧有很难攻克的难点，最突出的就是语言歧义、隐喻和反讽这类内容，机器只能看懂文字表面意思，很难结合语境读懂话里藏着的深层含义，这也是现在研发一直在攻坚的地方。

文档把 NLP 技术发展分成了三个阶段，每一段的技术方案差别很大。上世纪四五十到六十年代属于早期摸索阶段，做翻译全靠人工写规则、搭配词典检索，没有自主学习能力，最终效果很差；七十到九十年代分成两条技术路线，符号主义依靠语法规则解析文本，另一派统计方法改用概率模型，到后期统计模型慢慢取代了繁杂的手写规则；2000 年之后深度学习彻底成为主流，RNN、LSTM、注意力机制陆续投入使用，2013 年 Word2Vec 更新了词向量的实现方式，2018 年 BERT 出现直接带火了预训练模型，基于 Transformer 架构的 GPT 系列更是实现了高质量文本生成，算力提升和算法迭代是技术飞跃的关键。

文中详细拆解了九项 NLP 核心基础任务，也是做任何文本项目都绕不开的技术模块。中文分词是中文处理的第一步，咱们中文单词之间没有空格，一旦分词出错，后面实体识别、句法分析全部都会受影响；子词切分专门解决生僻词、复合词带来的数据稀疏问题，BPE、WordPiece 这类算法现在基本是大模型标配；词性标注依靠 HMM、CRF 等模型标注字词词性，为句法解析提供支撑。文本分类、实体识别、关系抽取都属于信息提取类技术，分别用来划分文本类别、提取关键实体、梳理实体之间的逻辑关联；文本摘要有两种实现思路，抽取式直接截取原文关键句子，生成式依靠 Seq2Seq 模型重新组织语言，难度更高；机器翻译、自动问答属于高阶应用技术，翻译依靠 Transformer 搭建双语语义映射，问答又分检索式、知识库式、社区问答三种方案，适配不同业务场景。

文档后半部分重点讲了文本表示技术，这是所有 NLP 任务的底层根基，也是技术迭代最明显的一块。最早用的 One-Hot 向量空间模型，向量维度极高、数据极度稀疏，完全没办法捕捉上下文语义；之后出现的 N-gram 统计语言模型，依靠马尔可夫假设计算语句概率，但没法处理长距离的语义关联；2013 年诞生的 Word2Vec 可以生成低维密集的静态词向量，能简单捕捉词语之间的语义关联，可解决不了一词多义的问题；ELMo 算是一次大升级，依靠双向 LSTM 结合上下文生成动态词向量，完美解决多义难题，也是预训练思路早期落地的代表。整体看下来，NLP 这么多年的技术迭代，核心目标就是不断优化文本数字化的方式，一点点弥补模型捕捉上下文、深层语义的短板。