llm课程学习心得,第一课

课程把自然语言处理相关的技术内容从头到尾梳理了一遍,从基础定义、发展历程,再到各类核心任务和文本表示技术全都讲到了,整体逻辑很顺,能清晰看懂 NLP 整套技术的演变逻辑。

先说 NLP 本身,这项技术说白了就是让电脑读懂、生成人类的语言,融合了计算机、语言学还有机器学习好几门学科。整套技术分为文本理解和文本生成两大方向,我们平时见到的分词、机器翻译、智能问答都属于它的落地应用。虽然现在深度学习让 NLP 效果提升特别多,但技术上依旧有很难攻克的难点,最突出的就是语言歧义、隐喻和反讽这类内容,机器只能看懂文字表面意思,很难结合语境读懂话里藏着的深层含义,这也是现在研发一直在攻坚的地方。

文档把 NLP 技术发展分成了三个阶段,每一段的技术方案差别很大。上世纪四五十到六十年代属于早期摸索阶段,做翻译全靠人工写规则、搭配词典检索,没有自主学习能力,最终效果很差;七十到九十年代分成两条技术路线,符号主义依靠语法规则解析文本,另一派统计方法改用概率模型,到后期统计模型慢慢取代了繁杂的手写规则;2000 年之后深度学习彻底成为主流,RNN、LSTM、注意力机制陆续投入使用,2013 年 Word2Vec 更新了词向量的实现方式,2018 年 BERT 出现直接带火了预训练模型,基于 Transformer 架构的 GPT 系列更是实现了高质量文本生成,算力提升和算法迭代是技术飞跃的关键。

文中详细拆解了九项 NLP 核心基础任务,也是做任何文本项目都绕不开的技术模块。中文分词是中文处理的第一步,咱们中文单词之间没有空格,一旦分词出错,后面实体识别、句法分析全部都会受影响;子词切分专门解决生僻词、复合词带来的数据稀疏问题,BPE、WordPiece 这类算法现在基本是大模型标配;词性标注依靠 HMM、CRF 等模型标注字词词性,为句法解析提供支撑。文本分类、实体识别、关系抽取都属于信息提取类技术,分别用来划分文本类别、提取关键实体、梳理实体之间的逻辑关联;文本摘要有两种实现思路,抽取式直接截取原文关键句子,生成式依靠 Seq2Seq 模型重新组织语言,难度更高;机器翻译、自动问答属于高阶应用技术,翻译依靠 Transformer 搭建双语语义映射,问答又分检索式、知识库式、社区问答三种方案,适配不同业务场景。

文档后半部分重点讲了文本表示技术,这是所有 NLP 任务的底层根基,也是技术迭代最明显的一块。最早用的 One-Hot 向量空间模型,向量维度极高、数据极度稀疏,完全没办法捕捉上下文语义;之后出现的 N-gram 统计语言模型,依靠马尔可夫假设计算语句概率,但没法处理长距离的语义关联;2013 年诞生的 Word2Vec 可以生成低维密集的静态词向量,能简单捕捉词语之间的语义关联,可解决不了一词多义的问题;ELMo 算是一次大升级,依靠双向 LSTM 结合上下文生成动态词向量,完美解决多义难题,也是预训练思路早期落地的代表。整体看下来,NLP 这么多年的技术迭代,核心目标就是不断优化文本数字化的方式,一点点弥补模型捕捉上下文、深层语义的短板。