大语言模型原理与实战(第一章NLP基础概念)

目录

第一章NLP基础概念

什么是NLP:

NLP发展历程:

NLP任务:

文本表示的发展历程:


最近大模型很火,很多朋友想要入门大模型,网上的资料很多,不知道从何开始,非常有幸看到Datawhale开源了大语言模型原理与实战教程------Happy-LLM。

本项目是一个系统性的 LLM 学习教程,将从 NLP 的基本研究方法出发,根据 LLM 的思路及原理逐层深入,依次为读者剖析 LLM 的架构基础和训练过程。同时,该项目结合目前 LLM 领域最主流的代码框架,演练如何亲手搭建、训练一个 LLM。

【教程地址】:Happy-LLM

第一章NLP基础概念

NLP即自然语言处理(Natural Language Processing),人工智能领域重要的分支。

  • 自然语言处理的定义与目标自然语言处理(NLP) 属于人工智能领域的关键分支。它致力于让计算机能够理解并处理人类语言,最终达成人机之间自然流畅的交流。这一目标的实现,意味着计算机能够像人类一样理解语言的含义、语法结构以及语义表达,从而在各种场景下,如智能客服、机器翻译、文本摘要等,有效地与人类进行交互。例如,当用户向智能客服提出问题时,NLP 技术可使客服系统准确理解问题并给出恰当回答。
  • NLP 技术的重要性与应用场景 :在信息技术飞速发展的当下,文本数据在日常生活中无处不在。NLP 技术 为我们提供了从海量文本中挖掘有用信息、理解语言深层含义的强大工具。它广泛应用于诸多领域,如信息检索领域,能帮助用户更精准地从大量文档中找到所需内容;在情感分析方面,可判断文本所表达的情感倾向是积极、消极还是中性,像分析社交媒体上的用户评论以了解大众对某产品或事件的态度。
  • NLP 技术的发展历程NLP 领域经历了多次技术革新。早期采用基于规则的方法,即通过人工制定大量语言规则来让计算机处理语言,但这种方式在面对复杂多样的语言现象时存在局限性。随后发展到统计学习方法,利用数据统计规律来处理语言,提升了处理效果。如今,深度学习技术广泛应用于 NLP,通过构建深度神经网络,自动从大量数据中学习语言特征,在语音识别、机器翻译等任务上取得了显著成果。例如在机器翻译中,深度学习模型能更好地处理不同语言间的复杂转换关系。
  • 文本表示在 NLP 中的关键作用文本表示作为 NLP 的核心技术之一,对于提升 NLP 系统性能起着决定性作用。它将文本转化为计算机能够理解和处理的形式,不同的文本表示方法会影响 NLP 系统对文本的理解和分析能力。例如词袋模型简单地统计文本中单词出现的频率,但丢失了词序等信息;而词向量表示则能通过向量空间模型捕捉单词的语义信息,使 NLP 系统在处理语义相关任务时表现更优。

什么是NLP:

  • NLP 的定义NLP 是一种致力于让计算机实现对人类语言的理解、解释与生成的技术。它在人工智能领域占据关键地位,核心任务是借助计算机程序模拟人类运用语言的过程。其融合了计算机科学、人工智能、语言学以及心理学等多学科知识,目标是消除人类语言与计算机语言之间的沟通壁垒,达成顺畅的交流互动。
  • NLP 的任务NLP 技术赋予计算机执行多种复杂语言处理任务的能力 。像中文分词子词切分 等基础任务,以及词性标注文本分类实体识别 等更具综合性的任务,还有关系抽取文本摘要机器翻译自动问答等高级任务。这些任务要求计算机不仅要识别语言的表面结构,更要深入理解语言背后的语义、语境、情感以及文化等复杂因素。
  • NLP 的发展与挑战深度学习推动 NLP 取得显著进展,但 NLP 仍面临诸多难题。随着深度学习兴起,通过对大量数据的训练,深度学习模型能够掌握语言的复杂模式与结构,在不少 NLP 任务上达到甚至超越人类水平。然而,NLP 在处理语言的歧义性、理解抽象概念以及应对隐喻和讽刺等方面依旧困难重重。研究人员正积极探索更先进的算法、运用更大规模的数据集并构建更精细的语言模型,以此来突破这些瓶颈,促使 NLP 技术持续向前发展。

NLP发展历程:

  • 早期探索(1940 年代 - 1960 年代):NLP 早期探索起源于二战后对机器翻译的重视。1950 年艾伦・图灵提出图灵测试,该测试旨在判断机器能否展现与人类无明显差异的智能行为,若机器能通过打字机参与对话并完全模仿人类,就可被认为能思考。同一时期,诺姆・乔姆斯基提出的生成语法理论,对理解机器翻译工作方式影响重大。不过,当时机器翻译系统极为简单,仅依靠字典查找和基本词序规则,翻译效果不尽人意。
  • 符号主义与统计方法(1970 年代 - 1990 年代):1970 年代起,NLP 研究者开拓新领域,分为符号主义(规则基础)和统计方法两大阵营。符号主义研究者聚焦形式语言和生成语法,而统计方法研究者侧重统计和概率方法。到了 1980 年代,计算能力提升与机器学习算法引入,使 NLP 领域发生革命性变革,统计模型开始替代复杂的 "手写" 规则,为 NLP 发展开辟新方向。
  • 机器学习与深度学习(2000 年代至今):2000 年代后,深度学习技术促使 NLP 取得显著进步。像循环神经网络(RNN)、长短时记忆网络(LSTM)和注意力机制等深度学习模型在 NLP 任务中广泛应用并成果显著。2013 年 Word2Vec 模型开创词向量表示新时代,提供更有效的文本表示方法。2018 年 BERT 模型引领预训练语言模型新浪潮。近年来,基于 Transformer 的模型如 GPT - 3,通过训练大参数模型,能生成高质量文本,甚至在某些方面堪比人类写作。

NLP任务:

  • 中文分词中文分词是 NLP 处理中文文本的基础任务 。由于中文词与词间无明显分隔,需将连续中文文本切分为有意义词汇序列。如 "今天天气真好,适合出去游玩。" 应切分为"今天", "天气", "真", "好", ",", "适合", "出去", "游玩", "。"。正确分词对后续词性标注、实体识别等任务关键,错误分词会影响整个文本处理流程,像 "雍和宫的荷花开的很好",错误切割会导致地名拆散或词汇边界混乱,如:雍 | 和 | 宫的 | 荷花 | 开的 | 很好 | 。 (地名被拆散)。
  • 子词切分子词切分是处理词汇稀疏问题的预处理技术 。在处理拼写复杂语言或预训练语言模型时重要,通过如 Byte Pair Encoding (BPE) 等方法将词汇分解为更小、频繁出现片段,如 "unhappiness" 可切分为 "un""happi""ness",即便模型未见过该词,也能通过子词理解其意为 "不幸福的状态"。
  • 词性标注词性标注为文本单词分配词性标签 。基于预定义标签集,如英语中的名词、动词等标签,对于理解句子结构、句法分析等高级任务重要,能助力计算机进行复杂文本处理。通常依赖机器学习或深度学习模型,通过学习标注数据预测单词词性,如句子She is playing the guitar in the park.词性标注如下:She (代词,Pronoun,PRP),is (动词,Verb,VBZ),playing (动词的现在分词,Verb,VBG),the (限定词,Determiner,DT),guitar (名词,Noun,NN),in (介词,Preposition,IN),the (限定词,Determiner,DT),park (名词,Noun,NN),. (标点,Punctuation,.)。
  • 文本分类文本分类将文本分配到预定义类别 。应用于情感分析、新闻分类等场景,关键在于理解文本含义并选择合适特征表示、分类算法及高质量训练数据。随着深度学习发展,神经网络用于文本分类可捕捉复杂模式,如新闻文章可分类为 "体育""政治""科技" 等类别,"NBA季后赛将于下周开始,湖人和勇士将在首轮对决。":体育 ;"美国总统宣布将提高关税,引发国际贸易争端。":政治 ;"苹果公司发布了新款 Macbook,配备了最新的m3芯片。":科技
  • 实体识别与关系抽取实体识别识别文本中特定实体并分类 ,对信息提取等应用重要,如从文本中识别出人名、地名等实体。关系抽取识别实体间语义关系,如 "比尔・盖茨是微软公司的创始人" 中识别出 "创始人" 关系,为知识图谱构建等提供支持。
  • 文本摘要与机器翻译文本摘要生成概括原文主要内容的摘要 ,分抽取式和生成式。新闻:++2021年5月22日,国家航天局宣布,我国自主研发的火星探测器"天问一号"成功在火星表面着陆。此次任务的成功,标志着我国在深空探测领域迈出了重要一步。"天问一号"搭载了多种科学仪器,将在火星表面进行为期90个火星日的科学探测工作,旨在研究火星地质结构、气候条件以及寻找生命存在的可能性。++ 抽取式从原文选关键句子,准确性高但可能不流畅;抽取式:我国自主研发的火星探测器"天问一号"成功在火星表面着陆,标志着我国在深空探测领域迈出了重要一步。 生成式需理解深层含义并重新组织表达,更具挑战性。生成式:天问一号"探测器成功实现火星着陆,代表我国在宇宙探索中取得重大进展。 机器翻译将一种语言翻译成另一种语言,不仅转换词汇,还要传达语义等,"今天天气很好。------The weather is very nice today.",为跨越语言障碍,研究者探索如基于神经网络的模型提高翻译质量。
  • 自动问答自动问答让计算机理解并回答自然语言问题。涵盖多种类型问题,构建涉及多个 NLP 子任务,分为检索式、知识库、社区问答三类。通过结合不同数据源和技术方法,系统在准确性等方面不断提升,能处理复杂多样问题。

文本表示的发展历程:

文本表示旨在将人类语言自然形式数字化 ,便于计算机分析处理,是 NLP 基础必要工作,影响 NLP 系统质量性能。在 NLP 里,要把文本语言单位及关系结构信息转为计算机能理解操作的形式,像向量 等,且要兼顾语义、计算和存储效率。其发展历经多阶段,从早期基于规则,到统计学习,再到如今深度学习,为 NLP 发展助力。
词向量

向量空间模型(VSM)是 NLP 基础强大的文本表示法,由哈佛大学 Salton 提出。它把文本转为高维向量实现数学化表示,各维度代表特征项,向量元素值代表特征项权重,通过特定公式确定,反映重要程度。VSM 应用广泛,能将文本数据转成易计算分析的数学形式,还可通过矩阵运算优化向量表示。但它存在数据稀疏和维数灾难问题,且忽略结构信息,特征项选择和权重计算也有不足。词汇表含所有可能词语,词对应表中位置以转换为向量。为解决问题,研究集中在改进特征表示和权重计算方法。

语言模型

N-gram 模型是 NLP 基于统计的语言模型,用于语音识别等众多任务。其核心基于马尔可夫假设,N 代表连续单词数量。它通过条件概率链式规则估计句子概率。优点是简单易理解、效果不错,但 N 大时会有数据稀疏问题,且忽略词间范围依赖,无法捕捉复杂结构语义。不过因简单实用,在 NLP 任务中仍广泛使用,与其他技术结合性能更好。

Word2Vec:

Word2Vec 是 2013 年 Tomas Mikolov 等人提出的词嵌入 技术,基于神经网络 NNLM,利用上下文关系生成词的密集向量 表示。有连续词袋模型 CBOWSkip-Gram 两种架构,前者根据上下文词向量计算目标词向量,后者相反。相比传统高维稀疏表示,它生成低维密集向量,能捕捉语义关系、泛化到未见词,但无法捕捉长距离依赖,复杂语义任务表现不佳。

CBOW:

Skip-Gram:

ELMo:

ELMo 实现一词多义、静态到动态词向量转变。先在大型语料库训练语言模型得词向量模型,再在特定任务微调。采用两阶段过程,基于 RNN 的 LSTM 模型训练时间长,特征提取是关键。优势是能捕捉多义性和上下文信息,适用于多种 NLP 任务,但存在模型复杂度高、训练时间长、计算资源消耗大等问题 。

相关推荐
学术小八几秒前
2025年人工智能、虚拟现实与交互设计国际学术会议
人工智能·交互·vr
仗剑_走天涯1 小时前
基于pytorch.nn模块实现线性模型
人工智能·pytorch·python·深度学习
cnbestec2 小时前
协作机器人UR7e与UR12e:轻量化设计与高负载能力助力“小而美”智造升级
人工智能·机器人·协作机器人·ur协作机器人·ur7e·ur12e
zskj_zhyl2 小时前
毫米波雷达守护银发安全:七彩喜跌倒检测仪重构居家养老防线
人工智能·安全·重构
gaosushexiangji3 小时前
利用sCMOS科学相机测量激光散射强度
大数据·人工智能·数码相机·计算机视觉
ai小鬼头4 小时前
AIStarter新版重磅来袭!永久订阅限时福利抢先看
人工智能·开源·github
说私域5 小时前
从品牌附庸到自我表达:定制开发开源AI智能名片S2B2C商城小程序赋能下的营销变革
人工智能·小程序
飞哥数智坊5 小时前
新版定价不够用,Cursor如何退回旧版定价
人工智能·cursor
12点一刻6 小时前
搭建自动化工作流:探寻解放双手的有效方案(2)
运维·人工智能·自动化·deepseek
未来之窗软件服务6 小时前
东方仙盟AI数据中间件使用教程:开启数据交互与自动化应用新时代——仙盟创梦IDE
运维·人工智能·自动化·仙盟创梦ide·东方仙盟·阿雪技术观