第一章 语言模型基础

历史:规则模式---》统计模型--》神经网络

规则模型(ELIZA 时代)的做法: 翻阅语法书 -> 查找"eat"是动词 -> 后面应该接名词 -> 查找食物列表 -> 随机填入"apple"。(即使填入"concrete(混凝土)"符合语法,但没意义)。

统计模型(N-gram 时代)的做法: 你完全不懂语法。你只是疯狂翻阅那本巨型账本,查找历史上大家说完 "I like to eat" 之后都接了什么词。

1.1 基于统计方法的语言模型

语言是概率的。
语言的概率性与认知的概率性也存在着密不可分的关系
语言模型(Language Models, LMs)旨在准确预测语言符号的概率。

术语:统计语言模型 (Statistical Language Model, SLM)

核心代表:N-gram 模型 (N-gram Model)。

定义: 它是一个通过计算概率来判断一句话是否"正常"的数学模型。 它不关心这句话的语法对不对(主谓宾),也不关心这句话的意思(语义),它只关心:"根据历史数据,这几个词凑在一起出现的概率有多大?"

统计模型的本质:它是基于"历史出现频率"的概率预测,而不是基于理解。

1.1.1 n-grams 语言模型

例子:

  • n-grams 具备对未知文本的泛化能力。但是,这种泛化能力会随着 n 的增大而逐渐减弱。在 n-grams 语言模型中,n 代表了拟合语料库的能力与对未知文本的泛化能力之间的权衡。

  • 当 n 过大时,语料库中难以找到与 n-gram 一模一样的词序列,可能出现大量"零概率"现象;在 n 过小时,n-gram 难以承载足够的语言信息,不足以反应语料库的特性。因此,在 n-grams 语言模型中,n 的值是影响性能的关键因素。上述的"零概率"现象可以通过平滑(Smoothing)技术进行改善,具体技术可参见文献。

  • 平滑技术

    实质上就是杜绝0概率的出现

J&M 这本书提到的解决方案,本质上就是承认**"训练数据永远是不够的"。 通过平滑(Smoothing),特别是回退(Backoff)**机制,模型学会了在缺乏精确的高阶信息(N很大)时,灵活地借用低阶信息(N很小)来填补空白,从而解决了"零概率"问题。

缺点:

1.1.2 n-grams 的统计学原理

数学知识:

1.2 基于 RNN 的语言模型

1.2.1 循环神经网络 RNN







1.2.2 基于 RNN 的语言模型

训练的过程

结果如何得到


由于 RNN 模型循环迭代的本质,其不易进行并行计算,导致其在输入序列较长时,训练较慢。

1.3 基于 Transformer 的语言模型

1.3.1 Transformer







1.3.2 基于 Transformer 的语言模型

1.4 语言模型的采样方法

  • 语言解码的方法

1.4.1 概率最大化方法

  1. 贪心搜索(Greedy Search)
    1. 波束搜索(Beam Search

1.4.2 随机采样方法

Top-K 采样可以有效的增加生成文本的新颖度

1.5 语言模型的评测

1.5.1 内在评测

1.5.2 外在评测

  1. BLEU(BiLingual Evaluation Understudy)

    核心定位:精度导向的评测指标,最初用于机器翻译任务。

    核心逻辑:计算生成文本与参考文本在多层级 n-gram(单词、双词、多词组合)上的重合程度,取几何平均作为最终得分。

    计算方式:分子为生成文本与参考文本匹配的 n-gram 数量,分母为生成文本中所有 n-gram 总数,再通过加权或长度惩罚项优化结果。

    示例:若生成文本为 "big language models",参考文本为 "large language models",n=1 时重合度为 2/3,n=2 时重合度为 1/2,BLEU 会综合多维度 n-gram 精度计算得分。

  2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

    核心定位:召回导向的评测指标,常用于文本摘要等生成任务。

    核心逻辑:聚焦生成文本对参考文本关键信息的覆盖程度,主流包含四种变体,核心为 ROUGE-N 和 ROUGE-L。

    ROUGE-N:基于 n-gram 的召回率计算,统计参考文本中 n-gram 被生成文本覆盖的比例。

    ROUGE-L:基于最长公共子序列(LCS)计算,兼顾序列连续性,通过 F1 值平衡精确率和召回率。

    计算方式:以 ROUGE-N 为例,分子为生成文本与参考文本匹配的 n-gram 数量,分母为参考文本中所有 n-gram 总数。

  3. 基于上下文词嵌入的方法:BERTScore

    核心原理:利用 Encoder-only 架构模型(如 BERT)的上下文词嵌入能力,计算 "目标模型生成文本" 与 "参考文本" 的语义相似度,而非字面重合度。

    具体步骤:

    ① 用 BERT 分别对生成文本(如摘要)和参考文本的每个 Token 进行编码,得到带上下文信息的向量(避免传统词嵌入 "一词一向量" 的局限性,如 "苹果" 在 "吃苹果" 和 "苹果手机" 中向量不同);

    ② 计算生成文本 Token 向量与参考文本 Token 向量的余弦相似度,取最大值作为 "单 Token 匹配分";

    ③ 对所有 Token 的匹配分取平均,得到 Precision(生成文本对参考文本的覆盖度)、Recall(参考文本在生成文本中的保留度)和 F1 值(综合指标),即 BERTScore。

    优势:能捕捉语义层面的匹配(如 "大语言模型" 与 "大型语言模型" 语义相近,BERTScore 会给出高分,而 BLEU 可能因字面差异扣分),更贴近人类对 "语义一致性" 的判断;

    局限:仍依赖 "参考文本"(若无参考文本则无法评估),且对 "裁判模型(如 BERT)的能力依赖较高"(若 BERT 无法理解专业领域文本,评估结果可能偏差)。

  4. 基于生成式评估的方法:G-EVAL、InstructScore

    这类方法更灵活,无需参考文本,直接让 "裁判模型" 对生成结果进行开放式评分与解释,典型代表为 G-EVAL(用 GPT-4 作为裁判):

    核心原理:通过 "Prompt 工程" 引导 "裁判模型" 按人类逻辑分步评估,输出量化分数与评估依据,适合无参考文本的场景(如创意写作、开放域问答)。

    具体步骤(以 "评估摘要生成任务" 为例):

    ① 构造 Prompt 三部分:

    任务描述与评分标准(如 "评分范围 1-10 分,1 分 = 信息缺失严重,10 分 = 完整覆盖原文核心信息且逻辑流畅");

    评测步骤(让 GPT-4 生成 "先判断原文核心信息→再检查摘要是否覆盖→最后打分" 的思维链,即 CoT);

    输入内容(原文 + 目标模型生成的摘要);

    ② 将 Prompt 输入 GPT-4,得到分数及 "为何打此分" 的自然语言解释;

    ③ (可选)对多次评分结果加权平均,降低随机性(如让 GPT-4 对同一摘要生成 3 次评分,取平均分为最终结果)。

    延伸案例:InstructScore 在 G-EVAL 基础上增加 "多维度评分"(如同时评估 "准确性、流畅性、创造性"),且会输出详细的错误分析(如 "摘要遗漏了原文中'大模型参数高效微调'的核心方法")。

    优势:

    无需参考文本,适用于无标准答案的开放任务(如诗歌创作、商业文案生成);

    能评估传统指标无法量化的维度(如逻辑性、创新性、伦理合规性);

    输出的自然语言解释可辅助开发者定位目标模型的不足(如 "生成文本存在事实错误,混淆了 LLaMA 与 GPT 的架构差异")。

相关推荐
Piar1231sdafa2 小时前
基于yolo13-C3k2-RVB的洗手步骤识别与检测系统实现_1
人工智能·算法·目标跟踪
小北方城市网2 小时前
SpringBoot 集成 MyBatis-Plus 实战(高效 CRUD 与复杂查询):简化数据库操作
java·数据库·人工智能·spring boot·后端·安全·mybatis
川西胖墩墩2 小时前
开发者友好型AI调试与可观测性工具
人工智能
学统计的程序员2 小时前
一篇文章简述如何安装claude code并接入国产智谱AI大模型
人工智能·ai编程·claude
2501_941333102 小时前
耳机听筒检测与识别 Ear_Piece和Head_Phone目标检测改进版freeanchor_r101_fpn_1x_coco模型_1
人工智能·目标检测·计算机视觉
人工小情绪2 小时前
Antigravity简介
ide·人工智能
sww_10262 小时前
智能问数系统(一):高质量的Text-to-SQL
java·人工智能·ai编程
好奇龙猫2 小时前
【人工智能学习-AI入试相关题目练习-第六次】
人工智能·学习
逄逄不是胖胖2 小时前
《动手学深度学习》-48全连接卷积神经网络FCN实现
人工智能·深度学习·cnn