跟李沐学AI:语言模型

语言模型定义

假设在给定长度为T的文本序列中的词元依次为可被人做文本序列在时间步t处的观测或标签。在给定这样的文本序列是,语言模型的目标是估计序列的联合概率

一个理想的与语言模型能够在一次抽取一个词元的情况下基于模型本身生成自然文本。

学习语言模型

基于语言模型的基本规则,一个包含了四个单词的文本序列的概率是:

为了训练语言模型,我们需要计算单词的概率, 以及给定前面几个单词后出现某个单词的条件概率。 这些概率本质上就是语言模型的参数。

马尔可夫模型与n元语法

当文本序列很长、文本量不够时,使用计数方法进行建模可能效果不佳。因此,可以在语言模型中引入马尔可夫模型以缓解这个问题。

涉及一个、两个和三个变量的概率公式分别被称为 一元语法 (unigram)、二元语法 (bigram)和三元语法(trigram)模型。

n元语法对应马尔可夫模型中的tau=n。一元语法认为每个token都是独立的。二、三元语法认为每个token与当前token的前两个token相关。

相关推荐
MasonYyp13 小时前
DSPy优化提示词
大数据·人工智能
互联网科技看点13 小时前
园世骨传导耳机:专业之选,X7与Betapro引领游泳运动双潮流
人工智能
大公产经晚间消息13 小时前
天九企服董事长戈峻出席欧洲经贸峰会“大进步日”
大数据·人工智能·物联网
deephub13 小时前
为什么标准化要用均值0和方差1?
人工智能·python·机器学习·标准化
饮哉13 小时前
LLM生成文本每次是把之前所有的token都输入,还是只输入上一个token?
人工智能·大模型
云道轩13 小时前
Planning Analytics Assistant (AI)简介
人工智能
bleuesprit13 小时前
Lora训练的safetensor模型合并成GGUF
人工智能·语言模型
沛沛老爹13 小时前
Web开发者转型AI安全实战:Agent Skills敏感数据脱敏架构设计
java·开发语言·人工智能·安全·rag·skills
bubiyoushang88813 小时前
基于传统材料力学势能法的健康齿轮时变啮合刚度数值分析
人工智能·算法
煤炭里de黑猫13 小时前
使用 PyTorch 实现标准 LSTM 神经网络
人工智能·pytorch·lstm