跟李沐学AI:语言模型

语言模型定义

假设在给定长度为T的文本序列中的词元依次为可被人做文本序列在时间步t处的观测或标签。在给定这样的文本序列是,语言模型的目标是估计序列的联合概率

一个理想的与语言模型能够在一次抽取一个词元的情况下基于模型本身生成自然文本。

学习语言模型

基于语言模型的基本规则,一个包含了四个单词的文本序列的概率是:

为了训练语言模型,我们需要计算单词的概率, 以及给定前面几个单词后出现某个单词的条件概率。 这些概率本质上就是语言模型的参数。

马尔可夫模型与n元语法

当文本序列很长、文本量不够时,使用计数方法进行建模可能效果不佳。因此,可以在语言模型中引入马尔可夫模型以缓解这个问题。

涉及一个、两个和三个变量的概率公式分别被称为 一元语法 (unigram)、二元语法 (bigram)和三元语法(trigram)模型。

n元语法对应马尔可夫模型中的tau=n。一元语法认为每个token都是独立的。二、三元语法认为每个token与当前token的前两个token相关。

相关推荐
张拭心1 小时前
Cursor 又偷偷更新,这个功能太实用:Visual Editor for Cursor Browser
前端·人工智能
吴佳浩1 小时前
大模型 MoE,你明白了么?
人工智能·llm
Blossom.1183 小时前
基于Embedding+图神经网络的开源软件供应链漏洞检测:从SBOM到自动修复的完整实践
人工智能·分布式·深度学习·神经网络·copilot·开源软件·embedding
t198751283 小时前
电力系统经典节点系统潮流计算MATLAB实现
人工智能·算法·matlab
万悉科技3 小时前
比 Profound 更适合中国企业的GEO产品
大数据·人工智能
mqiqe3 小时前
vLLM(vLLM.ai)生产环境部署大模型
人工智能·vllm
V1ncent Chen3 小时前
机器是如何“洞察“世界的?:深度学习
人工智能·深度学习
AI营销前沿3 小时前
中国AI营销专家深度解析:谁在定义AI营销的未来?
人工智能
前端大卫4 小时前
【重磅福利】学生认证可免费领取 Gemini 3 Pro 一年
前端·人工智能
汽车仪器仪表相关领域4 小时前
LambdaCAN:重构专业空燃比测量的数字化范式
大数据·人工智能·功能测试·安全·重构·汽车·压力测试