跟李沐学AI:语言模型

语言模型定义

假设在给定长度为T的文本序列中的词元依次为可被人做文本序列在时间步t处的观测或标签。在给定这样的文本序列是,语言模型的目标是估计序列的联合概率

一个理想的与语言模型能够在一次抽取一个词元的情况下基于模型本身生成自然文本。

学习语言模型

基于语言模型的基本规则,一个包含了四个单词的文本序列的概率是:

为了训练语言模型,我们需要计算单词的概率, 以及给定前面几个单词后出现某个单词的条件概率。 这些概率本质上就是语言模型的参数。

马尔可夫模型与n元语法

当文本序列很长、文本量不够时,使用计数方法进行建模可能效果不佳。因此,可以在语言模型中引入马尔可夫模型以缓解这个问题。

涉及一个、两个和三个变量的概率公式分别被称为 一元语法 (unigram)、二元语法 (bigram)和三元语法(trigram)模型。

n元语法对应马尔可夫模型中的tau=n。一元语法认为每个token都是独立的。二、三元语法认为每个token与当前token的前两个token相关。

相关推荐
加油吧zkf6 分钟前
目标检测新纪元:DETR到Mamba实战解析
图像处理·人工智能·python·目标检测·分类
西柚小萌新12 分钟前
【深度学习:进阶篇】--4.3.seq2seq与Attention机制
人工智能·深度学习
求索小沈13 分钟前
ubuntu22.04 安装cuda cudnn
人工智能·深度学习
阿里云大数据AI技术22 分钟前
AI搜索 MCP最佳实践
数据库·人工智能·搜索引擎
大千AI助手23 分钟前
蒙特卡洛方法:随机抽样的艺术与科学
人工智能·机器学习·贝叶斯·概率·蒙特卡洛·随机
山顶望月川25 分钟前
并行科技MaaS平台支持文心4.5系列开源模型调用
人工智能·机器学习·编辑器
安思派Anspire1 小时前
再见 RAG?Gemini 2.0 Flash 刚刚 “杀死” 了它!
人工智能
FF-Studio1 小时前
【硬核数学】3. AI如何应对不确定性?概率论为模型注入“灵魂”《从零构建机器学习、深度学习到LLM的数学认知》
大数据·人工智能·深度学习·机器学习·数学建模·自然语言处理·概率论
master-dragon1 小时前
spring-ai 工作流
人工智能·spring·ai
MO2T1 小时前
使用 Flask 构建基于 Dify 的企业资金投向与客户分类评估系统
后端·python·语言模型·flask