跟李沐学AI:语言模型

语言模型定义

假设在给定长度为T的文本序列中的词元依次为可被人做文本序列在时间步t处的观测或标签。在给定这样的文本序列是,语言模型的目标是估计序列的联合概率

一个理想的与语言模型能够在一次抽取一个词元的情况下基于模型本身生成自然文本。

学习语言模型

基于语言模型的基本规则,一个包含了四个单词的文本序列的概率是:

为了训练语言模型,我们需要计算单词的概率, 以及给定前面几个单词后出现某个单词的条件概率。 这些概率本质上就是语言模型的参数。

马尔可夫模型与n元语法

当文本序列很长、文本量不够时,使用计数方法进行建模可能效果不佳。因此,可以在语言模型中引入马尔可夫模型以缓解这个问题。

涉及一个、两个和三个变量的概率公式分别被称为 一元语法 (unigram)、二元语法 (bigram)和三元语法(trigram)模型。

n元语法对应马尔可夫模型中的tau=n。一元语法认为每个token都是独立的。二、三元语法认为每个token与当前token的前两个token相关。

相关推荐
教育知暖意1 分钟前
2026年PPT生成工具实测,每款都适配不同需求
大数据·人工智能
广州山泉婚姻5 分钟前
Python 虚拟环境 venv 在 VSCode 中的正确用法
人工智能·python
渡我白衣8 分钟前
见微知著——特征工程的科学与艺术
人工智能·深度学习·神经网络·机器学习·计算机视觉·自然语言处理·语音识别
2501_933329558 分钟前
企业舆情处置系统设计与实践:Infoseek数字公关AI中台技术解析
数据仓库·人工智能·重构·架构·数据库开发
小程故事多_801 小时前
Harness实战指南,在Java Spring Boot项目中规范落地OpenSpec+Claude Code
java·人工智能·spring boot·架构·aigc·ai编程
Anastasiozzzz6 小时前
深入研究RAG: 在线阶段-查询&问答
数据库·人工智能·ai·embedding
tq10866 小时前
资本主义的时间贴现危机:AI时代的结构性淘汰机制
人工智能
砍材农夫6 小时前
spring-ai 第四多模态API
java·人工智能·spring
土豆12509 小时前
LangGraph TypeScript 版入门与实践
人工智能·llm
土豆12509 小时前
OpenSpec:让 AI 编码助手从"乱猜"到"照单执行"
人工智能·llm