datawhale 大模型理论基础 引言

学习地址:大模型理论基础
一、什么是语言模型(Language Model)

语言模型其实是一个概率模型,给每一个句子列表计算一个概率值:

p(x1​,...,xL​)

例如:

p(the, mouse, ate, the, cheese)=0.02,

p(the, cheese ate, the, mouse)=0.01,p(the, cheese ate, the, mouse)=0.01

自回归语言模型(Autoregressive language models)

将一个句子的概率的表示成多个条件概率的相乘

二、信息理论、英语的熵、n-gram模型
2.1 信息熵:

信息熵也叫香侬熵,在物理上表示不确定性,熵越大,不确定性越高,包含的信息就越多。

2.2 交叉熵:

用来评估真实数据分布�p的样本的(语言)模型�q之间的差距

2.3 N-gram模型

在一个n-gram模型中,关于Xi​的预测只依赖于最后的 n−1 个字符 ,即Xi−(n−1):i−1​ ,而不是整个历史:

比如:n = 3

n 太小,那么模型将无法捕获长距离的依赖关系,

n太大,无法得到一个好的概率评估

三、大模型
3.1 强大的生成能力

在给定提示的情况下生成完成的文本: prompt -> task competion

3.2 具备一定的推理能力

目前开源的GPT3.5,4.0已经具备了一些逻辑推理能力,能够独立完成一些任务

3.3 风险

当然大模型还存在一些风险:

比如:

可靠性不能保证,可能输出的一段一本正经的乱说

可能生成社会偏见,或者带有侮辱等一些道德方面的文本

相关推荐
SeaTunnel4 分钟前
Apache SeaTunnel 2.3.13 版本前瞻:核心引擎变化和 AI ETL 趋势值得关注
数据仓库·人工智能·apache·etl·seatunnel·数据同步
輕華7 分钟前
零基础吃透 CNN 卷积神经网络:MNIST 手写数字识别实战全解(附完整可运行代码)
人工智能·神经网络·cnn
天涯明月199311 分钟前
OpenClaw项目(龙虾)架构和实现原理详解
人工智能·大模型
Microvision维视智造13 分钟前
小龙虾包装前缺陷智能视觉检测方案:告别人工分选,实现高效标准化品控
人工智能·计算机视觉·视觉检测·检测设备
JEECG低代码平台18 分钟前
终端里的AI搭档:我用Claude Code提效的实战心得
前端·人工智能·chrome
FairGuard手游加固18 分钟前
当明枪遭遇暗箭:射击游戏安全攻防战
人工智能·安全·游戏
ARVRCool编程训练营19 分钟前
Agent智能体构建全流程 Agentic AI知识体系
人工智能
CoovallyAIHub24 分钟前
ICLR 2026 | 慕尼黑工大院士Navab团队联合MVTec提出FoundAD,用基础视觉编码器实现少样本异常检测
人工智能·算法·计算机视觉
岁月的眸30 分钟前
OpenClaw 完整部署(云端模型+本地模型) + 接入飞书指南
人工智能·飞书·openclaw
算法狗232 分钟前
大模型面试题:Transformer架构如何克服Seq2Seq模型的挑战
人工智能·深度学习·语言模型