datawhale 大模型理论基础 引言

学习地址:大模型理论基础
一、什么是语言模型(Language Model)

语言模型其实是一个概率模型,给每一个句子列表计算一个概率值:

p(x1​,...,xL​)

例如:

p(the, mouse, ate, the, cheese)=0.02,

p(the, cheese ate, the, mouse)=0.01,p(the, cheese ate, the, mouse)=0.01

自回归语言模型(Autoregressive language models)

将一个句子的概率的表示成多个条件概率的相乘

二、信息理论、英语的熵、n-gram模型
2.1 信息熵:

信息熵也叫香侬熵,在物理上表示不确定性,熵越大,不确定性越高,包含的信息就越多。

2.2 交叉熵:

用来评估真实数据分布�p的样本的(语言)模型�q之间的差距

2.3 N-gram模型

在一个n-gram模型中,关于Xi​的预测只依赖于最后的 n−1 个字符 ,即Xi−(n−1):i−1​ ,而不是整个历史:

比如:n = 3

n 太小,那么模型将无法捕获长距离的依赖关系,

n太大,无法得到一个好的概率评估

三、大模型
3.1 强大的生成能力

在给定提示的情况下生成完成的文本: prompt -> task competion

3.2 具备一定的推理能力

目前开源的GPT3.5,4.0已经具备了一些逻辑推理能力,能够独立完成一些任务

3.3 风险

当然大模型还存在一些风险:

比如:

可靠性不能保证,可能输出的一段一本正经的乱说

可能生成社会偏见,或者带有侮辱等一些道德方面的文本

相关推荐
独自归家的兔3 分钟前
通义千问3-VL-Plus - 界面交互(本地图片)
人工智能·交互
adaAS141431511 分钟前
YOLO11-ReCalibrationFPN-P345实现酒液品牌识别与分类_1
人工智能·分类·数据挖掘
AEMC马广川12 分钟前
能源托管项目中“企业认证+人才证书”双轨评分策略分析
大数据·运维·人工智能·能源
鲸采云SRM采购管理系统14 分钟前
2025采购管理系统新趋势解读:AI与自动化正当时
人工智能
weixin_4481199416 分钟前
不要将包含API密钥的 .env 文件提交到版本控制系统中
人工智能
北京耐用通信21 分钟前
解码协议迷雾:耐达讯自动化Profinet转Devicenet让食品包装称重模块“跨界对话”的魔法
人工智能·物联网·网络协议·自动化·信息与通信
塔楼27 分钟前
MiniCPM-V 4.5
人工智能·深度学习
猫天意29 分钟前
【即插即用模块】AAAI2025 | 高频 + 空间感知!新 HS-FPN 让“极小目标”不再消失!SCI保二区争一区!彻底疯狂!!!
网络·人工智能·深度学习·学习·音视频
罗小罗同学30 分钟前
基于虚拟染色的病理切片进行癌症分类,准确率可达到95.9%,在统计学上逼近真实染色的金标准,两小时可处理100张切片
人工智能·分类·数据挖掘·医学图像处理·医学人工智能
OneCrab33 分钟前
100种AI模型安全漏洞展示
人工智能