datawhale 大模型理论基础 引言

学习地址:大模型理论基础
一、什么是语言模型(Language Model)

语言模型其实是一个概率模型,给每一个句子列表计算一个概率值:

p(x1​,...,xL​)

例如:

p(the, mouse, ate, the, cheese)=0.02,

p(the, cheese ate, the, mouse)=0.01,p(the, cheese ate, the, mouse)=0.01

自回归语言模型(Autoregressive language models)

将一个句子的概率的表示成多个条件概率的相乘

二、信息理论、英语的熵、n-gram模型
2.1 信息熵:

信息熵也叫香侬熵,在物理上表示不确定性,熵越大,不确定性越高,包含的信息就越多。

2.2 交叉熵:

用来评估真实数据分布�p的样本的(语言)模型�q之间的差距

2.3 N-gram模型

在一个n-gram模型中,关于Xi​的预测只依赖于最后的 n−1 个字符 ,即Xi−(n−1):i−1​ ,而不是整个历史:

比如:n = 3

n 太小,那么模型将无法捕获长距离的依赖关系,

n太大,无法得到一个好的概率评估

三、大模型
3.1 强大的生成能力

在给定提示的情况下生成完成的文本: prompt -> task competion

3.2 具备一定的推理能力

目前开源的GPT3.5,4.0已经具备了一些逻辑推理能力,能够独立完成一些任务

3.3 风险

当然大模型还存在一些风险:

比如:

可靠性不能保证,可能输出的一段一本正经的乱说

可能生成社会偏见,或者带有侮辱等一些道德方面的文本

相关推荐
阿巴~阿巴~16 分钟前
NumPy数值分析:从基础到高效运算
人工智能·python·numpy
aneasystone本尊42 分钟前
LiteLLM 快速入门
人工智能
大模型实验室Lab4AI1 小时前
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
人工智能·ocr·deepseek-ocr
中科米堆1 小时前
冲压钣金件案例 | 三维扫描3d偏差检测分析解决方案-CASAIM
人工智能·3d·3d全尺寸检测
IT_陈寒1 小时前
React性能优化实战:我用这5个技巧将组件渲染速度提升了70%
前端·人工智能·后端
集成显卡1 小时前
AI取名大师 | uni-app 微信小程序打包 v-bind、component 动态组件问题
人工智能·微信小程序·uni-app
小霖家的混江龙1 小时前
AI 为啥能回答你的问题?大模型 5 步工作流程,看完秒懂!
人工智能·llm
磊磊落落1 小时前
如何使用 Spec Kit 工具进行规范驱动开发?
人工智能
GoldenSpider.AI2 小时前
AI对话到视频的零编辑革命:NotebookLM与Lemon Slice的深度整合与未来洞察
人工智能·notebooklm·nanobanana·aivideo·lemon slice
草莓熊Lotso2 小时前
C++ STL set 系列完全指南:从底层原理、核心接口到实战场景
开发语言·c++·人工智能·经验分享·网络协议·算法·dubbo