李宏毅生成式AI课程笔记(持续更新

01 ChatGPT在做的事情


02 预训练(Pre-train)

ChatGPT

G-Generative

P-Pre-trained

T-Transformer

GPT3 ----> InstructGPT(经过预训练的GPT3)

生成式学习的两种策略

我们在使用ChatGPT的时候会注意到,网站上的回答几乎是一个字一个字给出来的,这里就是生成式学习的两种策略:

"逐个击破"(文字)与"一次到位"(影像)

三种结构数据:文本(由token构成)、影像(像素点)、语音(采样频率)

  • 中文的token -----> 字
  • 英文的token -----> word piece,如unbreakable ----> un break able

Finetuning 与 Prompting

Adapter,不修改模型本身参数,插入一个额外的模组


上图包括了几种Adapter:Bitfit、Houlsby、AdapterBias、Prefix-tuning、LoRA

思维链

Chain of Thought(COT) Prompting

思维链可以大大提高模型的准确率

上图是在要求大语言模型按步骤输出答案和直接要求其输出答案的准确率区别。

03 大模型+大资料

大模型的顿悟

在某个参数量之前,增加参数量不会提高模型的正确率,当提高参数规模到一定程度,会出现准确率突然变高的情况(如下图)

同理,也只有在参数量达到一定程度的时候,思维链和微调才能起作用,如下图:

模型是否知道自己在胡说八道,在参数量足够大的时候,模型才拥有这个能力,如下图:

模型与资料的平衡

足够大的时候,模型才拥有这个能力,如下图:

外链图片转存中...(img-MTYfwvWJ-1697377074486)

模型与资料的平衡

相关推荐
DS随心转小程序2 分钟前
AI导出鸭 从 Markdown 草稿到精品 Word 文档的无损之道
人工智能·word·豆包·deepseek·ai导出鸭
不凡的凡2 分钟前
移动端开发如何用好AI
人工智能
CS创新实验室3 分钟前
数据挖掘文献综述:2023-2026年英文论文研究进展
人工智能·数据挖掘
IT_陈寒3 分钟前
SpringBoot这个坑差点让我加班到天亮
前端·人工智能·后端
向上的车轮4 分钟前
从零搭建专家技能与工作流自动化:以“红蓝军售前方案专家智能体”为例
人工智能·工作流自动化·专家技能
weixin_446260854 分钟前
多轮评估中深度研究代理的过程级反馈
人工智能
段一凡-华北理工大学4 分钟前
工业领域的Hadoop架构学习~系列文章24:adoop工业应用总结与展望 - 技术路线图与最佳实践
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
Ricky_yyy7 分钟前
GLM架构深度解读:清华大模型的核心技术
人工智能·深度学习·glm
MemoriKu7 分钟前
Flutter 相册 APP 视频模态稳定化实战:从远端重构冲突到真机 Smoke Test
人工智能·python·flutter·机器学习·重构·音视频·新人首发
谷歌玩家10 分钟前
人工智能、机器学习、生成式AI、神经网络、Transformer 概念梳理
人工智能