李宏毅gpt个人记录

参考:

李宏毅机器学习--self-supervised:BERT、GPT、Auto-encoder-CSDN博客

用无标注资料的任务训练完模型以后,它本身没有什么用,GPT 1只能够把一句话补完 ,可以把 Self-Supervised Learning 的 Model做微微的调整,把它用在其他下游的任务裡面,对于下游任务的训练,仍然需要少量的标记数据

GPT1基本实现

例如有条训练语句是"台湾大学",那么输入BOS后训练输出是台,再将BOS和"台"作为输入训练输出是湾,给它BOS "台"和"湾",然后它应该要预测"大",以此类推。模型输出embedding h,h再经过linear classification和softmax后,计算输出分布与正确答案之间的损失cross entropy,希望它越小越好。

详细计算过程:

GPT1和GPT2

GPT1里主要用的是transformer中的decoder层。

GPT-2依然沿用GPT单向transformer的模式,只不过做了一些改进与改变:

  1. GPT-2去掉了fine-tuning层
  2. 增加数据集和参数
  3. 调整transformer

|-------|-------|
| 模型 | 参数量 |
| ELMO | 94M |
| BERT | 340M |
| GPT-2 | 1542M |

相关推荐
冬奇Lab3 小时前
每日一个开源项目(第140篇):AgentScope 2.0 - 阿里开源的生产级 Agent 框架
人工智能·开源·agent
冬奇Lab3 小时前
Skill 系列(04):Skill 指标体系——L1/L2/L3 三层监控,让质量下降有据可查
人工智能·开源·llm
IT_陈寒4 小时前
Vite的静态资源打包让我熬夜到三点,这坑千万别跳
前端·人工智能·后端
玩转AI不是事5 小时前
用IndexedDB做AI对话离线缓存实战
人工智能
Asize6 小时前
多模态生图:从 Vite 工程化到前端调用 Qwen Image
javascript·人工智能·后端
MobotStone6 小时前
AI项目越多,为什么越容易失控
人工智能·aigc
十有八七6 小时前
AI时代的置身X内
前端·人工智能
Lkstar6 小时前
A2A协议深度解析|Agent2Agent通信标准,智能体互联网的"HTTP"
人工智能·llm
百度Geek说6 小时前
当代码越来越便宜,什么在变贵?
人工智能
橘子星6 小时前
LLM 无状态架构实践:从原理到代码落地
前端·javascript·人工智能