李宏毅gpt个人记录

参考:

李宏毅机器学习--self-supervised:BERT、GPT、Auto-encoder-CSDN博客

用无标注资料的任务训练完模型以后,它本身没有什么用,GPT 1只能够把一句话补完 ,可以把 Self-Supervised Learning 的 Model做微微的调整,把它用在其他下游的任务裡面,对于下游任务的训练,仍然需要少量的标记数据

GPT1基本实现

例如有条训练语句是"台湾大学",那么输入BOS后训练输出是台,再将BOS和"台"作为输入训练输出是湾,给它BOS "台"和"湾",然后它应该要预测"大",以此类推。模型输出embedding h,h再经过linear classification和softmax后,计算输出分布与正确答案之间的损失cross entropy,希望它越小越好。

详细计算过程:

GPT1和GPT2

GPT1里主要用的是transformer中的decoder层。

GPT-2依然沿用GPT单向transformer的模式,只不过做了一些改进与改变:

  1. GPT-2去掉了fine-tuning层
  2. 增加数据集和参数
  3. 调整transformer

|-------|-------|
| 模型 | 参数量 |
| ELMO | 94M |
| BERT | 340M |
| GPT-2 | 1542M |

相关推荐
空中湖11 分钟前
tensorflow武林志第二卷第九章:玄功九转
人工智能·python·tensorflow
lishaoan7717 分钟前
使用tensorflow的线性回归的例子(七)
人工智能·tensorflow·线性回归
千宇宙航3 小时前
闲庭信步使用SV搭建图像测试平台:第三十一课——基于神经网络的手写数字识别
图像处理·人工智能·深度学习·神经网络·计算机视觉·fpga开发
onceco4 小时前
领域LLM九讲——第5讲 为什么选择OpenManus而不是QwenAgent(附LLM免费api邀请码)
人工智能·python·深度学习·语言模型·自然语言处理·自动化
jndingxin6 小时前
OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值
人工智能·opencv·计算机视觉
Sweet锦7 小时前
零基础保姆级本地化部署文心大模型4.5开源系列
人工智能·语言模型·文心一言
hie988948 小时前
MATLAB锂离子电池伪二维(P2D)模型实现
人工智能·算法·matlab
晨同学03278 小时前
opencv的颜色通道问题 & rgb & bgr
人工智能·opencv·计算机视觉
蓝婷儿8 小时前
Python 机器学习核心入门与实战进阶 Day 3 - 决策树 & 随机森林模型实战
人工智能·python·机器学习
大千AI助手8 小时前
PageRank:互联网的马尔可夫链平衡态
人工智能·机器学习·贝叶斯·mc·pagerank·条件概率·马尔科夫链