李宏毅gpt个人记录

参考:

李宏毅机器学习--self-supervised:BERT、GPT、Auto-encoder-CSDN博客

用无标注资料的任务训练完模型以后,它本身没有什么用,GPT 1只能够把一句话补完 ,可以把 Self-Supervised Learning 的 Model做微微的调整,把它用在其他下游的任务裡面,对于下游任务的训练,仍然需要少量的标记数据

GPT1基本实现

例如有条训练语句是"台湾大学",那么输入BOS后训练输出是台,再将BOS和"台"作为输入训练输出是湾,给它BOS "台"和"湾",然后它应该要预测"大",以此类推。模型输出embedding h,h再经过linear classification和softmax后,计算输出分布与正确答案之间的损失cross entropy,希望它越小越好。

详细计算过程:

GPT1和GPT2

GPT1里主要用的是transformer中的decoder层。

GPT-2依然沿用GPT单向transformer的模式,只不过做了一些改进与改变:

  1. GPT-2去掉了fine-tuning层
  2. 增加数据集和参数
  3. 调整transformer

|-------|-------|
| 模型 | 参数量 |
| ELMO | 94M |
| BERT | 340M |
| GPT-2 | 1542M |

相关推荐
升鲜宝供应链及收银系统源代码服务1 分钟前
升鲜宝AI助手项目源码集成开发步骤(一)---升鲜宝生鲜配送供应链管理系统源代码服务
人工智能·生鲜配送系统·生鲜物流线路规划·生鲜电商订单系统·生鲜供应链系统·生鲜系统架构设计·生鲜配送ai功能集成
yjcode7895 分钟前
探索游戏充值新纪元:友价源码技术革新之旅
大数据·人工智能·游戏·游戏交易
冬奇Lab19 分钟前
Agent 系列(11):A2A 协议——Agent 与 Agent 如何协作
人工智能·agent
snow@li22 分钟前
AI:理解 大数据、算法、算力、电力、生成式AI、token 之间的关系
大数据·人工智能·算法
冬奇Lab23 分钟前
每日一个开源项目(第120篇):SkillLens - 微软出品,照亮 AI Agent 技能生命周期的“显微镜”
人工智能·开源·资讯
qingyulee29 分钟前
深度学习介绍、pytorch框架
人工智能·深度学习
oort12338 分钟前
VLStream:全开源决策式AI视频平台,赋能企业构建自主可控、降本增效的智能视觉应用介绍
大数据·开发语言·人工智能·开源·音视频·数据库架构
Agent_Sea39 分钟前
IDC/Omdia/Gartner AI平台排名可信度穿透判断:第三方数据该怎么读
人工智能·大模型·ai平台
视***间39 分钟前
算力筑基,智领人形机器人新时代 —— 英伟达 × 宇树科技携手推进具身智能,视程空间基于 NVIDIA 全栈算力产品助力机器人产业落地
人工智能·机器人·nvidia·机器狗·gpt-oss·视程空间·宇树机器人
EAIReport1 小时前
Spring AI 详解:Java 开发者快速落地 AI 应用
java·人工智能·spring