通俗理解词向量模型,预训练模型,Transfomer,Bert和GPT的发展脉络和如何实践

最近研究GPT,深入的从transfomer的原理和代码看来一下,现在把学习的资料和自己的理解整理一下。

  • 这个文章写的很通俗易懂,把transformer的来龙去脉,还举例了很多不错的例子。

Transformer通俗笔记:从Word2Vec、Seq2Seq逐步理解到GPT、BERT_v_JULY_v的博客-CSDN博客

  • 有了原理还需要进行代码实践,这篇文章从0开始讲解了一个简易的Transformer版本和真实版本的代码注释,值得详细读一下。

从零实现Transformer的简易版与强大版:从300多行到3000多行_写transformer-CSDN博客

  • 另外,给大家推荐一下自己动手写代码实践一下,代码模块可以丢给文心一言,GPT4,这些写代码的能力相当的不错,甚至运行出了问题,直接把问题输入给它,还能自己改正。
相关推荐
冬奇Lab6 分钟前
RAG 系列(十七):Agentic RAG——让 Agent 主导检索过程
人工智能·llm·源码
结构化知识课堂34 分钟前
AI产品经理入门实战:如何理解计算机视觉?
人工智能·计算机视觉·产品经理·ai产品经理·ai产品设计
我没胡说八道35 分钟前
2026论文工具选购指南:降重、降AI率、排版一站式筛选
人工智能·经验分享·深度学习·考研·aigc·学习方法
初心未改HD38 分钟前
深度学习之MLP与反向传播算法详解
人工智能·深度学习·算法
刀法如飞40 分钟前
【Go 字符串查找的 20 种实现方式,用不同思路解决问题】
人工智能·算法·go
阿正的梦工坊1 小时前
ALiBi:让大语言模型“免训练“外推到更长序列的位置编码方法
人工智能·语言模型·自然语言处理
极客老王说Agent1 小时前
2026供应链革命:实在Agent货物智能入库智能助理使用方法与库位优化全指南
人工智能·ai
沪漂阿龙1 小时前
面试题:训练-蒸馏详解——知识蒸馏、Teacher-Student、强弱蒸馏、Qwen3 强到弱蒸馏流程全解析
人工智能·深度学习·机器学习
凌波粒1 小时前
什么是 MCP(模型上下文协议)
人工智能·网络协议·aigc