通俗理解词向量模型,预训练模型,Transfomer,Bert和GPT的发展脉络和如何实践

最近研究GPT,深入的从transfomer的原理和代码看来一下,现在把学习的资料和自己的理解整理一下。

  • 这个文章写的很通俗易懂,把transformer的来龙去脉,还举例了很多不错的例子。

Transformer通俗笔记:从Word2Vec、Seq2Seq逐步理解到GPT、BERT_v_JULY_v的博客-CSDN博客

  • 有了原理还需要进行代码实践,这篇文章从0开始讲解了一个简易的Transformer版本和真实版本的代码注释,值得详细读一下。

从零实现Transformer的简易版与强大版:从300多行到3000多行_写transformer-CSDN博客

  • 另外,给大家推荐一下自己动手写代码实践一下,代码模块可以丢给文心一言,GPT4,这些写代码的能力相当的不错,甚至运行出了问题,直接把问题输入给它,还能自己改正。
相关推荐
科技林总2 分钟前
自然语言处理任务分类
人工智能·自然语言处理
谈思汽车9 分钟前
当 AI 走进工厂与家庭:谁来保护AIoT 的“最后一米”?
人工智能·物联网·智能家居·健康医疗
IT_陈寒14 分钟前
React状态更新那点事儿,我掉坑里爬了半天
前端·人工智能·后端
Raink老师20 分钟前
【AI面试临阵磨枪】LLM 推理优化技术:量化、蒸馏、稀疏注意力、vLLM、TGI 核心思想。
人工智能·ai 面试
睡觉吧狗命最最最重要27 分钟前
java开发的最优转型路径
人工智能
_小雨林43 分钟前
(UPDATING)LLM微调之实战,SFTTrainer官方案例、LoRA/QloRA微调案例、Unsloth、分布式训练、LLaMA Factory
人工智能·深度学习
道可云43 分钟前
道可云人工智能&OPC每日资讯|全国首份人工智能开源生态共识在广州发布
人工智能·开源
Cosolar1 小时前
Agent Skills 深度解析:AI 编码代理的工程化生产级工作流引擎
人工智能·面试·开源
大模型真好玩1 小时前
LangChain DeepAgents 速通指南(七)—— DeepAgents使用Agent Skill
人工智能·langchain·deepseek