通俗理解词向量模型,预训练模型,Transfomer,Bert和GPT的发展脉络和如何实践

最近研究GPT,深入的从transfomer的原理和代码看来一下,现在把学习的资料和自己的理解整理一下。

  • 这个文章写的很通俗易懂,把transformer的来龙去脉,还举例了很多不错的例子。

Transformer通俗笔记:从Word2Vec、Seq2Seq逐步理解到GPT、BERT_v_JULY_v的博客-CSDN博客

  • 有了原理还需要进行代码实践,这篇文章从0开始讲解了一个简易的Transformer版本和真实版本的代码注释,值得详细读一下。

从零实现Transformer的简易版与强大版:从300多行到3000多行_写transformer-CSDN博客

  • 另外,给大家推荐一下自己动手写代码实践一下,代码模块可以丢给文心一言,GPT4,这些写代码的能力相当的不错,甚至运行出了问题,直接把问题输入给它,还能自己改正。
相关推荐
试剂界的爱马仕30 分钟前
TCA 循环中间体如何改写肝损伤命运【AbMole】
大数据·人工智能·科技·机器学习·ai写作
研一计算机小白一枚37 分钟前
VRFF: Video Registration and FusionFramework 论文详解
人工智能·深度学习·计算机视觉
Leo.yuan1 小时前
数据湖是什么?数据湖和数据仓库的区别是什么?
大数据·运维·数据仓库·人工智能·信息可视化
仙人掌_lz1 小时前
如何打造一款金融推理工具Financial Reasoning Workflow:WebUI+Ollama+Fin-R1+MCP/RAG
人工智能·搜索引擎·ai·金融·llm·rag·mcp
MILI元宇宙1 小时前
纳米AI搜索与百度AI搜、豆包的核心差异解析
人工智能·百度
SpikeKing1 小时前
LLM - LlamaFactory 的大模型推理 踩坑记录
人工智能·llm·llamafactory
marteker1 小时前
年度峰会上,抖音依靠人工智能和搜索功能吸引广告主
人工智能·搜索引擎
飞哥数智坊2 小时前
AI编程实战:生成结果不合心意,1个简单思路帮你破解
人工智能·cursor
华清远见成都中心2 小时前
大语言模型(LLM)中的KV缓存压缩与动态稀疏注意力机制设计
人工智能·缓存·语言模型
hao_wujing2 小时前
基于梯度的中毒攻击
大数据·人工智能