第二本书出版了：《Transformer技术纵深：架构解析与前沿突破》

第二本书出版了：《Transformer技术纵深：架构解析与前沿突破》
- 购买链接
- [0x01 由来](#0x01 由来)
- [0x02 收获](#0x02 收获)
- [0x03 感谢](#0x03 感谢)
- [0x04 遗憾](#0x04 遗憾)
- [0x05 打广告](#0x05 打广告)

我的第二本书终于顺利出版了。这次是和清华大学出版社合作，本书的策划编辑是黄爱萍，正是因为她专业又用心的全程打磨，才让这本书得以圆满落地。黄编辑的极致耐心与细致严谨，不仅让书稿的打磨过程高效顺畅，更让我在创作中收获良多、受益匪浅。

若哪位朋友有出书的计划，我极其推荐对接黄爱萍编辑，靠谱专业的她，会是书稿创作与出版路上的优质助力。

购买链接

接下来是一些碎碎念。

0x01 由来

为何会写这本书？主要是有两个方面的原因：

一方面，在日常交流中，我经常会遇到从非人工智能领域跨界而来，希望投身于 AI行业的朋友，他们希望在较短时间内建立对 Transformer 的系统认知，而非零散地获取碎片化知识。
另一方面，我的团队曾经将核心精力投入端侧 AI 的研发工作，团队里汇聚了不少深耕 Android 开发的专家------为了帮助这些精通移动端技术却对 AI 相对陌生的同事快速理解相关技术原理，搭建起 AI 知识框架，我迫切需要整理一套条理清晰、由浅入深的学习材料。

带着这样的需求，在前几年，我曾尝试在网络上搜寻合适的资源，结果发现，当时的内容要么过于零散，缺乏体系；要么过于艰深，对初学者不够友好，始终未能找到完全契合需求的学习资料。也正因如此，我萌生了撰写这个系列文章的想法：希望能从零起步，一步步拆解 Transformer 的技术细节，既解答"它如何工作"的问题，又阐明"它为何要这样设计"的底层逻辑，让刚入门的朋友能轻松开启 Transformer 的学习之旅；同时，我也计划在内容中融入近年涌现的特色论文观点与前沿理念，使有 AI 基础的从业者也能从中接触到新视角、获得新启发。

0x02 收获

在后续整理、扩充并完善这个系列的过程中，意外的收获也随之而来：我不仅修正了自己此前对 Transformer 某些技术点的模糊认知与偏差理解，更在反复梳理与深化思考的过程中，完成了一次自我知识体系的迭代与提升。可以说，这个系列不仅是一份面向读者的 Transformer 技术解析，更是我个人在 AI 领域持续学习、不断成长的真实记录。如今将其系统化梳理为书籍，亦是希望这份学习心得，能为更多同行者提供助力。

此外，本书部分内容包含个人在学习过程中的梳理与思考，其中不乏基于现有技术原理进行的反向推导或合理猜测。这些内容可能与各个原始论文作者的初始设计思路，或者技术发展的实际历史脉络存在差异。做出这样的呈现，核心目的在于通过更贴近直观认知的推导方式，为读者提供易于理解的技术解释------当某种推导路径能更清晰地展现技术原理的合理性时，我们便选择以此种方式展开讲解。当然，若这些个人解读存在偏差，还恳请各位读者不吝指出，共同完善对 Transformer技术的准确认知。

0x03 感谢

首先，在此书（包括博客）的写作过程之中，我参考了大量的论文，博客和视频。在此，对这些作者再次表示深深的感谢。经常阅读我博客的朋友应该知道，我在每篇文章之后都会详尽列出参考链接。但是，因为篇幅所限，我只能把这些参考链接提供给出版社，由出版社用网页方式呈现。还请大家理解。

其次，感谢唐敏老师、聂兰顺老师，以及李昭福和张怡能两位专家在百忙之中为本书写推荐语，谢谢你们的鼓励和支持。

最后，特别感谢我的家人，因为写博客和整理书稿，我牺牲了大量本应该陪伴家人的时间，谢谢家人对我的支持和包容。

0x04 遗憾

关于本书，还有不少遗憾，比如：

限于篇幅，本书未能详尽展开的内容还有不少。我的相关博客内容在80万字左右，最终定稿为不到40万字。
为了控制定价，让更多读者可以购买，我只能尽力把图都弄成黑白的，也尽量精简冗余配图和图片内容。编辑则尽量从排版上努力，尽力压缩图片尺寸。因此导致本书的图偏小，可能会影响阅读体验。我会在公众号里面把相关高清图都贴出来。

0x05 打广告

再给前一本书《分布式机器学习------系统、工程与实战》（ISBN：978-7-121-45814-9）打个广告，^_。

这本书主要讲解分布式机器学习算法和开源框架，读者既可以从宏观的设计上了解分布式机器学习的概念和理论，也可以深入核心技术的细节设计中，对分布式机器学习形成深刻而直观的认识，做到学以致用。

台湾地区的朋友可以考虑购买繁体版。