第二本书出版了:《Transformer技术纵深:架构解析与前沿突破》
目录
- 第二本书出版了:《Transformer技术纵深:架构解析与前沿突破》
- 购买链接
- [0x01 由来](#0x01 由来)
- [0x02 收获](#0x02 收获)
- [0x03 感谢](#0x03 感谢)
- [0x04 遗憾](#0x04 遗憾)
- [0x05 打广告](#0x05 打广告)
我的第二本书终于顺利出版了。这次是和清华大学出版社合作,本书的策划编辑是黄爱萍,正是因为她专业又用心的全程打磨,才让这本书得以圆满落地。黄编辑的极致耐心与细致严谨,不仅让书稿的打磨过程高效顺畅,更让我在创作中收获良多、受益匪浅。
若哪位朋友有出书的计划,我极其推荐对接黄爱萍编辑,靠谱专业的她,会是书稿创作与出版路上的优质助力。
购买链接
接下来是一些碎碎念。
0x01 由来
为何会写这本书?主要是有两个方面的原因:
- 一方面,在日常交流中,我经常会遇到从非人工智能领域跨界而来,希望投身于 AI行业的朋友,他们希望在较短时间内建立对 Transformer 的系统认知,而非零散地获取碎片化知识。
- 另一方面,我的团队曾经将核心精力投入端侧 AI 的研发工作,团队里汇聚了不少深耕 Android 开发的专家------为了帮助这些精通移动端技术却对 AI 相对陌生的同事快速理解相关技术原理,搭建起 AI 知识框架,我迫切需要整理一套条理清晰、由浅入深的学习材料。
带着这样的需求,在前几年,我曾尝试在网络上搜寻合适的资源,结果发现,当时的内容要么过于零散,缺乏体系;要么过于艰深,对初学者不够友好,始终未能找到完全契合需求的学习资料。也正因如此,我萌生了撰写这个系列文章的想法:希望能从零起步,一步步拆解 Transformer 的技术细节,既解答"它如何工作"的问题,又阐明"它为何要这样设计"的底层逻辑,让刚入门的朋友能轻松开启 Transformer 的学习之旅;同时,我也计划在内容中融入近年涌现的特色论文观点与前沿理念,使有 AI 基础的从业者也能从中接触到新视角、获得新启发。
0x02 收获
在后续整理、扩充并完善这个系列的过程中,意外的收获也随之而来:我不仅修正了自己此前对 Transformer 某些技术点的模糊认知与偏差理解,更在反复梳理与深化思考的过程中,完成了一次自我知识体系的迭代与提升。可以说,这个系列不仅是一份面向读者的 Transformer 技术解析,更是我个人在 AI 领域持续学习、不断成长的真实记录。如今将其系统化梳理为书籍,亦是希望这份学习心得,能为更多同行者提供助力。
此外,本书部分内容包含个人在学习过程中的梳理与思考,其中不乏基于现有技术原理进行的反向推导或合理猜测。这些内容可能与各个原始论文作者的初始设计思路,或者技术发展的实际历史脉络存在差异。做出这样的呈现,核心目的在于通过更贴近直观认知的推导方式,为读者提供易于理解的技术解释------当某种推导路径能更清晰地展现技术原理的合理性时,我们便选择以此种方式展开讲解。当然,若这些个人解读存在偏差,还恳请各位读者不吝指出,共同完善对 Transformer技术的准确认知。
0x03 感谢
首先,在此书(包括博客)的写作过程之中,我参考了大量的论文,博客和视频。在此,对这些作者再次表示深深的感谢。经常阅读我博客的朋友应该知道,我在每篇文章之后都会详尽列出参考链接。但是,因为篇幅所限,我只能把这些参考链接提供给出版社,由出版社用网页方式呈现。还请大家理解。
其次,感谢唐敏老师、聂兰顺老师,以及李昭福和张怡能两位专家在百忙之中为本书写推荐语,谢谢你们的鼓励和支持。
最后,特别感谢我的家人,因为写博客和整理书稿,我牺牲了大量本应该陪伴家人的时间,谢谢家人对我的支持和包容。
0x04 遗憾
关于本书,还有不少遗憾,比如:
-
限于篇幅,本书未能详尽展开的内容还有不少。我的相关博客内容在80万字左右,最终定稿为不到40万字。
-
为了控制定价,让更多读者可以购买,我只能尽力把图都弄成黑白的,也尽量精简冗余配图和图片内容。编辑则尽量从排版上努力,尽力压缩图片尺寸。因此导致本书的图偏小,可能会影响阅读体验。我会在公众号里面把相关高清图都贴出来。
0x05 打广告
再给前一本书《分布式机器学习------系统、工程与实战》(ISBN:978-7-121-45814-9)打个广告,_。
这本书主要讲解分布式机器学习算法和开源框架,读者既可以从宏观的设计上了解分布式机器学习的概念和理论,也可以深入核心技术的细节设计中,对分布式机器学习形成深刻而直观的认识,做到学以致用。
台湾地区的朋友可以考虑购买繁体版。