技术栈

训练加速

百度智能云技术站
10 个月前
transformer·llama·百度智能云·百度百舸·训练加速
如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构读完全文后,你将获得回答以下问题的能力(参考答案,请见最后一章节):Llama 3 技术博客说 70B 模型、最长序列 8K、15T Tokens,训练了 640w GPU 时,这发挥了 H100 理论算力(989TFlops)的百分之多少?