训练加速 - 训练加速技术,学习,经验文章

百度智能云技术站

2 年前

如何定量分析 Llama 3，大模型系统工程师视角的 Transformer 架构读完全文后，你将获得回答以下问题的能力（参考答案，请见最后一章节）：Llama 3 技术博客说 70B 模型、最长序列 8K、15T Tokens，训练了 640w GPU 时，这发挥了 H100 理论算力（989TFlops）的百分之多少?