大模型基座 - 大模型基座技术,学习,经验文章

TGITCIC

1 年前

英伟达破局1000 Token/秒！Llama 4以光速重塑AI推理边界当用户还在惊叹AI生成文字的速度时，英伟达已用一场“秒速千token”的技术突破，将行业推向新维度。Llama 4 Maverick模型在单节点（8颗Blackwell GPU）上实现每秒1000 token的生成速度，这一数字不仅超越了前代Blackwell的基线表现，更让单台服务器（72颗GPU）的吞吐量飙升至72,000 TPS。这个速度意味着，若将每秒1000 token换算为文字，相当于每秒输出约200字——足够在1分钟内生成《蒙娜丽莎》全篇描述，或是实时处理数百个用户的对话请求。