技术栈

大模型基座

TGITCIC
3 天前
人工智能·大模型·llama·英伟达·大模型速度·ai赛道·大模型基座
英伟达破局1000 Token/秒!Llama 4以光速重塑AI推理边界当用户还在惊叹AI生成文字的速度时,英伟达已用一场“秒速千token”的技术突破,将行业推向新维度。Llama 4 Maverick模型在单节点(8颗Blackwell GPU)上实现每秒1000 token的生成速度,这一数字不仅超越了前代Blackwell的基线表现,更让单台服务器(72颗GPU)的吞吐量飙升至72,000 TPS。这个速度意味着,若将每秒1000 token换算为文字,相当于每秒输出约200字——足够在1分钟内生成《蒙娜丽莎》全篇描述,或是实时处理数百个用户的对话请求。