【首发】DGX Spark 三机互连跑 Qwen3-235B-A22B-FP8!

往期我们测试了1DGX Spark 运行 gps-oss-120b FP4 模型,近期我们的技术伙伴测试了3 台集群运行 Qwen3-235B-A22B-FP8 模型,现在来为大家带来第一手的实测性能分析。

实测视频

DGX Spark 三机互连跑 Qwen3-235B-FP8

上述视频中通过3 台 DGX Spark 互连形成环状网 ,已成功调用3台 DGX Spark 的算力,并且可以运行 Qwen3-235B-A22B-FP8 的模型。想要了解网络如何配置可私信,下面我们来看看实测数据。

测试数据(4k输入)

单用户的生成速度有8 tokens/s ,首字延迟在2s左右。

并发为2时,生成速度仍有 7.8 tokens/s ,首字延迟3.29s

此外 DGX Spark 单用户的 Prefill 能达到2000 token/s 。多用户 Prefill 最高可达 3450 token/s。可以看出 DGX Spark 的表现不错。

为什么 Prefill 那么重要?

  1. 用户体验: 在交互式应用中(如聊天机器人),Prefill 直接决定了用户从按下"发送"到看到第一个字开始出现的等待时间。这个"首字延迟"对用户体验至关重要。
  2. 处理长上下文能力: Prefill 的计算复杂度与输入序列长度的平方(在原始注意力机制下)成正比。因此当处理非常长的文档或对话历史时,Prefill 延迟会急剧增加成为系统瓶颈。优化 Prefill 性能是让模型用好长上下文的关键。
相关推荐
酷酷的崽79818 小时前
CANN 开源生态解析(四):`cann-dist-train` —— 构建高效可扩展的分布式训练引擎
分布式·开源
lili-felicity18 小时前
CANN异步推理实战:从Stream管理到流水线优化
大数据·人工智能
2501_9336707918 小时前
2026 高职大数据专业考什么证书对就业有帮助?
大数据
惊讶的猫18 小时前
AMQP 与 RabbitMQ 四大模型
分布式·rabbitmq
xiaobaibai15319 小时前
营销自动化终极形态:AdAgent 自主闭环工作流全解析
大数据·人工智能·自动化
星辰_mya19 小时前
Elasticsearch更新了分词器之后
大数据·elasticsearch·搜索引擎
xiaobaibai15319 小时前
决策引擎深度拆解:AdAgent 用 CoT+RL 实现营销自主化决策
大数据·人工智能
灰子学技术19 小时前
istio从0到1:如何解决分布式配置同步问题
分布式·云原生·istio
悟纤19 小时前
学习与专注音乐流派 (Study & Focus Music):AI 音乐创作终极指南 | Suno高级篇 | 第33篇
大数据·人工智能·深度学习·学习·suno·suno api
ESBK202519 小时前
第四届移动互联网、云计算与信息安全国际会议(MICCIS 2026)二轮征稿启动,诚邀全球学者共赴学术盛宴
大数据·网络·物联网·网络安全·云计算·密码学·信息与通信