【首发】DGX Spark 三机互连跑 Qwen3-235B-A22B-FP8!

往期我们测试了1DGX Spark 运行 gps-oss-120b FP4 模型,近期我们的技术伙伴测试了3 台集群运行 Qwen3-235B-A22B-FP8 模型,现在来为大家带来第一手的实测性能分析。

实测视频

DGX Spark 三机互连跑 Qwen3-235B-FP8

上述视频中通过3 台 DGX Spark 互连形成环状网 ,已成功调用3台 DGX Spark 的算力,并且可以运行 Qwen3-235B-A22B-FP8 的模型。想要了解网络如何配置可私信,下面我们来看看实测数据。

测试数据(4k输入)

单用户的生成速度有8 tokens/s ,首字延迟在2s左右。

并发为2时,生成速度仍有 7.8 tokens/s ,首字延迟3.29s

此外 DGX Spark 单用户的 Prefill 能达到2000 token/s 。多用户 Prefill 最高可达 3450 token/s。可以看出 DGX Spark 的表现不错。

为什么 Prefill 那么重要?

  1. 用户体验: 在交互式应用中(如聊天机器人),Prefill 直接决定了用户从按下"发送"到看到第一个字开始出现的等待时间。这个"首字延迟"对用户体验至关重要。
  2. 处理长上下文能力: Prefill 的计算复杂度与输入序列长度的平方(在原始注意力机制下)成正比。因此当处理非常长的文档或对话历史时,Prefill 延迟会急剧增加成为系统瓶颈。优化 Prefill 性能是让模型用好长上下文的关键。
相关推荐
Elastic 中国社区官方博客3 小时前
快速 vs. 准确:衡量量化向量搜索的召回率
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索
qq_381338504 小时前
【技术日报】2026-03-18 AI 领域重磅速递
大数据·人工智能
电商API&Tina7 小时前
【电商API接口】开发者一站式电商API接入说明
大数据·数据库·人工智能·云计算·json
zxsz_com_cn7 小时前
设备预测性维护方案设计方向,如何设计设备预测性维护方案
分布式
武子康10 小时前
大数据-253 离线数仓 - Airflow 入门与任务调度实战:DAG、Operator、Executor 部署排错指南
大数据·后端·apache hive
guoji778811 小时前
2026年Gemini 3 Pro vs 豆包2.0深度评测:海外顶流与国产黑马谁更强?
大数据·人工智能·架构
TDengine (老段)11 小时前
TDengine IDMP 组态面板 —— 工具箱
大数据·数据库·时序数据库·tdengine·涛思数据
网络工程小王11 小时前
【大数据技术详解】——Kibana(学习笔记)
大数据·笔记·学习
zxsz_com_cn13 小时前
设备预测性维护方案设计的关键要素
大数据·人工智能
唐天下闻化13 小时前
连锁数字化改造8成翻车?三维避坑实录
大数据