【首发】DGX Spark 三机互连跑 Qwen3-235B-A22B-FP8!

往期我们测试了1DGX Spark 运行 gps-oss-120b FP4 模型,近期我们的技术伙伴测试了3 台集群运行 Qwen3-235B-A22B-FP8 模型,现在来为大家带来第一手的实测性能分析。

实测视频

DGX Spark 三机互连跑 Qwen3-235B-FP8

上述视频中通过3 台 DGX Spark 互连形成环状网 ,已成功调用3台 DGX Spark 的算力,并且可以运行 Qwen3-235B-A22B-FP8 的模型。想要了解网络如何配置可私信,下面我们来看看实测数据。

测试数据(4k输入)

单用户的生成速度有8 tokens/s ,首字延迟在2s左右。

并发为2时,生成速度仍有 7.8 tokens/s ,首字延迟3.29s

此外 DGX Spark 单用户的 Prefill 能达到2000 token/s 。多用户 Prefill 最高可达 3450 token/s。可以看出 DGX Spark 的表现不错。

为什么 Prefill 那么重要?

  1. 用户体验: 在交互式应用中(如聊天机器人),Prefill 直接决定了用户从按下"发送"到看到第一个字开始出现的等待时间。这个"首字延迟"对用户体验至关重要。
  2. 处理长上下文能力: Prefill 的计算复杂度与输入序列长度的平方(在原始注意力机制下)成正比。因此当处理非常长的文档或对话历史时,Prefill 延迟会急剧增加成为系统瓶颈。优化 Prefill 性能是让模型用好长上下文的关键。
相关推荐
Mr数据杨16 小时前
飞船乘客状态预测与金融风控建模启发
大数据·机器学习·数据分析·kaggle
金融小师妹16 小时前
AI治理框架下的货币政策接续:鲍威尔理事留任机制与决策权迁移的系统博弈
大数据·人工智能·逻辑回归·能源
Fullde福德负载箱厂家16 小时前
负载箱的隐性成本与全周期经济性:用户应知的持有成本与价值管理
大数据·安全·制造
程序鉴定师16 小时前
深圳小程序制作哪家好?2026深度市场分析与选择指南?
大数据·小程序
逸Y 仙X16 小时前
文章十六:ElasticSearch 使用enrich策略实现大宽表
java·大数据·数据库·elasticsearch·搜索引擎·全文检索
jkyy201417 小时前
AI赋能智慧座舱:健康有益重构移动健康空间,定义出行健康新范式
大数据·人工智能·物联网·健康医疗
阿明观察17 小时前
破局·领航·赋能:解码国家云如何开辟Token经济新路径
大数据·人工智能
渣渣盟17 小时前
大数据技术栈全景图:从零到一的入门路线(深度实战版)
大数据·hadoop·python·flink·spark
杰建云16717 小时前
Plurai 分布式推理引擎深度评测
分布式
地球资源数据云17 小时前
1960年-2024年中国棉花产量数据集
大数据·数据结构·数据仓库·人工智能