谷歌云 Dataproc 上使用 GPU 加速的 Apache Spark 工作负载实现更智能的零售数据分析

这篇文章最初发表在 NVIDIA 技术博客上。

零售商的供应链包括从供应商处采购原材料或成品；将其储存在仓库或配送中心；并将其运送至商店或顾客；管理销售。他们还收集、存储和分析数据，以优化供应链性能。

零售商有团队负责管理供应链的每个阶段，包括供应商管理、物流、库存管理、销售和数据分析。所有这些团队和流程协同工作，以确保在正确的时间以正确的价格向客户提供正确的产品。

通过收集、分析和解释来自各种来源的数据，如销售点（ POS ）系统、客户数据库和市场调查，对零售销售和运营做出明智的决策是很重要的。

大数据处理是零售分析的一个关键组成部分，因为它使零售商能够以低延迟处理和分析来自各种来源的大量数据。零售商可以获得对客户行为、市场趋势和运营效率的宝贵见解。

这篇文章概述了可以从 Spark 加速的 Apache GPU 工作负载中受益的零售应用程序。我们通过一个示例零售用例提供了详细的分步说明，说明如何在 Dataproc 上的 Spark 工作负载上开始使用 GPU 加速。该示例向您展示了如何加快零售商的数据处理管道。我们重点介绍了 Dataproc 的新 RAPIDS 加速器用户工具，这些工具可以帮助您设置应用程序调优，还可以深入了解 GPU 的运行细节。

要继续阅读本文，请访问 NVIDIA/spark-rapids-examples GitHub 存储库上的笔记本。

通过优化设置，您可以运行数据清理和处理代码，并将其与 CPU 对应代码进行比较。您还可以分析 profiling tool output results ，并根据各自的见解进一步调整作业。


Pipeline step	Data cleaning (CPU)	Data analysis (CPU)	Data cleaning (GPU)	Data analysis (GPU)
Dataproc cluster	Five nodes n1-standard-8	Five nodes n1-standard-8	Five node n1-standard-4 +2 T4 / worker	Five node n1-standard-2 +2 T4 / worker
Time taken (secs)	239	178	123	48
Cost ($)	0.34	0.27
Yearly cost	$2,978	$2,365
Yearly cost saving/workload		$613 (Assuming job runs hourly)
Cost savings %		20%
Speed-up		2.45x

表 1 。零售渠道 GPU Dataproc 上的加速和成本节约计算

首先，该管道仅在带有 CPU 的 Dataproc 集群上运行。然后，它在使用 T4 GPU s 启用的 Dataproc 集群的不同配置上运行。

表 1 显示，在 GPU 集群上运行管道的速度是等效的 CPU 集群的 2.45 倍，在迁移到 GPU 集群时可节省 20% 的成本。

接下来的步骤

将作业从 CPU 集群移动到 GPU 集群可能有不同的动机，例如提高性能、节省成本、满足 SLA 要求，或解决长期运行作业的任何资源争用问题。

此示例场景探讨了如何通过相应地配置集群大小来节省数据处理成本。您可以尝试 GPU 和虚拟机的不同组合来实现您的目标。

如果您希望加快数据处理、机器学习模型训练和推理，请加入我们的 GTC 2023 ，参加我们即将举行的 Accelerate Spark with RAPIDS For Cost Savings 会议，在会上我们讨论了显示利用 GPU 进行 Spark ETL 处理的性能和成本效益的基准。

阅读原文