立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务

作者：厦门立马耀网络科技有限公司大数据开发工程师陈宏毅

背景介绍

行业

蝉选是蝉妈妈出品的达人选品服务平台。蝉选秉持"陪伴达人赚到钱"的品牌使命，致力于洞悉达人变现需求和痛点，提供达人选高佣、稳变现、速响应的选品服务。

业务特征

个性化推荐：利用大数据和人工智能算法，根据用户的兴趣和行为提供定制化的产品推荐。
数据驱动：通过分析用户和市场趋势，优化推荐策略，提升用户满意度。
精准营销：帮助商家通过精准的用户画像进行有效的产品推广。
高效搜索：提供强大的搜索功能，帮助用户快速找到所需产品。

产品原有架构痛点

依赖传统搜索方案的向量检索进行相似商品推荐的痛点

性能瓶颈： 在处理高维向量时，性能可能不如专用的向量数据库。
存储效率： 高维向量的存储效率较低，占用较多磁盘空间。
复杂性： 需要额外配置和插件才能支持向量检索。
更新成本： 频繁更新向量数据可能导致索引重建，影响性能。
资源消耗： 内存和计算资源消耗较大，尤其在大规模数据集上。

Spark集群原架构的痛点

集群稳定性： 需要自行监控和维护集群，可能面临稳定性问题。
性能优化： 缺乏类似Fusion的加速技术，可能导致任务执行速度较慢。
运维负担： 需要手动管理集群，包括配置、监控和故障排除。
资源利用率： 资源分配不够灵活，可能导致资源浪费。
费用问题： 即使在空闲时也可能产生费用，导致成本增加。
复杂性： 需要配置和管理底层基础设施，增加了复杂性。

为了应对新的业务挑战，蝉妈妈选择与阿里云合作，利用其 Serverless Spark & Milvus，构建了符合业务场景和分析师习惯的工程解决方案。

为什么选择阿里云 Serverless Spark&Milvus

完善的周边服务： 提供全面的监控和告警功能，能够实时跟踪任务状态和性能，及时发现并解决问题。

托管弹性伸缩功能： 自动根据工作负载调整资源，减少手动干预。

集群稳定性： 由云服务商管理，提供高稳定性和可靠性。

弹性资源管理： 按需分配资源，避免资源浪费。

按需计费： 仅为实际使用的资源付费，降低成本。

快速启动： 无需预配置资源，能够快速启动和运行任务。

自动扩展： 根据工作负载自动调整资源，提升灵活性。

性能优化： Serverless Spark通过技术如Fusion加速任务执行，提高效率，降低成本；Milvus支持并保证超大规模向量检索的性能。

技术方案设计

架构图

业务场景介绍

在Serverless Spark中，通过周期性的离线任务，从StarRocks数据库中提取商品数据。这些数据包含商品的基本信息，如商品ID、名称、描述等。接着，使用Serverless Spark的计算能力，调用机器学习模型服务，将商品标题转换为向量表示。生成的向量数据与其他商品信息结合后，批量写入阿里云Milvus向量数据库。Milvus负责高效存储和管理这些向量数据，并支持快速相似性搜索。通过构建数据接口，Milvus中的数据可以对外提供查询服务，用户可以通过该接口输入一个商品或其特征，系统将返回相似商品的列表。这种架构支持大规模、低延迟的相似商品检索，适用于推荐系统、个性化营销等应用场景。

关键服务组件

Serverless Spark

EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。同时，它100%兼容开源 Spark 生态，能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark，企业可以更专注于数据处理分析和模型训练调优，提高工作效率。

向量检索服务 Milvus 版

阿里云向量检索服务Milvus版是一款云原生、全托管的向量检索引擎，100%兼容开源Milvus，支持自建Milvus集群无缝迁移上云。具备易⽤性、可⽤性、安全性、低成本与⽣态优势，能提供超大规模向量数据的相似性检索服务，广泛应用于多模态检索、RAG、大模型AI等场景。

迁移后的收益

Serverless Spark

性能：离线任务耗时减少40%，核心报表更早产出。
稳定性：任务稳定性显著提高，失败率降低 80%。
运维灵活性：根据业务需求自动调整扩充计算资源。
性价比：真正的按量付费，不使用时没有资源消耗；提供多种资源包选择，进一步降低成本。

Milvus

降本：与传统搜索方案相比，阿里云Milvus 实现向量检索的成本降低了 75%。
提效：作为专业级向量数据库，在处理高维向量时，检索性能显著提升。
业务支持：Milvus 能支持更大规模的数据读取和写入，覆盖了商品范围更广，查询响应速度更快。

后续期待

希望 Serverless Spark 能够全面兼容 Spark Launcher 这一便捷方式提交任务，支持任务无缝迁移至全托管环境。