火山引擎VeDI：A/B实验如何应用在APP推荐系统中？

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

在移动互联网飞速发展的时代，用户规模和网络信息量呈现出爆炸式增长，信息过载加大了用户选择的难度，这样的背景下，推荐系统应运而生，为用户提供个性化的内容推荐。推荐系统在不断迭代中，其算法、策略、特征、功能和用户界面时常得到更新和优化，其中推荐算法的调整尤为关键。然而，由于深度学习模型的广泛应用，推荐算法调整后的用户体验和效果难以通过经验直接判断。

为了更准确地评估和优化推荐系统，A/B实验成为了一个不可或缺的工具。A/B实验能够量化各项指标的变化，从而对推荐系统的效果进行科学评估，并为后续的优化提供数据支持。本文将以火山引擎数智平台VeDI旗下的A/B测试平台（DataTester）为例，介绍字节跳动如何使用其能力，持续实现推荐系统的精准优化。

推荐系统的本质是连接内容和用户，它构成了 <内容，推荐系统，用户> 的三元组，A/B实验也围绕此三元组展开。下方介绍了推荐系统三元组中，最常使用A/B测试的场景集合，企业可对应到自己的推荐系统中作为参考。

在字节跳动的推荐系统实践中，A/B实验在内容侧可以进行内容池优化、内容打标优化、视频封面模型的优化；用户侧（指产品的用户应用方面）可以通过A/B实验实现功能优化、性能优化、UI改进等；而在推荐系统方面，可以使用A/B实验的维度更多，例如多路召回优化、粗排和精排模型迭代升级优化、模型多目标融合优化、重排多样性/兴趣探索优化、广告收入优化等等，可以说，在推荐系统中，万物皆可A/B实验。

需要指出的是，在进行推荐系统内容侧A/B实验时，例如信息流产品可能会做作者发布视频奖励、视频清晰度调整等，改变的是内容侧的属性，但业务中通常观察的是大盘用户侧的指标。在进行这类实验时，注意转化为用户侧实验并辅助观测内容侧指标来评估，权衡用户侧和内容侧的综合收益后再决策是否上线。以视频带货推荐为例，商家分润规则调整仅对实验用户生效，通过对比实验组与对照组的指标差异评估对大盘的影响的同时，可以创建并观察商家入驻率等内容侧指标的变化。在大盘收入指标不变、商家入驻率指标有提升，甚至大盘收入指标微跌、商家入驻率显著提升的情况下，都可以发布上线。

另一个注意点是，A/B实验上线后，业务会频繁地查看分析实验指标。有的实验在开启后前几天可能出现指标下跌，这种情况下不建议立即关闭实验，因为在实际实践中，遇到过很多起初指标下跌、后续慢慢回涨的情况，比如在一些信息流平台的内容的多样性策略实验中，当增强兴趣探索后，短期可能会因为探索而出现用户不感兴趣的内容变多，导致消费时长下跌；但从长期来看。探索到更多用户兴趣后，用户黏性更强，用户消费时长也会慢慢回涨，且更有益于平台生态。因此在面对实验开始指标下跌的情况，一般会建议继续实验至少一周以上，覆盖观察一个完整周后再进行评估会更加准确。

在查看指标时，企业可以多关注实验指标下钻分析结果，例如关注不同性别、不同年龄层用户的指标变化，有的产品也会关注不同活跃度用户、特别是新用户和低活用户的指标变化趋势，因为这类用户更决定了产品未来的增长。在DataTester中，可以借助用户属性过滤功能，查看指标的下钻分析数据。

火山引擎DataTester作为火山引擎数智平台VeDI旗下的核心产品，源于字节跳动长期的技术和业务沉淀。目前，DataTester已经服务了包括美的、华泰证券、博西家电、乐刻健身等知名品牌在内的上百家企业。这些企业通过不断进行的A/B测试和优化迭代，提升产品与服务质量，从而实现业务持续的优化和增长。

点击跳转火山引擎A/B测试了解更多