火山引擎VeDI:A/B实验如何应用在APP推荐系统中?

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

在移动互联网飞速发展的时代,用户规模和网络信息量呈现出爆炸式增长,信息过载加大了用户选择的难度,这样的背景下,推荐系统应运而生,为用户提供个性化的内容推荐。推荐系统在不断迭代中,其算法、策略、特征、功能和用户界面时常得到更新和优化,其中推荐算法的调整尤为关键。然而,由于深度学习模型的广泛应用,推荐算法调整后的用户体验和效果难以通过经验直接判断。

为了更准确地评估和优化推荐系统,A/B实验成为了一个不可或缺的工具。A/B实验能够量化各项指标的变化,从而对推荐系统的效果进行科学评估,并为后续的优化提供数据支持。本文将以火山引擎数智平台VeDI旗下的A/B测试平台(DataTester)为例,介绍字节跳动如何使用其能力,持续实现推荐系统的精准优化。

推荐系统的本质是连接内容和用户,它构成了 <内容,推荐系统,用户> 的三元组,A/B实验也围绕此三元组展开。下方介绍了推荐系统三元组中,最常使用A/B测试的场景集合,企业可对应到自己的推荐系统中作为参考。

在字节跳动的推荐系统实践中,A/B实验在内容侧可以进行内容池优化、内容打标优化、视频封面模型的优化;用户侧(指产品的用户应用方面)可以通过A/B实验实现功能优化、性能优化、UI改进等;而在推荐系统方面,可以使用A/B实验的维度更多,例如多路召回优化、粗排和精排模型迭代升级优化、模型多目标融合优化、重排多样性/兴趣探索优化、广告收入优化等等,可以说,在推荐系统中,万物皆可A/B实验。

需要指出的是,在进行推荐系统内容侧A/B实验时,例如信息流产品可能会做作者发布视频奖励、视频清晰度调整等,改变的是内容侧的属性,但业务中通常观察的是大盘用户侧的指标。在进行这类实验时,注意转化为用户侧实验并辅助观测内容侧指标来评估,权衡用户侧和内容侧的综合收益后再决策是否上线。以视频带货推荐为例,商家分润规则调整仅对实验用户生效,通过对比实验组与对照组的指标差异评估对大盘的影响的同时,可以创建并观察商家入驻率等内容侧指标的变化。在大盘收入指标不变、商家入驻率指标有提升,甚至大盘收入指标微跌、商家入驻率显著提升的情况下,都可以发布上线。

另一个注意点是,A/B实验上线后,业务会频繁地查看分析实验指标。有的实验在开启后前几天可能出现指标下跌,这种情况下不建议立即关闭实验,因为在实际实践中,遇到过很多起初指标下跌、后续慢慢回涨的情况,比如在一些信息流平台的内容的多样性策略实验中,当增强兴趣探索后,短期可能会因为探索而出现用户不感兴趣的内容变多,导致消费时长下跌;但从长期来看。探索到更多用户兴趣后,用户黏性更强,用户消费时长也会慢慢回涨,且更有益于平台生态。因此在面对实验开始指标下跌的情况,一般会建议继续实验至少一周以上,覆盖观察一个完整周后再进行评估会更加准确。

在查看指标时,企业可以多关注实验指标下钻分析结果,例如关注不同性别、不同年龄层用户的指标变化,有的产品也会关注不同活跃度用户、特别是新用户和低活用户的指标变化趋势,因为这类用户更决定了产品未来的增长。在DataTester中,可以借助用户属性过滤功能,查看指标的下钻分析数据。

火山引擎DataTester作为火山引擎数智平台VeDI旗下的核心产品,源于字节跳动长期的技术和业务沉淀。目前,DataTester已经服务了包括美的、华泰证券、博西家电、乐刻健身等知名品牌在内的上百家企业。这些企业通过不断进行的A/B测试和优化迭代,提升产品与服务质量,从而实现业务持续的优化和增长。

点击跳转火山引擎A/B测试了解更多

相关推荐
一 乐16 小时前
婚纱摄影网站|基于ssm + vue婚纱摄影网站系统(源码+数据库+文档)
前端·javascript·数据库·vue.js·spring boot·后端
1.14(java)18 小时前
SQL数据库操作:从CRUD到高级查询
数据库
智能相对论18 小时前
CES深度观察丨智能清洁的四大关键词:变形、出户、体验以及生态协同
大数据·人工智能
Full Stack Developme18 小时前
数据库索引的原理及类型和应用场景
数据库
焦耳热科技前沿19 小时前
北京科技大学/理化所ACS Nano:混合价态Cu₂Sb金属间化合物实现高效尿素电合成
大数据·人工智能·自动化·能源·材料工程
IDC02_FEIYA20 小时前
SQL Server 2025数据库安装图文教程(附SQL Server2025数据库下载安装包)
数据库·windows
辞砚技术录20 小时前
MySQL面试题——联合索引
数据库·面试
min18112345620 小时前
深度伪造内容的检测与溯源技术
大数据·网络·人工智能
萧曵 丶21 小时前
MySQL 主键不推荐使用 UUID 的深层原因
数据库·mysql·索引
武子康21 小时前
大数据-209 深度理解逻辑回归(Logistic Regression)与梯度下降优化算法
大数据·后端·机器学习