搜索引擎的评价指标
- 北极星指标:用户规模,留存率。单个策略不容易提升规模的和留存
- 中间指标:用户的点击等行为,反应搜索质量的好坏。做A/B测试,中间指标很容易显著
- 人工体验评估:人工评估搜索体验,考察GSB,GCG等指标
用户规模
- 日活用户数(DAU)
- 搜索日活,推荐日活
- 搜索渗透率 = Search DAU / DAU。搜索体验越好,用户越喜欢用搜索功能,则搜索渗透率越高
- 提升搜索日活,搜索渗透率的方法:搜索的体验优化,可以提升搜索留存,从而提升搜索日活。产品设计的改动,从推荐等渠道向搜索导流,提升搜索渗透率,从而提升搜索日活
用户留存
- APP的次七日留存
- 常用的留存指标:次1留,次7留,次30留
中间指标:点击等行为
- 文档点击率:搜索结果页上,文档被用户看到,算作曝光。文档点击率 = 总点击次数 / 总曝光数
- 有点比(查询词点击率):搜索结果页上,用户点击任意一篇文档,则本次搜索算有点击。有点比 = 有点击的搜索次数 / 总搜索次数
- 首屏有点比:点击发生在首屏,本次搜索算有点击。
- 它们的关联很强,一个指标提升通常其他两个也会提升
- 平均首点位置:一次搜索后,记录第一次点击发生的位置
- 如果没有点击,或者首点位置大于阈值 x,则首点位置取 x。对所有搜索的首点位置取平均
- 平均首点位置小,说明符合用户需求的文档排名靠前,用户体验好,和首屏有点比是一个道理
- 三个中间指标和留存指标的关联性很强
- 主动换词率:如果用户搜到需要的文档,通常不会换查询词
- 一定时间间隔内,搜到的两个查询词相似:比如编辑距离小,则被认定为换词
- 被动换词:比如用户点击搜索引擎给出的修改建议,说明效果好
- 主动换词:原因是没有找到想要的结果,说明效果不好
交互指标
- 用户点击文档进入详情页,可能会点赞,收藏,转发,关注,评论
- 交互通常表明用户对文档非常感兴趣(强度大于点击),因此可以作为中间指标
- 交互行为稀疏(每百次点击,只有10次点赞,2次收藏),单个交互率波动很大,而且在A/B测试中不容易显著
- 取各种交互率的加权和作为总体交互指标,权重取决于交互率与留存的关联强弱
中间目标 -> 留存目标
- 体验优化的策略往往会同时改善多种中间指标:有点比,首屏有点比,平均首点位置,主动换词率,交互指标
- 单个体验优化的策略很难在短期内显著提升留存指标。(通常微弱上涨,不具有统计显著性)
- 上述中间指标与留存有很强的关联,长期持续改善中间指标,留存指标会稳定上涨
人工体验评估
- Side by Side 评估:随机搜一批搜索日治,取其中的搜索词,用户画像,场景。运行新旧两种策略,得到两个搜索结果页(文档列表)
- 固定查询词,用户,场景,搜索结果的差异只来自于策略
- 随机抽样搜索日志时,需要覆盖高频,中频,低频查询词
- 对于一条查询词,人工评估两个列表,分别对应新就策略
- 基于查询词,用户画像,搜索场景,判断卷左右两个列表谁更好
- 盲评,即新就策略出现在左右的概率都是50%
- 不是判断哪篇文档更好,而是判断哪个列表整体更好
- 使用GSB作为评价指标:如果新策略更优,记作Good(G),如果持平记作Same(S),如果旧策略更优,记作Bad(B),例如评300条查询词,GSB为 50: 220: 30
- 月度评估:每个月随机抽取一批搜索日志,每条搜索日志包含查询词 q,用户u,场景c,排名前k的文档 d 1 , ⋅ ⋅ ⋅ , d k d_1, ···, d_k d1,⋅⋅⋅,dk
- 随机抽样搜索日志时,需要覆盖高频,中频,低频查询词
- 文档数量 k 取决于平均下滑深度,比如 k = 20
- 标注员评估每一篇文档,打分 s c o r e ( q . u , c , d i ) score(q. u, c, d_i) score(q.u,c,di),可以单独给相关性,内容质量,或时效性打分
- 可以只打一个综合满意度分数
- 用DCG评价每一次搜索的好坏
- 对所有的搜索日志,取DCG的均值,作为月度评估的结果
- 可以与自我对比,是否由于往期的DCG
- 可以与竞对对比,是否优于竞对的DCG
总结
北极星指标:用户规模 & 留存
- 用户规模:APP的总体DAU,搜索的DAU
- 搜索渗透率:(搜索DAU/APP DAU)
- 用户留存:次1留,次7留等。LT7, LT30。APP总体的留存,搜索自身的留存
- 规模和留存指标未必适合评价单个策略:单个策略很显著提升规模和留存
- 规模和留存指标需要很长时间才能显著
- 规模和留存更适合作为大盘长期指标观察:评估整个团队的长期表现。长期优化搜索体验,规模和留存会稳步提升,反映在A/B测试的holdout桶上
中间指标:用户的点击等行为
- 与规模与留存强关联。容易在A/B测试中显著
人工评估
- Side by Side评价过于主观,评估标准未必与普通用户体验一致
- 结果噪声大,稳定性不如A/B测试
- 速度慢于A/B测试,影响开发迭代效率
- 人工成本比较贵
- 个性化比较难处理,仅凭用户画像难以判断用户真实需求
- Side by Side 和月度评估的区别:目的不同,前者决策策略是否推全,后者判断搜索团队整体水平
- 指标不同:前者是GSB, 后者是 DCG
- 有无争议:前者争议较大,后者没有缺点和争议