【王树森搜素引擎技术】概要03：搜索引擎的评价指标

搜索引擎的评价指标

北极星指标：用户规模，留存率。单个策略不容易提升规模的和留存
中间指标：用户的点击等行为，反应搜索质量的好坏。做A/B测试，中间指标很容易显著
人工体验评估：人工评估搜索体验，考察GSB，GCG等指标

用户规模

日活用户数（DAU）
搜索日活，推荐日活
搜索渗透率 = Search DAU / DAU。搜索体验越好，用户越喜欢用搜索功能，则搜索渗透率越高
提升搜索日活，搜索渗透率的方法：搜索的体验优化，可以提升搜索留存，从而提升搜索日活。产品设计的改动，从推荐等渠道向搜索导流，提升搜索渗透率，从而提升搜索日活

用户留存

APP的次七日留存
常用的留存指标：次1留，次7留，次30留

中间指标：点击等行为

文档点击率：搜索结果页上，文档被用户看到，算作曝光。文档点击率 = 总点击次数 / 总曝光数
有点比（查询词点击率）：搜索结果页上，用户点击任意一篇文档，则本次搜索算有点击。有点比 = 有点击的搜索次数 / 总搜索次数
首屏有点比：点击发生在首屏，本次搜索算有点击。
它们的关联很强，一个指标提升通常其他两个也会提升
平均首点位置：一次搜索后，记录第一次点击发生的位置
如果没有点击，或者首点位置大于阈值 x，则首点位置取 x。对所有搜索的首点位置取平均
平均首点位置小，说明符合用户需求的文档排名靠前，用户体验好，和首屏有点比是一个道理
三个中间指标和留存指标的关联性很强
主动换词率：如果用户搜到需要的文档，通常不会换查询词
一定时间间隔内，搜到的两个查询词相似：比如编辑距离小，则被认定为换词
被动换词：比如用户点击搜索引擎给出的修改建议，说明效果好
主动换词：原因是没有找到想要的结果，说明效果不好

交互指标

用户点击文档进入详情页，可能会点赞，收藏，转发，关注，评论
交互通常表明用户对文档非常感兴趣（强度大于点击），因此可以作为中间指标
交互行为稀疏（每百次点击，只有10次点赞，2次收藏），单个交互率波动很大，而且在A/B测试中不容易显著
取各种交互率的加权和作为总体交互指标，权重取决于交互率与留存的关联强弱

中间目标 -> 留存目标

体验优化的策略往往会同时改善多种中间指标：有点比，首屏有点比，平均首点位置，主动换词率，交互指标
单个体验优化的策略很难在短期内显著提升留存指标。（通常微弱上涨，不具有统计显著性）
上述中间指标与留存有很强的关联，长期持续改善中间指标，留存指标会稳定上涨

人工体验评估

Side by Side 评估：随机搜一批搜索日治，取其中的搜索词，用户画像，场景。运行新旧两种策略，得到两个搜索结果页（文档列表）
固定查询词，用户，场景，搜索结果的差异只来自于策略
随机抽样搜索日志时，需要覆盖高频，中频，低频查询词
对于一条查询词，人工评估两个列表，分别对应新就策略
基于查询词，用户画像，搜索场景，判断卷左右两个列表谁更好
盲评，即新就策略出现在左右的概率都是50%
不是判断哪篇文档更好，而是判断哪个列表整体更好
使用GSB作为评价指标：如果新策略更优，记作Good(G)，如果持平记作Same(S)，如果旧策略更优，记作Bad(B)，例如评300条查询词，GSB为 50: 220: 30
月度评估：每个月随机抽取一批搜索日志，每条搜索日志包含查询词 q，用户u，场景c，排名前k的文档 d 1 , ⋅ ⋅ ⋅ , d k d_1, ···, d_k d1,⋅⋅⋅,dk
随机抽样搜索日志时，需要覆盖高频，中频，低频查询词
文档数量 k 取决于平均下滑深度，比如 k = 20
标注员评估每一篇文档，打分 s c o r e ( q . u , c , d i ) score(q. u, c, d_i) score(q.u,c,di)，可以单独给相关性，内容质量，或时效性打分
可以只打一个综合满意度分数
用DCG评价每一次搜索的好坏
对所有的搜索日志，取DCG的均值，作为月度评估的结果
- 可以与自我对比，是否由于往期的DCG
- 可以与竞对对比，是否优于竞对的DCG

总结

北极星指标：用户规模 & 留存

用户规模：APP的总体DAU，搜索的DAU
搜索渗透率：（搜索DAU/APP DAU）
用户留存：次1留，次7留等。LT7, LT30。APP总体的留存，搜索自身的留存
规模和留存指标未必适合评价单个策略：单个策略很显著提升规模和留存
规模和留存指标需要很长时间才能显著
规模和留存更适合作为大盘长期指标观察：评估整个团队的长期表现。长期优化搜索体验，规模和留存会稳步提升，反映在A/B测试的holdout桶上

中间指标：用户的点击等行为

与规模与留存强关联。容易在A/B测试中显著

人工评估

Side by Side评价过于主观，评估标准未必与普通用户体验一致
结果噪声大，稳定性不如A/B测试
速度慢于A/B测试，影响开发迭代效率
人工成本比较贵
个性化比较难处理，仅凭用户画像难以判断用户真实需求
Side by Side 和月度评估的区别：目的不同，前者决策策略是否推全，后者判断搜索团队整体水平
指标不同：前者是GSB，后者是 DCG
有无争议：前者争议较大，后者没有缺点和争议