【王树森搜素引擎技术】概要03:搜索引擎的评价指标

搜索引擎的评价指标

  • 北极星指标:用户规模,留存率。单个策略不容易提升规模的和留存
  • 中间指标:用户的点击等行为,反应搜索质量的好坏。做A/B测试,中间指标很容易显著
  • 人工体验评估:人工评估搜索体验,考察GSB,GCG等指标

用户规模

  • 日活用户数(DAU)
  • 搜索日活,推荐日活
  • 搜索渗透率 = Search DAU / DAU。搜索体验越好,用户越喜欢用搜索功能,则搜索渗透率越高
  • 提升搜索日活,搜索渗透率的方法:搜索的体验优化,可以提升搜索留存,从而提升搜索日活。产品设计的改动,从推荐等渠道向搜索导流,提升搜索渗透率,从而提升搜索日活

用户留存

  • APP的次七日留存
  • 常用的留存指标:次1留,次7留,次30留

中间指标:点击等行为

  • 文档点击率:搜索结果页上,文档被用户看到,算作曝光。文档点击率 = 总点击次数 / 总曝光数
  • 有点比(查询词点击率):搜索结果页上,用户点击任意一篇文档,则本次搜索算有点击。有点比 = 有点击的搜索次数 / 总搜索次数
  • 首屏有点比:点击发生在首屏,本次搜索算有点击。
  • 它们的关联很强,一个指标提升通常其他两个也会提升
  • 平均首点位置:一次搜索后,记录第一次点击发生的位置
  • 如果没有点击,或者首点位置大于阈值 x,则首点位置取 x。对所有搜索的首点位置取平均
  • 平均首点位置小,说明符合用户需求的文档排名靠前,用户体验好,和首屏有点比是一个道理
  • 三个中间指标和留存指标的关联性很强
  • 主动换词率:如果用户搜到需要的文档,通常不会换查询词
  • 一定时间间隔内,搜到的两个查询词相似:比如编辑距离小,则被认定为换词
  • 被动换词:比如用户点击搜索引擎给出的修改建议,说明效果好
  • 主动换词:原因是没有找到想要的结果,说明效果不好

交互指标

  • 用户点击文档进入详情页,可能会点赞,收藏,转发,关注,评论
  • 交互通常表明用户对文档非常感兴趣(强度大于点击),因此可以作为中间指标
  • 交互行为稀疏(每百次点击,只有10次点赞,2次收藏),单个交互率波动很大,而且在A/B测试中不容易显著
  • 取各种交互率的加权和作为总体交互指标,权重取决于交互率与留存的关联强弱

中间目标 -> 留存目标

  • 体验优化的策略往往会同时改善多种中间指标:有点比,首屏有点比,平均首点位置,主动换词率,交互指标
  • 单个体验优化的策略很难在短期内显著提升留存指标。(通常微弱上涨,不具有统计显著性)
  • 上述中间指标与留存有很强的关联,长期持续改善中间指标,留存指标会稳定上涨

人工体验评估

  • Side by Side 评估:随机搜一批搜索日治,取其中的搜索词,用户画像,场景。运行新旧两种策略,得到两个搜索结果页(文档列表)
  • 固定查询词,用户,场景,搜索结果的差异只来自于策略
  • 随机抽样搜索日志时,需要覆盖高频,中频,低频查询词
  • 对于一条查询词,人工评估两个列表,分别对应新就策略
  • 基于查询词,用户画像,搜索场景,判断卷左右两个列表谁更好
  • 盲评,即新就策略出现在左右的概率都是50%
  • 不是判断哪篇文档更好,而是判断哪个列表整体更好
  • 使用GSB作为评价指标:如果新策略更优,记作Good(G),如果持平记作Same(S),如果旧策略更优,记作Bad(B),例如评300条查询词,GSB为 50: 220: 30
  • 月度评估:每个月随机抽取一批搜索日志,每条搜索日志包含查询词 q,用户u,场景c,排名前k的文档 d 1 , ⋅ ⋅ ⋅ , d k d_1, ···, d_k d1,⋅⋅⋅,dk
  • 随机抽样搜索日志时,需要覆盖高频,中频,低频查询词
  • 文档数量 k 取决于平均下滑深度,比如 k = 20
  • 标注员评估每一篇文档,打分 s c o r e ( q . u , c , d i ) score(q. u, c, d_i) score(q.u,c,di),可以单独给相关性,内容质量,或时效性打分
  • 可以只打一个综合满意度分数
  • 用DCG评价每一次搜索的好坏
  • 对所有的搜索日志,取DCG的均值,作为月度评估的结果
    • 可以与自我对比,是否由于往期的DCG
    • 可以与竞对对比,是否优于竞对的DCG

总结

北极星指标:用户规模 & 留存

  • 用户规模:APP的总体DAU,搜索的DAU
  • 搜索渗透率:(搜索DAU/APP DAU)
  • 用户留存:次1留,次7留等。LT7, LT30。APP总体的留存,搜索自身的留存
  • 规模和留存指标未必适合评价单个策略:单个策略很显著提升规模和留存
  • 规模和留存指标需要很长时间才能显著
  • 规模和留存更适合作为大盘长期指标观察:评估整个团队的长期表现。长期优化搜索体验,规模和留存会稳步提升,反映在A/B测试的holdout桶上

中间指标:用户的点击等行为

  • 与规模与留存强关联。容易在A/B测试中显著

人工评估

  • Side by Side评价过于主观,评估标准未必与普通用户体验一致
  • 结果噪声大,稳定性不如A/B测试
  • 速度慢于A/B测试,影响开发迭代效率
  • 人工成本比较贵
  • 个性化比较难处理,仅凭用户画像难以判断用户真实需求
  • Side by Side 和月度评估的区别:目的不同,前者决策策略是否推全,后者判断搜索团队整体水平
  • 指标不同:前者是GSB, 后者是 DCG
  • 有无争议:前者争议较大,后者没有缺点和争议
相关推荐
Elastic 中国社区官方博客14 分钟前
Elasticsearch:Jira 连接器教程第二部分 - 6 个优化技巧
大数据·数据库·elasticsearch·搜索引擎·全文检索·kibana·jira
好心的小明1 小时前
【王树森搜索引擎技术】概要04:搜索引擎的链路(查询词处理、召回、排序)
搜索引擎
zfj32112 小时前
学英语学技术:Elasticsearch 线程池
大数据·elasticsearch·搜索引擎
好心的小明21 小时前
【王树森搜索引擎技术】概要01:搜索引擎的基本概念
搜索引擎
现行者1 天前
ES elasticsearch安装(8.17)
大数据·elasticsearch·搜索引擎
铭毅天下1 天前
Elasticsearch 如何实现按特定时间档次和相关度排序的定制查询?
大数据·elasticsearch·搜索引擎·全文检索
周盛欢1 天前
Elasticsearch 实战应用
大数据·elasticsearch·搜索引擎
飞的肖2 天前
【Elasticsearch】搜索类型介绍,以及使用SpringBoot实现,并展现给前端
大数据·elasticsearch·搜索引擎
forestsea2 天前
【Elasticsearch】全文搜索与相关性排序
大数据·elasticsearch·搜索引擎