【王树森搜素引擎技术】概要03:搜索引擎的评价指标

搜索引擎的评价指标

  • 北极星指标:用户规模,留存率。单个策略不容易提升规模的和留存
  • 中间指标:用户的点击等行为,反应搜索质量的好坏。做A/B测试,中间指标很容易显著
  • 人工体验评估:人工评估搜索体验,考察GSB,GCG等指标

用户规模

  • 日活用户数(DAU)
  • 搜索日活,推荐日活
  • 搜索渗透率 = Search DAU / DAU。搜索体验越好,用户越喜欢用搜索功能,则搜索渗透率越高
  • 提升搜索日活,搜索渗透率的方法:搜索的体验优化,可以提升搜索留存,从而提升搜索日活。产品设计的改动,从推荐等渠道向搜索导流,提升搜索渗透率,从而提升搜索日活

用户留存

  • APP的次七日留存
  • 常用的留存指标:次1留,次7留,次30留

中间指标:点击等行为

  • 文档点击率:搜索结果页上,文档被用户看到,算作曝光。文档点击率 = 总点击次数 / 总曝光数
  • 有点比(查询词点击率):搜索结果页上,用户点击任意一篇文档,则本次搜索算有点击。有点比 = 有点击的搜索次数 / 总搜索次数
  • 首屏有点比:点击发生在首屏,本次搜索算有点击。
  • 它们的关联很强,一个指标提升通常其他两个也会提升
  • 平均首点位置:一次搜索后,记录第一次点击发生的位置
  • 如果没有点击,或者首点位置大于阈值 x,则首点位置取 x。对所有搜索的首点位置取平均
  • 平均首点位置小,说明符合用户需求的文档排名靠前,用户体验好,和首屏有点比是一个道理
  • 三个中间指标和留存指标的关联性很强
  • 主动换词率:如果用户搜到需要的文档,通常不会换查询词
  • 一定时间间隔内,搜到的两个查询词相似:比如编辑距离小,则被认定为换词
  • 被动换词:比如用户点击搜索引擎给出的修改建议,说明效果好
  • 主动换词:原因是没有找到想要的结果,说明效果不好

交互指标

  • 用户点击文档进入详情页,可能会点赞,收藏,转发,关注,评论
  • 交互通常表明用户对文档非常感兴趣(强度大于点击),因此可以作为中间指标
  • 交互行为稀疏(每百次点击,只有10次点赞,2次收藏),单个交互率波动很大,而且在A/B测试中不容易显著
  • 取各种交互率的加权和作为总体交互指标,权重取决于交互率与留存的关联强弱

中间目标 -> 留存目标

  • 体验优化的策略往往会同时改善多种中间指标:有点比,首屏有点比,平均首点位置,主动换词率,交互指标
  • 单个体验优化的策略很难在短期内显著提升留存指标。(通常微弱上涨,不具有统计显著性)
  • 上述中间指标与留存有很强的关联,长期持续改善中间指标,留存指标会稳定上涨

人工体验评估

  • Side by Side 评估:随机搜一批搜索日治,取其中的搜索词,用户画像,场景。运行新旧两种策略,得到两个搜索结果页(文档列表)
  • 固定查询词,用户,场景,搜索结果的差异只来自于策略
  • 随机抽样搜索日志时,需要覆盖高频,中频,低频查询词
  • 对于一条查询词,人工评估两个列表,分别对应新就策略
  • 基于查询词,用户画像,搜索场景,判断卷左右两个列表谁更好
  • 盲评,即新就策略出现在左右的概率都是50%
  • 不是判断哪篇文档更好,而是判断哪个列表整体更好
  • 使用GSB作为评价指标:如果新策略更优,记作Good(G),如果持平记作Same(S),如果旧策略更优,记作Bad(B),例如评300条查询词,GSB为 50: 220: 30
  • 月度评估:每个月随机抽取一批搜索日志,每条搜索日志包含查询词 q,用户u,场景c,排名前k的文档 d 1 , ⋅ ⋅ ⋅ , d k d_1, ···, d_k d1,⋅⋅⋅,dk
  • 随机抽样搜索日志时,需要覆盖高频,中频,低频查询词
  • 文档数量 k 取决于平均下滑深度,比如 k = 20
  • 标注员评估每一篇文档,打分 s c o r e ( q . u , c , d i ) score(q. u, c, d_i) score(q.u,c,di),可以单独给相关性,内容质量,或时效性打分
  • 可以只打一个综合满意度分数
  • 用DCG评价每一次搜索的好坏
  • 对所有的搜索日志,取DCG的均值,作为月度评估的结果
    • 可以与自我对比,是否由于往期的DCG
    • 可以与竞对对比,是否优于竞对的DCG

总结

北极星指标:用户规模 & 留存

  • 用户规模:APP的总体DAU,搜索的DAU
  • 搜索渗透率:(搜索DAU/APP DAU)
  • 用户留存:次1留,次7留等。LT7, LT30。APP总体的留存,搜索自身的留存
  • 规模和留存指标未必适合评价单个策略:单个策略很显著提升规模和留存
  • 规模和留存指标需要很长时间才能显著
  • 规模和留存更适合作为大盘长期指标观察:评估整个团队的长期表现。长期优化搜索体验,规模和留存会稳步提升,反映在A/B测试的holdout桶上

中间指标:用户的点击等行为

  • 与规模与留存强关联。容易在A/B测试中显著

人工评估

  • Side by Side评价过于主观,评估标准未必与普通用户体验一致
  • 结果噪声大,稳定性不如A/B测试
  • 速度慢于A/B测试,影响开发迭代效率
  • 人工成本比较贵
  • 个性化比较难处理,仅凭用户画像难以判断用户真实需求
  • Side by Side 和月度评估的区别:目的不同,前者决策策略是否推全,后者判断搜索团队整体水平
  • 指标不同:前者是GSB, 后者是 DCG
  • 有无争议:前者争议较大,后者没有缺点和争议
相关推荐
Keano Reurink1 天前
AI内容检测:用SERP对比识别搜索引擎眼中的“优质内容“
人工智能·搜索引擎·chatgpt
C-20022 天前
基于 JumpServer 容器化部署 ES 集群
大数据·elasticsearch·搜索引擎
一切皆是因缘际会2 天前
依托记忆结构心智体系,AI 自主意识进化路径
大数据·人工智能·安全·搜索引擎·ai
逸Y 仙X2 天前
文章一:深度掌握Elasticsearch集群组建和集群设置
大数据·elasticsearch·搜索引擎·全文检索
东北甜妹2 天前
日志分析 Elasticsearch 和 logstach.filebeat.
大数据·elasticsearch·搜索引擎
Keano Reurink2 天前
让AI Agent学会“查资料“:我搭了一套搜索引擎工具链
人工智能·搜索引擎
烤麻辣烫2 天前
计算机思维--经典互联网应用
开发语言·学习·搜索引擎·数据库开发
老陈头聊SEO3 天前
生成引擎优化(GEO)在内容创作中实现用户体验提升的新实践
其他·搜索引擎·seo优化
不是株3 天前
ElasticSearch
大数据·elasticsearch·搜索引擎
逸Y 仙X3 天前
文章三十四:ElasticSearch Script脚本实战
大数据·elasticsearch·搜索引擎·全文检索