【王树森搜素引擎技术】概要03:搜索引擎的评价指标

搜索引擎的评价指标

  • 北极星指标:用户规模,留存率。单个策略不容易提升规模的和留存
  • 中间指标:用户的点击等行为,反应搜索质量的好坏。做A/B测试,中间指标很容易显著
  • 人工体验评估:人工评估搜索体验,考察GSB,GCG等指标

用户规模

  • 日活用户数(DAU)
  • 搜索日活,推荐日活
  • 搜索渗透率 = Search DAU / DAU。搜索体验越好,用户越喜欢用搜索功能,则搜索渗透率越高
  • 提升搜索日活,搜索渗透率的方法:搜索的体验优化,可以提升搜索留存,从而提升搜索日活。产品设计的改动,从推荐等渠道向搜索导流,提升搜索渗透率,从而提升搜索日活

用户留存

  • APP的次七日留存
  • 常用的留存指标:次1留,次7留,次30留

中间指标:点击等行为

  • 文档点击率:搜索结果页上,文档被用户看到,算作曝光。文档点击率 = 总点击次数 / 总曝光数
  • 有点比(查询词点击率):搜索结果页上,用户点击任意一篇文档,则本次搜索算有点击。有点比 = 有点击的搜索次数 / 总搜索次数
  • 首屏有点比:点击发生在首屏,本次搜索算有点击。
  • 它们的关联很强,一个指标提升通常其他两个也会提升
  • 平均首点位置:一次搜索后,记录第一次点击发生的位置
  • 如果没有点击,或者首点位置大于阈值 x,则首点位置取 x。对所有搜索的首点位置取平均
  • 平均首点位置小,说明符合用户需求的文档排名靠前,用户体验好,和首屏有点比是一个道理
  • 三个中间指标和留存指标的关联性很强
  • 主动换词率:如果用户搜到需要的文档,通常不会换查询词
  • 一定时间间隔内,搜到的两个查询词相似:比如编辑距离小,则被认定为换词
  • 被动换词:比如用户点击搜索引擎给出的修改建议,说明效果好
  • 主动换词:原因是没有找到想要的结果,说明效果不好

交互指标

  • 用户点击文档进入详情页,可能会点赞,收藏,转发,关注,评论
  • 交互通常表明用户对文档非常感兴趣(强度大于点击),因此可以作为中间指标
  • 交互行为稀疏(每百次点击,只有10次点赞,2次收藏),单个交互率波动很大,而且在A/B测试中不容易显著
  • 取各种交互率的加权和作为总体交互指标,权重取决于交互率与留存的关联强弱

中间目标 -> 留存目标

  • 体验优化的策略往往会同时改善多种中间指标:有点比,首屏有点比,平均首点位置,主动换词率,交互指标
  • 单个体验优化的策略很难在短期内显著提升留存指标。(通常微弱上涨,不具有统计显著性)
  • 上述中间指标与留存有很强的关联,长期持续改善中间指标,留存指标会稳定上涨

人工体验评估

  • Side by Side 评估:随机搜一批搜索日治,取其中的搜索词,用户画像,场景。运行新旧两种策略,得到两个搜索结果页(文档列表)
  • 固定查询词,用户,场景,搜索结果的差异只来自于策略
  • 随机抽样搜索日志时,需要覆盖高频,中频,低频查询词
  • 对于一条查询词,人工评估两个列表,分别对应新就策略
  • 基于查询词,用户画像,搜索场景,判断卷左右两个列表谁更好
  • 盲评,即新就策略出现在左右的概率都是50%
  • 不是判断哪篇文档更好,而是判断哪个列表整体更好
  • 使用GSB作为评价指标:如果新策略更优,记作Good(G),如果持平记作Same(S),如果旧策略更优,记作Bad(B),例如评300条查询词,GSB为 50: 220: 30
  • 月度评估:每个月随机抽取一批搜索日志,每条搜索日志包含查询词 q,用户u,场景c,排名前k的文档 d 1 , ⋅ ⋅ ⋅ , d k d_1, ···, d_k d1,⋅⋅⋅,dk
  • 随机抽样搜索日志时,需要覆盖高频,中频,低频查询词
  • 文档数量 k 取决于平均下滑深度,比如 k = 20
  • 标注员评估每一篇文档,打分 s c o r e ( q . u , c , d i ) score(q. u, c, d_i) score(q.u,c,di),可以单独给相关性,内容质量,或时效性打分
  • 可以只打一个综合满意度分数
  • 用DCG评价每一次搜索的好坏
  • 对所有的搜索日志,取DCG的均值,作为月度评估的结果
    • 可以与自我对比,是否由于往期的DCG
    • 可以与竞对对比,是否优于竞对的DCG

总结

北极星指标:用户规模 & 留存

  • 用户规模:APP的总体DAU,搜索的DAU
  • 搜索渗透率:(搜索DAU/APP DAU)
  • 用户留存:次1留,次7留等。LT7, LT30。APP总体的留存,搜索自身的留存
  • 规模和留存指标未必适合评价单个策略:单个策略很显著提升规模和留存
  • 规模和留存指标需要很长时间才能显著
  • 规模和留存更适合作为大盘长期指标观察:评估整个团队的长期表现。长期优化搜索体验,规模和留存会稳步提升,反映在A/B测试的holdout桶上

中间指标:用户的点击等行为

  • 与规模与留存强关联。容易在A/B测试中显著

人工评估

  • Side by Side评价过于主观,评估标准未必与普通用户体验一致
  • 结果噪声大,稳定性不如A/B测试
  • 速度慢于A/B测试,影响开发迭代效率
  • 人工成本比较贵
  • 个性化比较难处理,仅凭用户画像难以判断用户真实需求
  • Side by Side 和月度评估的区别:目的不同,前者决策策略是否推全,后者判断搜索团队整体水平
  • 指标不同:前者是GSB, 后者是 DCG
  • 有无争议:前者争议较大,后者没有缺点和争议
相关推荐
猫头虎7 分钟前
百度搜索AI开放计划:助力开发者通过MCP Server连接用户和应用
搜索引擎·百度·mcp
二爷记1 小时前
QXQ3真i9级CPU是捡漏还是踩坑!i9-12900 ES版CPU值得入手吗?
大数据·elasticsearch·搜索引擎·全文检索
何双新3 小时前
L3-3、从单轮到链式任务:设计协作型 Prompt 系统
服务器·搜索引擎·prompt
技术项目引流12 小时前
elasticsearch查询中的特殊字符影响分析
大数据·elasticsearch·搜索引擎
盈达科技13 小时前
【盈达科技】GEO(生成式引擎优化)底层逻辑
搜索引擎
yangmf204017 小时前
使用 Logstash 迁移 MongoDB 数据到 Easysearch
java·elasticsearch·搜索引擎
Elastic 中国社区官方博客2 天前
Elasticsearch 堆内存使用情况和 JVM 垃圾回收
大数据·jvm·数据库·elasticsearch·搜索引擎·全文检索
TracyCoder1232 天前
ElasticSearch深入解析(二):核心概念
大数据·elasticsearch·搜索引擎
白雪讲堂2 天前
【白雪讲堂】GEO优化第7篇 -构建《推荐类》内容的结构化模板
大数据·人工智能·搜索引擎·geo
yangmf20402 天前
私有知识库 Coco AI 实战(三):摄入 Elasticsearch 官方文档
人工智能·elasticsearch·搜索引擎·全文检索·coco ai