Doris 窗口函数之 LEAD 最佳实践

概念说明

LEAD 是Doris的一个分析窗口函数,用于访问当前行之后的行数据,而无需进行自连接。可以获取分区内当前行之后的第N行的值。

语法

LEAD ( <expr> [ , <offset> [ , <default> ] ] )

参数

|---------|------------------|
| 参数 | 说明 |
| expr | 需要获取值的表达式 |
| offset | 向后偏移的行数 |
| default | 当偏移超出窗口范围时返回的默认值 |

返回

返回与输入表达式相同的数据类型。

需求实践

需求分析

在线客服系统中,求每个最后接待客服的三天解决率,指标定义为

分子:同一个访客三天内未重复来访(不限客服),则标记为已解决,否则为未解决;

分母:人工会话数

分析需求可知,要想实现该需求,需要将会话记录按照时间升序排序,计算访客A来访之后的三天内是否有重复来访记录,如果有记录,则上一次会话记录标记为未解决。

访客可以重复来访多次,因此可抽象成访客A的数据按照时间排序,最后一条数据为已解决,之前间隔超过三天的为已解决,否则为未解决。

需求实现

数据来源

ElasticSearch 已经有现成的会话记录表,`session_info_2026-01` ,相关字段数据格式如下:

|-----------|------------------------------|
| 字段 | 含义 |
| sessionId | 会话ID,表的主键 |
| visitorId | 访客ID |
| startTime | 会话开始时间,13位long类型,这里未存为date类型 |
| staffId | 客服ID |

实现步骤

1.连接Doris客户端,创建ElasticSearch的Catalog

CREATE CATALOG es_catalog PROPERTIES (

"type"="es",

"hosts"="http://ip:9200",

"mapping_es_id"="true",

"doc_value_scan" = "true",

"metadata_refresh_interval_sec"="20"

);

  1. 利用lead 函数构建查询获取同一访客人工会话,每一条数据的对应的下一条数据的会话建立时间。
sql 复制代码
   SELECT 
   sessionId,
   staffId,
   visitorId,
   startTime,
   FROM_UNIXTIME(startTime/1000) startT,
   FROM_UNIXTIME(LEAD(startTime,1,NULL) OVER (PARTITION BY visitorId order by startTime)/1000) AS nextStartT
   FROM es_catalog.default_db.`session_info_2026-01`
   WHERE humanSession=1

查询结果为

  1. 使用case when 为每一条数据打标记,判断是否已解决;
sql 复制代码
 SELECT 
 *,
 (CASE WHEN nextStartT IS NULL THEN 1
  WHEN TIMESTAMPDIFF(HOUR,startT,nextStartT)>72 THEN 1 ELSE 0 END) AS resolved
  FROM (
   SELECT 
   sessionId,
   staffId,
   visitorId,
   startTime,
   FROM_UNIXTIME(startTime/1000) startT,
   FROM_UNIXTIME(LEAD(startTime,1,NULL) OVER (PARTITION BY visitorId order by startTime)/1000) AS nextStartT
   FROM es_catalog.default_db.`session_info_2026-01`
   WHERE humanSession=1
   order by visitorId,startTime
  ) AS t1

查询结果

  1. 统计最终结果,求三天解决率
sql 复制代码
SELECT 
staffId `客服ID`,
COUNT(sessionId) `总会话数`,
SUM(resolved) `已解决会话数`,
COUNT(sessionId)-SUM(resolved) AS `未解决会话数`,
ROUND(SUM(resolved)/COUNT(sessionId)*100,2) AS `三天解决率%`
FROM (
 SELECT 
 *,
 (CASE WHEN nextStartT IS NULL THEN 1
  WHEN TIMESTAMPDIFF(HOUR,startT,nextStartT)>72 THEN 1 ELSE 0 END) AS resolved
  FROM (
   SELECT 
   sessionId,
   staffId,
   visitorId,
   startTime,
   FROM_UNIXTIME(startTime/1000) startT,
   FROM_UNIXTIME(LEAD(startTime,1,NULL) OVER (PARTITION BY visitorId order by startTime)/1000) AS nextStartT
   FROM es_catalog.default_db.`session_info_2026-01`
   WHERE humanSession=1
   order by visitorId,startTime
  ) AS t1
 ) AS t2
GROUP BY staffId
ORDER BY `三天解决率%` ASC

查询结果为

相关推荐
zandy101114 小时前
全链路可控+极致性能,衡石HENGSHI CLI重新定义企业级BI工具的AI协作能力
大数据·人工智能·ai analytics·ai native·agent-first
果粒蹬i16 小时前
Elasticsearch 单机部署实测:安装流程、常见坑点与远程访问配置
大数据·elasticsearch·搜索引擎
AC赳赳老秦16 小时前
OpenClaw数据库高效操作指南:MySQL/PostgreSQL批量处理与数据迁移实战
大数据·数据库·mysql·elasticsearch·postgresql·deepseek·openclaw
小王毕业啦16 小时前
2006-2023年 省级-建成区绿化覆盖率数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
祖传F8717 小时前
quickbi数据集数据查询时间字段显示正确,仪表板不显示
数据库·sql·阿里云
悟道子HD17 小时前
SRC漏洞挖掘——2.SQL注入漏洞实战详解
sql·web安全·网络安全·渗透测试·sql注入·sqlmap·暴力破解
AEIC学术交流中心18 小时前
【快速EI检索 | SPIE出版】第六届中国膜计算论坛暨2026年人工智能、大数据与电气自动化国际学术会议(CWMC&AIBDE 2026)
大数据·人工智能·量子计算
历程里程碑18 小时前
二叉树---二叉树的中序遍历
java·大数据·开发语言·elasticsearch·链表·搜索引擎·lua
城数派19 小时前
2000-2025年我国省市县三级逐8天日间地表温度数据(Shp/Excel格式)
数据库·arcgis·信息可视化·数据分析·excel
AC赳赳老秦19 小时前
OpenClaw text-translate技能:多语言批量翻译,解决跨境工作沟通难题
大数据·运维·数据库·人工智能·python·deepseek·openclaw