SQL高级技巧之埋点解析

一、背景

大数据时代,数据来源主要是业务系统 以及用户行为日志 ,其中 ,用户行为日志的形式主要是埋点,埋点的形式通常是Json格式的字符串,属于半结构化数据,如何将其规范化并入仓?后续如何方便使用?这就需要数仓工作者深思熟虑。

二、案例

用户打开APP并浏览时会触发条目曝光,我们会将曝光日志上传到 Kafka,并 Sink 到数仓,然后通过 ELT 开发相应的底表供使用,但是埋点不是一成不变的,随着产运增加相应的埋点变量,表的字段也会逐渐增多,表结构的频繁变更势必对下游造成影响,为避免频繁变更表结构,我们使用lef 字段储存剩余未解析的埋点变量,无论后期增加多少埋点变量,直接从lef中解析即可。

但是在开发过程中也遇到一些问题,那就是lef中的数据该如何储存?下面为大家一一道来,请看CASE:

起初,lef中字段是以JSON形式存储,但是随着一些不重要的且非埋点事件本身的数据也不像单独放在表中,所以考虑跟lef合并在一起,代码如下:

sql 复制代码
select 
       lef
      ,recv_ts
      ,to_json(named_struct('lef',lef,'recv_ts',recv_ts)) as json_str
from tmp_test where pt = max_pt('tmp_test')
limit 30;

结果如下:

其中,json_str 就是最终字段,但在使用时并不方便,比如解析其中ifAiAnswer_var,代码如下:

sql 复制代码
select get_json_object(get_json_object(lef,'$.lef'),'$.ifAiAnswer_var') 
from table
;

本来 get_json_object 函数支持通过 get_json_object(column,'$.val1.val2') 获取,所以对代码做了修改:

sql 复制代码
select 
       lef
      ,recv_ts
      ,to_json(named_struct('lef',from_json(lef,'map<string,string>'),'recv_ts',recv_ts)) as json_str
from tmp_test where pt = max_pt('tmp_test')
limit 30;

结果如下:

这个时候,就可以根据 path 向下直接获取了。

相关推荐
C++业余爱好者8 小时前
SQL语言家族入门指南:标准SQL、T-SQL与PL/SQL详解
数据库·sql
白衣衬衫 两袖清风8 小时前
ABP框架+Dapper执行原生sql
sql·c#·.net
西格电力科技8 小时前
面向工业用户的绿电直连架构适配技术:高可靠与高弹性的双重设计
大数据·服务器·人工智能·架构·能源
小程故事多_808 小时前
开源界核弹级输出!蚂蚁 Agentar-Scale-SQL 凭 “编排式扩展” 技术,成为 Text-to-SQL 天花板
数据库·人工智能·sql·开源·aigc·embedding
beijingliushao10 小时前
105-Spark之Standalone HA环境搭建过程
大数据·spark
五阿哥永琪10 小时前
Git 开发常用命令速查手册
大数据·git·elasticsearch
数字会议深科技10 小时前
深科技 | 高端会议室效率升级指南:无纸化会议系统的演进与价值
大数据·人工智能·会议系统·无纸化·会议系统品牌·综合型系统集成商·会议室
容智信息10 小时前
容智Report Agent智能体驱动财务自动化,从核算迈向价值创造
大数据·运维·人工智能·自然语言处理·自动化·政务
神算大模型APi--天枢64611 小时前
全栈自主可控:国产算力平台重塑大模型后端开发与部署生态
大数据·前端·人工智能·架构·硬件架构
每日学点SEO12 小时前
「网站新页面冲进前10名成功率下降69%」:2025 年SEO竞争格局分析
大数据·数据库·人工智能·搜索引擎·chatgpt