Flink实时电商数仓(九)

用户注册汇总表

需求分析

  • 统计各窗口的注册用户数,写入Doris

思路分析

  1. 读取kafka用户注册主题数据
  2. 转换数据结构 string -> JSONObject->javaBean
  3. 使用user_info表中的数据代表用户注册
  4. 设置水位线
  5. 开窗聚合
  6. 写入Doris

具体实现

  1. 创建用户注册统计类继承BaseApp,设置端口,并行度,kafka消费者组,kafka主题(Topic_user_register)

  2. 启动zookeeper, HDFS, kafka, maxwell等框架

  3. 测试能够收到数据stream.print()

  4. 数据清洗过滤,并且转换数据结构为javaBean

    • JSONObject.parseObject(value);转换格式
    • json.getString();获取对应字段
    • 判断对应字段是否为空,不为空则out.collect()写出
  5. 添加水位线

    • assignTimestampsAndWatermark()
    • 使用WatermarkStrategy.<泛型>乱序流
    • DateFormatUtil.dateTimeToTs(element.getCreateTime());提取数据中的时间
  6. 分组开窗聚合

    • reduce聚合
      • v1:累加值
      • v2:需要累加进来的值

    process获取窗口信息

  7. 启动doris, 在hadoop102:8030打开web页面

  8. 在doris页面建立相应的表格

  9. 创建对应的doris sink

    • context.window()获取窗口window
    • window.getStart()window.getEnd()
  10. 写出到doris, stream.sinkTo(doris sink);

用户加购汇总表

需求分析

统计各窗口加购独立用户数,写入Doris

思路分析

和上面一样

具体实现

  1. 数据的清洗过滤,判断user_id和ts不能为空
    • 使用try-catch包裹转换判断代码
    • 修改ts的位数,原先是10位的秒级单位,*1000更改为毫秒级
  2. 添加水位线,获取数据中的ts
    • 水位线可以保证数据是有序到达的
  3. 按照user_id进行分组
  4. 判断是否为独立用户
    • 创建独立用户加购类 CartAddUuBean
    • 在open方法中存储用户上次登录日期lastLoginDtState
      • 设置状态的生存时间:lastLoginDtDesc.enableTimeToLive(StateTtlConfig.newBuilder(Time.days(1)).builder)
    • 在processElement方法中,判断当前数据的时间和状态中的上次登录时间
      • 如果上次登录时间为空或者上次登录时间不等于今天,就是独立用户
      • lastLoginDtState.update(curDt);更新当前的状态
      • 如果是独立访客,才需要out.collect()写出
  5. 开窗聚合
    • v1.set(v1.get + v2.get)对度量值进行聚合
    • TimeWindow window = context.window()获取窗口信息
  6. 测试开窗聚合信息是否完成
  7. 写出到Doris, .map(转换为蛇形字符串) .sinkTo(doris sink);

gitee仓库地址:(https://gitee.com/langpaian/gmall2023-realtime)

相关推荐
weixin1997010801615 分钟前
马可波罗 item_get - 获取商品详情接口对接全攻略:从入门到精通
java·大数据·人工智能
我和我导针锋相队21 分钟前
在撰写项目书时,如何在有限的篇幅里平衡呈现“问题链”“合作证据链”和“创新落地计划”,避免内容冗余又能清晰传递核心信息?
大数据·运维·人工智能
AllData公司负责人28 分钟前
【亲测好用】数据集成管理能力演示
java·大数据·数据库·开源
zhangfeng11331 小时前
如何用小内存电脑训练大数据的bpe,16g内存训练200g数据集默认是一次性读入内存训练
大数据·人工智能
Elastic 中国社区官方博客1 小时前
Agent Builder 现已正式发布:在几分钟内发布上下文驱动的 agents
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索
安科瑞小许1 小时前
零碳园区:政策驱动下的智慧能源转型之路
大数据·人工智能·能源·碳排放·零碳园区
AC赳赳老秦1 小时前
跨境科技服务的基石:DeepSeek赋能多语言技术文档与合规性说明的深度实践
android·大数据·数据库·人工智能·科技·deepseek·跨境
存储国产化前线1 小时前
从天硕案例看价值落地:高IOPS工业级SSD如何守护关键任务稳定
大数据
2401_832298102 小时前
腾讯云TSearch存算分离,破解日志分析算力瓶颈
大数据·运维·数据库
无忧智库2 小时前
数据安全管理平台解决方案深度解析:从合规到实战,构建企业数据安全新防线(万字长文)
大数据