day09-新热文章-实时计算

1. 实时计算与定时计算的区别
  • 定时计算:基于固定时间间隔(如每天/小时)处理全量数据,适用于对实时性要求不高的场景。
  • 实时计算:持续处理无界数据流,结果实时输出,适用于高实时性场景(如用户行为分析、实时推荐)。
2. Kafka Stream 核心概念
  • 流式处理模型:通过 KStream 抽象数据流,支持增量计算。
  • 关键组件
    • Source Processor:从 Kafka 主题消费数据。
    • Sink Processor:将处理结果发送到 Kafka 主题。
    • 窗口操作 (如 TimeWindows):按时间范围聚合数据。
    • 状态存储 :支持容错的状态操作(如 Materialized.as)。
3. 热点文章实时计算流程
  1. 用户行为发送消息
    • 用户行为(阅读、点赞等)触发消息发送到 Kafka 主题 hot.article.score.topic
    • 消息格式为 UpdateArticleMess,包含文章 ID、行为类型和增量值。
  2. Kafka Stream 聚合处理
    • 按文章 ID 分组,使用 10 秒时间窗口聚合行为数据。
    • 聚合结果转换为 ArticleVisitStreamMess,包含文章 ID 及各行为的总增量。
  3. 更新文章分值
    • 根据聚合结果重新计算文章热度分值,更新数据库。
    • 替换 Redis 缓存中的热点文章数据,确保前端实时展示最新热点。

关键代码解释

1. Kafka Stream 单词计数案例
java 复制代码
stream.flatMapValues(value -> Arrays.asList(value.split(" ")))
     .groupBy((key, value) -> value)
     .windowedBy(TimeWindows.of(Duration.ofSeconds(10)))
     .count()
     .toStream()
     .to("itcast-topic-out");
  • flatMapValues:将输入字符串按空格拆分为单词流。
  • groupBy:按单词分组,为后续聚合做准备。
  • windowedBy:定义 10 秒的时间窗口,统计窗口内的数据。
  • count():统计每个单词在窗口内的出现次数。
  • to("itcast-topic-out"):将结果发送到指定 Kafka 主题。
2. Spring Boot 集成 Kafka Stream
java 复制代码
@Bean
public KStream<String, String> kStream(StreamsBuilder streamsBuilder) {
    KStream<String, String> stream = streamsBuilder.stream("itcast-topic-input");
    // 处理逻辑
    return stream;
}
  • @EnableKafkaStreams:启用 Kafka Stream 功能。
  • StreamsBuilder :构建流处理拓扑,通过 @Bean 定义 KStream 对象。
3. 热点文章分值更新
java 复制代码
public void updateScore(ArticleVisitStreamMess mess) {
    ApArticle apArticle = updateArticle(mess);  // 更新数据库行为数据
    Integer score = computeScore(apArticle);    // 计算新分值
    replaceDataToRedis(apArticle, score, ...);  // 更新缓存
}
  • updateArticle:根据聚合结果更新文章的阅读、点赞等字段。
  • computeScore:按权重计算文章热度分值(如点赞权重更高)。
  • replaceDataToRedis:替换 Redis 中频道或推荐列表的热点文章数据,保持前 30 条高分值文章。
4. Kafka Stream 聚合消息
java 复制代码
.aggregate(
    () -> "COLLECTION:0,COMMENT:0,LIKES:0,VIEWS:0",  // 初始值
    (key, value, aggValue) -> {
        // 累加各行为值
        return formatStr;  // 返回聚合后的字符串
    },
    Materialized.as("hot-article-stream-count-001")  // 状态存储名称
)
  • aggregate:定义初始值和聚合逻辑,累加窗口内各行为(收藏、评论等)的增量。
  • Materialized.as:指定状态存储名称,支持容错和高效查询。

技术亮点

  1. 低延迟处理:Kafka Stream 提供毫秒级延迟,适合实时场景。
  2. 窗口化聚合:通过时间窗口控制数据范围,平衡实时性与计算效率。
  3. 状态管理 :利用 Materialized 实现容错状态存储,确保数据一致性。
  4. 无缝集成:Spring Boot 简化 Kafka Stream 配置,提升开发效率。
相关推荐
CodeAmaz2 分钟前
Spring编程式事务详解
java·数据库·spring
信仰JR3 分钟前
Linux系统安装Maven私服Nexus3.X
linux·运维·maven
没有bug.的程序员4 分钟前
微服务基础设施清单:必须、应该、可以、无需的四级分类指南
java·jvm·微服务·云原生·容器·架构
武子康6 分钟前
Java-204 RabbitMQ Connection/Channel 工作流程:AMQP 发布消费、抓包帧结构与常见坑
java·分布式·消息队列·rabbitmq·ruby·java-activemq
郑州光合科技余经理8 分钟前
海外国际版同城服务系统开发:PHP技术栈
java·大数据·开发语言·前端·人工智能·架构·php
appearappear18 分钟前
Mac 上重新安装了Cursor 2.2.30,重新配置 springboot 过程记录
java·spring boot·后端
CryptoRzz27 分钟前
日本股票 API 对接实战指南(实时行情与 IPO 专题)
java·开发语言·python·区块链·maven
程序员水自流29 分钟前
MySQL数据库自带系统数据库功能介绍
java·数据库·mysql·oracle
谷哥的小弟33 分钟前
Spring Framework源码解析——RequestContext
java·后端·spring·框架·源码
天远Date Lab39 分钟前
Java微服务实战:聚合型“全能小微企业报告”接口的调用与数据清洗
java·大数据·python·微服务