Flink

概论

有无界数据流定义:

****无界流:****有一个开始但是没有结束,不会在生成时终止并提供数据,必须连续处理无界流,也就是说必须在获取后立即处理event。对于无界数据流我们无法等待所有数据都到达,因为输入是无界的,并且在任何时间点都不会完成。处理无界数据流通常要求以特定顺序(例如事件发生的顺序)获取event,以便能够推断结果完整性。

****有界数据流:****有界数据流有明确定义的开始和结束,可以在执行任何计算之前通过获取所有数据来处理有界流,处理有界流不需要有序获取,因为可以始终对有界数据集进行排序,有界流的处理也称为批处理。

时序错乱:数据到达的时间和实际发生时间是不一致的,有一定的延迟,需要设计等待策略。

流处理与批处理:
一、批处理和实时流处理的区别
  • 批处理:对有界数据流的处理通常被称为批处理。批处理不需要有序地获取数据。在批处理模式下,首先将数据流持久化到存储系统(文件系统或对象存储)中,然后对整个数据集的数据进行读取、排序、统计或汇总计算,最后输出结果
  • 实时流处理:对于无界数据流,通常在数据生成时进行实时处理。因为无界数据流的数据输入是无限的,所以必须持续地处理。数据被获取后需要立刻处理,不可能等到所有数据都到达后再进行处理。处理无界数据流通常要求以特定顺序(如事件发生的顺序)获取事件,以便能够保证推断结果的完整性
二、批处理与流处理对比的特点
  • 批处理程序的容错不使用检查点。因为数据有限,所以恢复可以通过"完全重播"(重新处理)来实现。这种处理方式会降低常规处理的成本,因为它可以避免检查点
  • DataSet API中的有状态操作使用的是简化的内存数据结构,而不是键-值(Key-Value)索引
  • 在DataSet API中引入了特殊的同步迭代(基于超步),这只是在有界数据流上是可能的

分位延迟,平均延迟

平均吞吐和峰值吞吐

有状态计算

有状态计算可以类比一下count,sum操作,这时候就需要缓存之前的数据,才可以实现,这样的计算就是有状态的。

无状态计算

无状态计算可以类比一下select操作,来一条,操作一条,数据不用留在系统里面。


KAFKA

sh 复制代码
前提 进入kafka目录
zkServer.sh start#启动 zookeeper 

bin/kafka-server-start.sh -daemon config/server.properties  #启动kafka
bin/kafka-console-producer.sh --bootstrap-server localhost:9092 --topic testtp#创建生产者端口
bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic testtp#创建消费者端口

sh 复制代码
cd /opt/bigdata/core/flink #进入 flink目录
[root@centos2020 flink]# bin/start-cluster.sh  #flink启动
[root@centos2020 flink]# bin/flink run -d ~/KafkaWordCount-1.0-SNAPSHOT-jar-with-dependencies.jar --bootstrap-servetstrap-server localhost:9092 --topic test-topic
#flink运行jar命令
sh 复制代码
bin/kafka-console-producer.sh --bootstrap-server localhost:9092 --topic testtp //创建生产者
bin/kafka-topics.sh --bootstrap-server 192.168.205.129:9092 --list//查询生产管道topic
//因调整卡夫卡配置需使用ip地址启动
sh 复制代码
1.启动zookeeper:zkServer.sh start
2.启动kafka:bin/kafka-server-start.sh -daemon config/server.properties
3.启动flink:bin/start-cluster.sh
4.创建topic:bin/kafka-topics.sh --bootstrap-server localhost:9092 --create --topic testtp
5.查看topic:bin/kafka-topics.sh --bootstrap-server localhost:9092 --list
sh 复制代码
6.模拟生产者-消费者模型:
  生产者:bin/kafka-console-producer.sh --bootstrap-server localhost:9092 --topic testtp
  消费者:bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic testtp
相关推荐
Jason不在家1 小时前
Flink 本地 idea 调试开启 WebUI
大数据·flink·intellij-idea
Elastic 中国社区官方博客2 小时前
使用 Vertex AI Gemini 模型和 Elasticsearch Playground 快速创建 RAG 应用程序
大数据·人工智能·elasticsearch·搜索引擎·全文检索
CHICX12293 小时前
【Hadoop】改一下core-site.xml和hdfs-site.xml配置就可以访问Web UI
xml·大数据·hadoop
权^4 小时前
MySQL--聚合查询、联合查询、子查询、合并查询(上万字超详解!!!)
大数据·数据库·学习·mysql
bin91538 小时前
【EXCEL数据处理】000010 案列 EXCEL文本型和常规型转换。使用的软件是微软的Excel操作的。处理数据的目的是让数据更直观的显示出来,方便查看。
大数据·数据库·信息可视化·数据挖掘·数据分析·excel·数据可视化
极客先躯11 小时前
Hadoop krb5.conf 配置详解
大数据·hadoop·分布式·kerberos·krb5.conf·认证系统
2301_7869643613 小时前
3、练习常用的HBase Shell命令+HBase 常用的Java API 及应用实例
java·大数据·数据库·分布式·hbase
matlabgoodboy14 小时前
“图像识别技术:重塑生活与工作的未来”
大数据·人工智能·生活
happycao12314 小时前
Flink 03 | 数据流基本操作
大数据·flink
Neituijunsir15 小时前
2024.09.22 校招 实习 内推 面经
大数据·人工智能·算法·面试·自动驾驶·汽车·求职招聘