从零开始搭建CDH-第十四章

一、Kafka安装

首先我们按照第七章的命令启动CM页面,然后我们开始安装Kafka服务。按照图中所示操作即可。

选择Kafka服务,点击继续。

将第一个设置为3台机器。

滑倒下方将有颜色提示的那一部分改为图中所示,如果内存足够可以设置大一点。

等待安装。

二、创建topic

来到主机一使用cdh用户,执行以下命令创建topic

cd /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/kafka/bin ./kafka-topics.sh --create --topic wc-topic --partitions 1 --replication-factor 1 --zookeeper cdh01:2181

三、启动spark

继续在第一台机器使用cdh用户执行以下命令启动spark,如果内存够用可以直接spark-shell启动,内存有限采取以下方式:

复制代码
spark-shell \
  --master yarn \
  --deploy-mode client \
  --driver-memory 512m \
  --executor-memory 512m \
  --executor-cores 1 \
  --num-executors 2 \
  --conf spark.executor.memoryOverhead=128m \
  --packages org.apache.spark:spark-streaming-kafka-0-10_2.11:2.4.0

成功看到scale后,就进入Spark了,然后我们一次性复制以下内容并运行:

复制代码
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}

// 使用已有的 SparkContext (sc) 创建 StreamingContext,批次间隔 3 秒
val ssc = new StreamingContext(sc, Seconds(3))

// Kafka 消费者配置
val kafkaParams = Map[String, Object](
  "bootstrap.servers" -> "cdh01:9092",
  "key.deserializer" -> classOf[StringDeserializer],
  "value.deserializer" -> classOf[StringDeserializer],
  "group.id" -> "spark-group",
  "auto.offset.reset" -> "latest",
  "enable.auto.commit" -> (false: java.lang.Boolean)
)

val topics = Set("wc-topic")   // 与第 1 步创建的 topic 名称一致

// 创建 Kafka Direct Stream
val stream = KafkaUtils.createDirectStream[String, String](
  ssc,
  LocationStrategies.PreferConsistent,
  ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
)

// 词频统计并打印
stream.map(_.value())
  .flatMap(_.split(" "))
  .map((_, 1))
  .reduceByKey(_ + _)
  .print()

// 启动流计算
ssc.start()
ssc.awaitTermination()

成功运行后我们会看到Time一直在输出,这是正常的,接下来我们在用Fineshell连接cdh01机器,在这一上面执行

复制代码
cd /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/kafka/bin/
./kafka-console-producer.sh --broker-list cdh01:9092 --topic test_topic

出现命令行可以输入后我们输入

复制代码
hello spark kafka hello

进行自动统计单词。

回车后我们回到一开始的主机,就可以看到打印的统计数据了

相关推荐
ACP广源盛139246256739 小时前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
KaMeidebaby9 小时前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博
小马爱打代码14 小时前
Kafka消息队列监控:Topic积压、吞吐量、Broker负载及消费者组全观测
分布式·kafka
狮子再回头14 小时前
relhat9.1 yum无法安装问题
linux·运维·centos
Solis程序员14 小时前
Raft:分布式系统的定海神针
java·分布式·kafka·rabbitmq·agent·raft
IT199515 小时前
踩坑实录:CentOS 默认 Fail2Ban 挡不住高频并发攻击,漏洞修复一步到位
linux·运维·centos
摇滚侠15 小时前
VMvare 安装 Linux CentOS 7
linux·运维·centos
ACP广源盛139246256731 天前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
想ai抽1 天前
Spark Executor 因节点内存超限被杀的分析与应对
大数据·性能优化·spark
java知路1 天前
centos euler离线下载docker镜像
linux·docker·centos