Spark生产集群各种使用

1.环境配置

1.1 版本说明

要求 版本 是否必须 其他事项
Hadoop 3.3.4 hadoop3.3.0之后原生支持国内主要对象存储
Hive 3.1.3 实测没有Hive也可以使用sparksql,使用hive更好的管理HDFS数据
spark 3.3.1 hive和spark整合后,语法为HSQL,自定义函数按照hive使用即可

1.2 相关介绍官网

Hadoop官网:https://hadoop.apache.org/docs/r3.3.4/hadoop-cos/cloud-storage/index.html

腾讯对象存储cos使用官网:https://cloud.tencent.com/document/product/436/6884

spark使用官网文档:https://spark.apache.org/docs/3.3.1/sql-ref.html

hive使用官网文档:https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentation

2. 使用实例

2.1 spark集群操作doris集群

脚本实例

bash 复制代码
vim test.sh
#!/bin/bash
dori_test="
CREATE
TEMPORARY VIEW spark_doris1
USING doris
OPTIONS(
  'table.identifier'='demo.t1',
  'fenodes'='xxx:8030',
  'user'='root',
  'password'='xxx'
);
CREATE
TEMPORARY VIEW spark_doris2
USING doris
OPTIONS(
  'table.identifier'='demo.t2',
  'fenodes'='xxx:8030',
  'user'='xxx',
  'password'='xxx'
);

INSERT INTO spark_doris1
select * from spark_doris2;
"
spark-sql -e "$dori_test"
nohup ./test.sh > ./logs.text 2>&1 &

2.2 spark集群同时操作doris集群和hive集群

bash 复制代码
vim test.sh
#!/bin/bash
dori_test="
set spark.debug.maxToStringFields=200
set spark.sql.adaptive.coalescePartitions.enabled=true
set spark.sql.cbo.enabled=true
set spark.sql.sources.parallelPartitionDiscovery.parallelism=50
set spark.sql.shuffle.partitions=1000
CREATE
TEMPORARY VIEW spark_doris1
USING doris
OPTIONS(
  'table.identifier'='demo.t1',
  'fenodes'='xxx:8030',
  'user'='root',
  'password'='xxx'
);
CREATE
TEMPORARY VIEW spark_doris2
USING doris
OPTIONS(
  'table.identifier'='demo.t2',
  'fenodes'='xxx:8030',
  'user'='xxx',
  'password'='xxx'
);

INSERT INTO spark_doris1
select a1.id,name,age
(select id,name from spark_doris2) a1
left join
(select id,age from hive.table) a2
on a1.id=a2.id
"
spark-sql --conf "spark.dynamicAllocation.maxExecutors=200" --conf "spark.driver.maxResultSize=8g" -S -e "$dori_test"
nohup ./test.sh > ./logs.text 2>&1 &

2.3 spark集群数据写入HDFS中,元数据存储于hive中

bash 复制代码
#在hive中建表
CREATE TABLE `student1`(
id int, name string
  )
PARTITIONED BY (
  `part_day` string)
LOCATION
 '/warehouse/test/student1'
#数据插入
# set spark.yarn.queue=cece_dw;
insert into table student1 values(1,'abc','20231217');

2.4 spark集群数据写入cos对象存储,元数据存储于hive中

bash 复制代码
#在hive中建表
CREATE TABLE `student2`(
id int, name string
  )
PARTITIONED BY (
  `part_day` string)
LOCATION
  'cosn://xxxx/test/student2';

#数据插入
# set spark.yarn.queue=cece_dw;
insert into table student2 values(1,'abc','20231217');

3.参数配置说明

因spark为hive的计算引擎,因此如操作本地hive数据hive的参数也可以在配置使用

3.1 spark参数配置说明

bash 复制代码
#设置计算引擎
set hive.execution.engine=spark;
 
#设置spark提交模式
set spark.master=yarn-cluster;
 
#设置作业提交队列
set spark.yarn.queue=${queue_name};
 
#设置队列的名字
set mapreduce.job.queuename=root.users.hdfs;
 
#设置作业名称
set spark.app.name=${job_name};
 
#该参数用于设置Spark作业总共要用多少个Executor进程来执行
set spark.executor.instances=25;
 
#设置执行器计算核个数
set spark.executor.cores=4;
 
#设置执行器内存
set spark.executor.memory=8g
 
 #设置任务并行度
set mapred.reduce.tasks=600;
 
#设置每个executor的jvm堆外内存
set spark.yarn.executor.memoryOverhead=2048;
 
#设置内存比例(spark2.0+)
set spark.memory.fraction=0.8;
 
#设置对象序列化方式
set spark.serializer=org.apache.serializer.KyroSerializer;
 
#设置动态分区
set hive.exec.dynamic.partition=true;  --开启动态分区功能
set hive.exec.dynamic.partition.mode=nonstrict;  --允许所有分区是动态的
set hive.exec.max.dynamic.partitions.pernode=1000;  --每个mapper/reducer可以创建的最大动态分区数
--set hive.exec.dynamic.partitions=10000; 这个可不要
insert overwrite table test partition(country,state) select * from test2; --添加动态分区示例

3.2 hive参数配置说明

bash 复制代码
#设置hive的计算引擎tez/spark/mr三选一
set hive.execution.engine=tez/spark/mr;

#设置每个map的内存
set mapreduce.map.memory.mb=4096;

#设置每个reduce的内存
set mapreduce.reduce.memory.mb=4096;

#这个 Java 程序可以使用的最大堆内存数,一定要小于mapreduce.map.memory.mb
set mapreduce.map.java.opts=-Xmx13106M;

#可以使用的最大堆内存数,一定要小于mapreduce.reduce.memory.mb
mapreduce.reduce.java.opts

#辅助设置-打印表头
set hive.cli.print.header=true;

#辅助设置-显示当前数据库
set hive.cli.print.current.db=true;

#开启任务并行执行
set hive.exec.parallel=true;

#同一个sql允许并行任务的最大线程数
set hive.exec.parallel.thread.number=8;

#部分需要联合使用
    #设置成true, 表示开启动态分区功能
    set hive.exec.dynamic.partition=true;
    #设置成nonstrict, 表示允许所有分区都是动态的
    set hive.exec.dynamic.partition.mode=nonstrict;
    #每个mapper或reducer可以创建的最大动态分区个数.如果某个mapper或reducer尝试创建大于这个值的分区的话则会知出一个致命错误
    set hive.exec.max.dynamic.partitions.pernode=1000;
    #一个动态分区创建语句可以创建的虽大动态分区个数,如果超过这个佳则会抛出---个致命错误
    set hive.exec.max.dynamic.partitions=1000;
    #全局可以创建的最大文件个数.有一个Hadoop计数器会跟踪记录创速了多少个文件
hive.exec.max.created.files

#设置reduce数量, mapper数量:reduce数量 = 10:1
set mapred.reduce.tasks=100;

#设置每个reduce处理数据量,默认1G
set hive.exec.reducers.bytes.per.reducer=500000000; (500M)

#部分需要联合使用
    #每个Map最大输入大小,间接设置map个数,默认256M就比较好。
    set mapred.max.split.size=256000000;
    #每个Map最小输入大小
    set mapred.min.split.size=100000000;
    #一个节点上split的至少的大小
    set mapred.min.split.size.per.node=100000000;
    #一个交换机下split的至少的大小
    set mapred.min.split.size.per.rack=100000000;
    #执行Map前进行小文件合并,前面参数确定合并文件块的大小
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

#在Map-only的任务结束时合并小文件
set hive.merge.mapfiles=true;
# 合并Tez 作业产生的文件
set hive.merge.tezfiles=true;
# 合并spark 作业产生的文件
set hive.merge.sparkfiles=true;
#合并 MapReduce 作业产生的文件
set hive.merge.mapredfiles=true;

#Map输入合并小文件
    #每个Map最大输入大小
    set mapred.max.split.size=256000000;
    #一个节点上split的至少的大小 
    set mapred.min.split.size.per.node=100000000;
    #一个交换机下split的至少的大小
    set mapred.min.split.size.per.rack=100000000;
    #执行Map前进行小文件合并
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; 
#输出合并
    #合并 MapOnly 的作业产生的文件
    set hive.merge.mapfiles=true;
    #合并后的目标文件大小
    # 希望的合并后的目标文件大小,如果此值小于 hive.merge.smallfiles.avgsize, 则此值为 hive.merge.smallfiles.avgsize。
    set hive.merge.size.per.task=128000000;
    #小文件的判断
    #如果一个 job 结束后,生成的文件的平均大小 小于 参数 hive.merge.smallfiles.avgsize 设定的值,则认为是小文件。如以下设置平均小文件的大小为 128M。
    set hive.merge.smallfiles.avgsize=128000000;

set mapred.min.split.size.per.rack=100000000;
set mapred.min.split.size.per.node=100000000;
set hive.merge.size.per.task=256000000;
set mapred.max.split.size=256000000;
set hive.merge.smallfiles.avgsize=16000000;


#reduce任务从map完成80%后开始执行
群默认0.8,大部分比较小的job都是适合的,对于map比较重的大job,这个值可以适当调大,比如0.9

set mapreduce.job.reduce.slowstart.completedmaps=0.9

#每个reduce处理的数据量,间接设置reduce的个数
set hive.exec.reducers.bytes.per.reducer=500000000;

#设置最大reduce的个数
set hive.exec.reducers.max=999;

#直接设置reduce的个数,reduce个数并不是越多越好!Order by时只有一个reduce
set mapred.reduce.tasks=10;

#是否开启矢量化
#矢量化查询执行是 Hive 的一项功能,可大大降低典型查询操作(如扫描、过滤器、聚合和连接)的 CPU 使用率 ,但是只支持部分函数
#split函数不支持,使用split开启矢量化时反而批处理适得其反 
set hive.vectorized.execution.enabled=false;

#开启Map输出阶段压缩
    # 开启hive中间传输数据压缩功能
    set hive.exec.compress.intermediate=true;
    # 开启mapreduce中map输出压缩功能
    set mapreduce.map.output.compress=true;
    # 设置mapreduce中map输出数据的压缩方式
    set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;

#开启Reduce输出阶段压缩
    # 1.开启hive最终输出数据压缩功能
    set hive.exec.compress.output=true;
    # 2.开启mapreduce最终输出数据压缩
    set mapreduce.output.fileoutputformat.compress=true;
    # 3.设置mapreduce最终数据输出压缩方式
    #org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec

    set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
    # 4.设置mapreduce最终数据输出压缩为块压缩
    set mapreduce.output.fileoutputformat.compress.type=BLOCK;
相关推荐
我的棉裤丢了39 分钟前
windows安装ES
大数据·elasticsearch·搜索引擎
想做富婆39 分钟前
大数据,Hadoop,HDFS的简单介绍
大数据·hadoop·分布式
金融OG1 小时前
99.8 金融难点通俗解释:净资产收益率(ROE)
大数据·python·线性代数·机器学习·数学建模·金融·矩阵
霍格沃兹测试开发学社测试人社区1 小时前
软件测试丨消息管道(Kafka)测试体系
软件测试·分布式·测试开发·kafka
希艾席蒂恩1 小时前
专业数据分析不止于Tableau,四款小众报表工具解析
大数据·信息可视化·数据分析·数据可视化·报表工具
WorkAgent1 小时前
windows下本地部署安装hadoop+scala+spark-【不需要虚拟机】
hadoop·spark·scala
JZC_xiaozhong3 小时前
低空经济中的数据孤岛难题,KPaaS如何破局?
大数据·运维·数据仓库·安全·ci/cd·数据分析·数据库管理员
乙卯年QAQ3 小时前
【Elasticsearch】RestClient操作文档
java·大数据·elasticsearch·jenkins