Spark集成ClickHouse(笔记)

目录

前言:

一.配置环境

1.安装clickhouse驱动

2.配置clickhouse环境

[二.spark 集成clickhouse](#二.spark 集成clickhouse)

直接上代码,里面有一些注释哦!


前言:

在大数据处理和分析领域,Spark 是一个非常强大且广泛使用的开源分布式计算框架。而 ClickHouse 则是一个高性能、可扩展的列式数据库,特别适合用于实时分析和查询大规模数据。将 Spark 与 ClickHouse 集成可以充分发挥它们各自的优势,使得数据处理和分析更加高效和灵活。


一.配置环境

1.安装clickhouse驱动

在idea中的maven中安装依赖包

XML 复制代码
<dependency>
        <groupId>ru.yandex.clickhouse</groupId>
        <artifactId>clickhouse-jdbc</artifactId>
        <version>0.3.1</version>
    </dependency>

2.配置clickhouse环境

(未安装clickhouse可参考文章:安装配置clickhouse

修改clickhouse配置文件,使其可以远程连接

进入目录:cd /etc/clickhouse-server/

编辑 config.xml,将listen_host注释打开,一般是注释状态!

二.spark 集成clickhouse

直接上代码,里面有一些注释哦!

java 复制代码
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions.{avg, broadcast, col, month, to_timestamp, when, year}

object DomeThree {
  def main(args: Array[String]): Unit = {
//new spark
val conf = new SparkConf().setMaster("local[*]").setAppName("three")
  .set("spark_testing_memory", "2222222222").set("dfs.client.use.datanode.hostname", "root") //设置spark运行容量 和 dfs的用户
System.setProperty("HADOOP_USER_NAME","root")
    // 创建SparkSession(根据自己需求配置)
    val sc = new SparkSession.Builder() 
      .config("hive.metastore.uris", "thrift://192.168.23.xx:9083")
      .config("hive.metastore.warehouse", "hdfs://192.168.23.xx://9000/user/hive/warehouse")
      .config("spark.sql.storeAssignmentPolicy", "LEGACY")
      .config(conf)
      .enableHiveSupport()
      .getOrCreate()
//    以jdbc为连接方式进行连接
    val frame = sc.read.format("jdbc")
      .option("driver","ru.yandex.clickhouse.ClickHouseDriver" )//      配置driver
      .option("url", "jdbc:clickhouse://192.168.23.xx:8123")   //       配置url
      .option("user", "default")                              
      .option("password", "123456")
      .option("dbtable", "shtd_result.cityavgcmpprovince")
      .load()

      frame.show()                    //查看表格
}
}

控制台打印(因为建的是空表模拟数据的)

相关推荐
闪闪发亮的小星星2 天前
高斯光以及高斯光公式解释
笔记
cqbzcsq2 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
极光代码工作室2 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
JLWcai202510093 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm
阿米亚波3 天前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
自传.3 天前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding
.千余3 天前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
自传.3 天前
尚硅谷 Vibe Coding|第二章 AI编程工具生态 学习笔记
笔记·学习·ai编程·尚硅谷·vibe coding
秋波。未央3 天前
Java Agent 开发 · Day 1 学习笔记(含作业完整标准答案)
java·笔记·学习
中屹指纹浏览器3 天前
2026指纹浏览器字体指纹、字体渲染偏差检测与全维度虚拟字体池搭建方案
经验分享·笔记