(三十六)大数据实战——ClickHouse数据库的部署安装实现

前言

ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库 DBMS ),使用C语言编写,主要用于在线分析处理查询( OLAP ),能够使用SQL查询实时生成分析数据报告。列式存储 :数据按列进行存储,这使得 ClickHouse 能够高效地处理聚合查询和分析操作;高性能 :ClickHouse 被设计用于快速查询和分析大规模数据,因此具有出色的性能。分布式架构 :支持分布式部署,可以轻松地扩展到多个节点,以处理大量数据和并行查询。实时数据插入 :支持实时数据的快速插入,并能在不影响查询性能的情况下进行数据更新。灵活的数据格式支持:支持多种数据格式,包括 JSON、CSV 等,同时也支持压缩和加密。

ClickHouse主要用于数据分析,ClickHouse 适用于各种数据分析场景,包括业务智能、报告、仪表板等;日志分析:由于其高性能和实时数据插入功能,ClickHouse 可以用于大规模日志分析;时序数据处理:适用于处理时序数据,例如传感器数据、监控数据等;实时报表:能够支持实时数据的快速查询和分析,适用于生成实时报表和统计数据。

本节内容主要是关于如何搭建ClickHouse数据库,实现Clickhouse数据库的部署安装。

hadoop101 hadoop102 hadoop103
clickhouse clickhouse clickhouse
zookeeper zookeeper zookeeper
[ClickHouse部署安装]

正文

①配置centos系统文件数限制,避免文件句柄数不够使用

  • 在/etc/security/limits.conf中增加句柄数的配置

    • soft nofile 65536
    • hard nofile 65536
    • soft nproc 131072
    • hard nproc 131072
  • 在/etc/security/limits.d/20-nproc.conf的配置中也增加以上句柄数的配置
  • 查看配置修改是否生效:ulimit -a
  • 将上述俩个配置文件分发到hadoop102和hadoop103服务器上,使配置生效

② 分别在hadoop101、hadoop102、hadoop103服务器安装系统依赖

③ 关闭系统selinux安全配置,并重启hadoop101、hadoop102、hadoop103系统

  • 修改/etc/selinux/config中的SELINUX=disabled,并重启系统reboot

④使用官方推荐的方式,使用yum命令分别在hadoop101、hadoop102、hadoop103安装clickhouse服务端和客户端

  • 命令:sudo yum install -y clickhouse-server clickhouse-client

⑤启动clickhouse服务端并查看状态

  • 命令:

    //设置为开机自启动
    sudo systemctl enable clickhouse-server
    //取消开机自启动
    sudo systemctl disable clickhouse-server
    //启动clickhouse-server服务端
    sudo systemctl start clickhouse-server
    //查看clickhouse-server服务端状态
    sudo systemctl status clickhouse-server
    //停止clickhouse-server服务端
    sudo systemctl stop clickhouse-server

⑥使用clickhouse客户端连接clickhouse数据库

  • 命令:clickhouse-client -m

⑦修改clickhouse的配置文件/etc/clickhouse-server/config.xml,使得hadoop集群间可以相互访问

  • 将<listen_host>::</listen_host> 配置打开,然后重启clickhouse服务
  • 重启clickhouse服务
  • 使用hadoop102的客户端连接hadoop101的服务

⑧验证clickhouse数据库是否可以正常使用

⑨配置副本:在hadoop101、hadoop102、hadoop103配置zookeeper,互为副本保证clickhouse数据库的高可用

  • 在配置文件/etc/clickhouse-server/config.xml中配置zookeeper连接信息

    <zookeeper> <node> <host>hadoop101</host> <port>2181</port> </node> <node> <host>hadoop102</host> <port>2181</port> </node> <node> <host>hadoop103</host> <port>2181</port> </node> </zookeeper>
  • 分发配置文件config.xml到hadoop102、hadoop103服务器
  • 启动zookeeper服务器
  • 重启clickhouse数据库服务器

⑩验证副本配置是否生效

  • 分别在hadoop101、hadoop102、hadoop103服务器创建表t_order

    hadoop101

    create table t_order (
    id UInt32,
    sku_id String,
    total_amount Decimal(16,2),
    create_time Datetime
    ) engine = ReplicatedMergeTree('/clickhouse/table/01/t_order','101')
    partition by toYYYYMMDD(create_time)
    primary key (id)
    order by (id,sku_id);

    hadoop102

    create table t_order (
    id UInt32,
    sku_id String,
    total_amount Decimal(16,2),
    create_time Datetime
    ) engine = ReplicatedMergeTree('/clickhouse/table/01/t_order','102')
    partition by toYYYYMMDD(create_time)
    primary key (id)
    order by (id,sku_id);

    hadoop103

    create table t_order (
    id UInt32,
    sku_id String,
    total_amount Decimal(16,2),
    create_time Datetime
    ) engine = ReplicatedMergeTree('/clickhouse/table/01/t_order','103')
    partition by toYYYYMMDD(create_time)
    primary key (id)
    order by (id,sku_id);

  • 在hadoop101表t_order插入数据

    insert into t_order values
    (101,'sku_001',1000.00,'2020-06-01 12:00:00'),
    (102,'sku_002',2000.00,'2020-06-01 12:00:00'),
    (103,'sku_004',2500.00,'2020-06-01 12:00:00'),
    (104,'sku_002',2000.00,'2020-06-01 12:00:00'),
    (105,'sku_003',600.00,'2020-06-02 12:00:00');

  • 在hadoop101查询数据
  • 在hadoop102查询数据
  • 在hadoop103查询数据

⑪查询zookeeper中的clickhouse存储数据是否成功

结语

至此,关于ClickHouse数据库的部署安装实现的内容到这里就结束了,我们下期见。。。。。。

相关推荐
今天我又学废了3 分钟前
Spark,HDFS概述
大数据·hdfs·spark
青云交1 小时前
Java 大视界 -- 基于 Java 的大数据机器学习模型在图像识别中的迁移学习与模型优化(173)
大数据·迁移学习·图像识别·模型优化·deeplearning4j·机器学习模型·java 大数据
Yan-英杰2 小时前
DeepSeek-R1模型现已登录亚马逊云科技
java·大数据·人工智能·科技·机器学习·云计算·deepseek
黄雪超2 小时前
Flink介绍——实时计算核心论文之Storm论文总结
大数据·论文阅读·storm
TDengine (老段)2 小时前
TDengine 中的日志系统
java·大数据·数据库·物联网·时序数据库·tdengine·iotdb
蒋星熠4 小时前
在VMware下Hadoop分布式集群环境的配置--基于Yarn模式的一个Master节点、两个Slaver(Worker)节点的配置
大数据·linux·hadoop·分布式·ubuntu·docker
SelectDB技术团队5 小时前
Apache Doris 2.1.9 版本正式发布
大数据·数据仓库·数据分析·doris·数据湖·湖仓一体·日志数据
gegeyanxin6 小时前
flink异步读写外部数据源
大数据·flink·异步io·访问外部数据
说私域7 小时前
定制开发开源AI智能名片S2B2C商城小程序:技术赋能商业价值实现路径研究
大数据·人工智能·小程序·开源
Elastic 中国社区官方博客7 小时前
Elasticsearch:使用机器学习生成筛选器和分类标签
大数据·人工智能·elasticsearch·机器学习·搜索引擎·ai·分类