clickhouse调优配置

bigdata-rookie2023-09-07 8:42

一、官方文档地址

clickhouse的配置项主要在 config.xml 或 users.xml 中，基本上都在 users.xml 里

config.xml

https://clickhouse.tech/docs/en/operations/server-configuration-parameters/settings/

users.xml

https://clickhouse.tech/docs/en/operations/settings/settings/

二、建表优化

2.1、数据类型选择：

时间字段	使用DateTime类型，不要用字符串，clickhouse底层将DateTIme存为时间戳Long类型，但不建议使用Long类型，DateTime方便用于分区，只需要使用toYYYYMMDD(time)或者toDate(time)，便可实现按天分区；
空值存储	官方指出Nullable类型会拖累性能，因为存储Nullable列时需要创建一个额外的文件来存储Null值的标记，并且Nullable列无法被索引。可用空字符串或者指定一个业务中无意义的值(例如-1表示无用id)；

2.2、分区和索引选择：

分区粒度	一般选择按天分区
索引列选择	1：查询条件中经常被用来当筛选条件的属性； 2：可以是单一维度，也可以是组合维度的索引; 3：查询频率大的在前； 4：基数特别大的不适合做索引（例如id）；

2.3、表参数：


TTL(生命周期)	指定TTL可以免去手动删除过期历史数据的麻烦，可以通过alter修改；

三、配置优化

3.1、CPU资源配置：

background_pool_size	后台线程池大小，merge线程就是在里这执行，默认16，建议设置为cpu个数的2倍；
background_schedule_pool_size	执行后台任务的线程数,默认128，建议设置为cpu个数的2倍；
background_distributed_schedule_pool_size	为分布式发送执行后台任务的线程数，默认16，建议改成cpu个数的2倍；
max_concurrent_queries	最大并发处理的请求数，默认100，建议150~300；
max_threads	单个查询所能使用的最大cpu个数，默认是cpu核数；

3.2、内存资源配置：

max_memory_usage	单次query占用内存的最大值，可以设置大一点，提升集群查询性能；
max_bytes_before_external_group_by	group by使用存储超出该阈值后会刷新到磁盘进行(tmp目录)，不设置时超出则报错；
max_bytes_before_external_sort	order by使用内存超出阈值就溢写磁盘，不设置时超出则报错；
max_table_size_to_drop	限制删除该数据量以上的分区表，建议修改为0，不限制删除；

四、写入和删除优化：

4.1：尽量不执行单条或小批量的删除和插入操作，会产生小分区文件，merge压力大；
4.2：不要一次写入太多分区，或写入太快（merge跟不上会报错，clickhosue默认使用了WAL提高写入性能的方式来处理）；

上一篇：ClickHouse进阶（七）：Clickhouse数据查询-1

下一篇：李宏毅-21-hw3:对11种食物进行分类-CNN

热门推荐

01GitHub 镜像站点 02幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 03AI科技热点日报 | 2026年07月01日 042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？072026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？10全面体验 Grok API 中转站（2025 · Grok 4 系列最新版）