CSV数据导入到ClickHouse数据库

问题描述:手头上有一个数据量较大的CSV文件,希望导入到指定的ClickHouse数据中,ClickHouse部署在服务器中。

解决方案:通常来说,数据量较少的CSV文件可以直接通过DBeaver软件的可视化界面导入数据。

若数据量较大,则建议将CSV文件传输到clickhouse所在服务器上,使用命令将数据导入到数据库中指定的表中。(提前在数据库中根据字段建立表结构)

step1:在数据库中建立对应的表

方法一:可以借助DBeaver的可视化界面,在里面编写SQL建表语句

方法二:在服务器中,进入clickhouse交互式界面。在交互式界面编写SQL语句建表。
clickhouse-client --host=127.0.0.1 --port 9000 --user default

step2:导入CSV数据

在服务器的命令行界面,执行如下语句:

  • 导入的CSV文件没有字段名称时:
    cat csv文件路径 | clickhouse-client --query="INSERT INTO 数据库.表名 FORMAT CSV"

  • 导入的CSV文件有字段名称时
    cat csv文件路径 | clickhouse-client --query="INSERT INTO 数据库.表名 FORMAT CSVWithNames"

  • 如果想要跳过首行,或者特定行,则可以使用如下命令:(1d表示跳过第一行)
    sed '1d' csv文件路径 | clickhouse-client --query="INSERT INTO 数据库.表名 FORMAT CSV"

  • (重要)clickhouse-client INSERT CSV/TSV时跳过错误行

    在使用clickhouse-client向ck中导入csv文件时,当csv中有个别行数据格式错误时,整个文件就插入失败了,经常会导致丢数据。
    案例 :指定允许错误条数为10000,错误比率为0.1
    cat a.csv | clickhouse-client --host 127.0.0.1 --port 9000 --database default \ --user default --query="INSERT INTO tb_a FORMAT CSVWithNames " \ --format_csv_delimiter="|" --input_format_allow_errors_num=10000 \ --input_format_allow_errors_ratio=0.1

  • clickhouse官方推荐语句:在clickhouse-client客户端的安装目录下执行如下命令。
    cat <本地文件名> | ./clickhouse-client --host=<数据库连接地址> --port=<TCP端口号> --user=<数据库账号> --password=<数据库账号的密码> --query="INSERT INTO <ClickHouse表名> FORMAT <本地文件格式>";

相关推荐
lypzcgf1 小时前
Coze源码分析-资源库-编辑数据库-后端源码-数据存储层
数据库·coze·coze源码分析·智能体平台·ai应用平台
jackaroo20201 小时前
后端_Redis 分布式锁实现指南
数据库·redis·分布式
liuy96152 小时前
迷你论坛项目
数据库
杨云龙UP2 小时前
小工具大体验:rlwrap加持下的Oracle/MySQL/SQL Server命令行交互
运维·服务器·数据库·sql·mysql·oracle·sqlserver
阿巴~阿巴~2 小时前
使用 C 语言连接 MySQL 客户端(重点)
服务器·数据库·sql·mysql·ubuntu
清水加冰2 小时前
【MySQL】SQL调优-如何分析SQL性能
数据库·sql·mysql
倔强的石头1062 小时前
【金仓数据库】ksql 指南(二) —— 创建与管理本地数据库
数据库·kingbasees·金仓数据库
编程充电站pro2 小时前
SQL 面试题解析:如何用多表查询写用户订单统计?
数据库·sql
小蒜学长4 小时前
jsp基于JavaWeb的原色蛋糕商城的设计与实现(代码+数据库+LW)
java·开发语言·数据库·spring boot·后端
摩羯座-1856903059413 小时前
爬坑 10 年!京东店铺全量商品接口实战开发:从分页优化、SKU 关联到数据完整性闭环
linux·网络·数据库·windows·爬虫·python