CSV数据导入到ClickHouse数据库

问题描述:手头上有一个数据量较大的CSV文件,希望导入到指定的ClickHouse数据中,ClickHouse部署在服务器中。

解决方案:通常来说,数据量较少的CSV文件可以直接通过DBeaver软件的可视化界面导入数据。

若数据量较大,则建议将CSV文件传输到clickhouse所在服务器上,使用命令将数据导入到数据库中指定的表中。(提前在数据库中根据字段建立表结构)

step1:在数据库中建立对应的表

方法一:可以借助DBeaver的可视化界面,在里面编写SQL建表语句

方法二:在服务器中,进入clickhouse交互式界面。在交互式界面编写SQL语句建表。
clickhouse-client --host=127.0.0.1 --port 9000 --user default

step2:导入CSV数据

在服务器的命令行界面,执行如下语句:

  • 导入的CSV文件没有字段名称时:
    cat csv文件路径 | clickhouse-client --query="INSERT INTO 数据库.表名 FORMAT CSV"

  • 导入的CSV文件有字段名称时
    cat csv文件路径 | clickhouse-client --query="INSERT INTO 数据库.表名 FORMAT CSVWithNames"

  • 如果想要跳过首行,或者特定行,则可以使用如下命令:(1d表示跳过第一行)
    sed '1d' csv文件路径 | clickhouse-client --query="INSERT INTO 数据库.表名 FORMAT CSV"

  • (重要)clickhouse-client INSERT CSV/TSV时跳过错误行

    在使用clickhouse-client向ck中导入csv文件时,当csv中有个别行数据格式错误时,整个文件就插入失败了,经常会导致丢数据。
    案例 :指定允许错误条数为10000,错误比率为0.1
    cat a.csv | clickhouse-client --host 127.0.0.1 --port 9000 --database default \ --user default --query="INSERT INTO tb_a FORMAT CSVWithNames " \ --format_csv_delimiter="|" --input_format_allow_errors_num=10000 \ --input_format_allow_errors_ratio=0.1

  • clickhouse官方推荐语句:在clickhouse-client客户端的安装目录下执行如下命令。
    cat <本地文件名> | ./clickhouse-client --host=<数据库连接地址> --port=<TCP端口号> --user=<数据库账号> --password=<数据库账号的密码> --query="INSERT INTO <ClickHouse表名> FORMAT <本地文件格式>";

相关推荐
小云数据库服务专线12 分钟前
GaussDB数据库架构师修炼(十六) 如何选择磁盘
数据库·数据库架构·gaussdb
码出财富1 小时前
SQL语法大全指南
数据库·mysql·oracle
异世界贤狼转生码农3 小时前
MongoDB Windows 系统实战手册:从配置到数据处理入门
数据库·mongodb
QuZhengRong3 小时前
【数据库】Navicat 导入 Excel 数据乱码问题的解决方法
android·数据库·excel
码农阿豪3 小时前
Windows从零到一安装KingbaseES数据库及使用ksql工具连接全指南
数据库·windows
时序数据说9 小时前
时序数据库市场前景分析
大数据·数据库·物联网·开源·时序数据库
听雪楼主.12 小时前
Oracle Undo Tablespace 使用率暴涨案例分析
数据库·oracle·架构
我科绝伦(Huanhuan Zhou)12 小时前
KINGBASE集群日常维护管理命令总结
数据库·database
妖灵翎幺12 小时前
Java应届生求职八股(2)---Mysql篇
数据库·mysql
HMBBLOVEPDX12 小时前
MySQL的事务日志:
数据库·mysql