clickhouse-client INSERT CSV/TSV时跳过错误行

clickhouse-client INSERT CSV/TSV时跳过错误行

在使用clickhouse-client向ck中导入csv文件时,当csv中有个别行数据格式错误时,整个文件就插入失败了,经常会导致丢数据。

经过一番搜索,发现ck提供了两个参数可以跳过错误行,其他的行正常入库,可以满足要求。

参数说明

input_format_allow_errors_num

设置从文本格式(CSV、TSV等)读取时可接受的最大错误数。

默认值为0。

如果在读取行时发生错误,但错误数仍然小于input_format_allow_errors_num时,则ck将忽略该行并转到下一行。

input_format_allow_errors_ratio

设置从文本格式(CSV、TSV等)读取时允许的最大错误百分比。错误百分比设置为介于0和1之间的浮点数。

默认值为0。

如果在读取行时发生错误,但错误比率小于input_format_allow_errors_ratio,则ck将忽略该行并转到下一行。

两个参数可以单独设置,当超过阈值时才抛出错误。

也可以同时设置,当两个阈值都超过时,再抛出错误。

参数设置方式

在配置文件中设置

在配置文件中添加以下行即可,是作用于整个ck的,不建议这么配置。

xml 复制代码
<input_format_allow_errors_num>10000</input_format_allow_errors_num>
<input_format_allow_errors_ratio>0.1</input_format_allow_errors_ratio>

在插入数据的时候配置

在插入时指定如下配置,配置是针对本次插入的,建议使用这种配置。

cmd 复制代码
--input_format_allow_errors_num=1 
--input_format_allow_errors_ratio=0.1

使用案例

指定允许错误条数为10000,错误比率为0.1

cmd 复制代码
cat a.csv | clickhouse-client --host 127.0.0.1 --port 9000 --database default  \ 
--user default  --query="INSERT INTO tb_a FORMAT CSVWithNames "  \ 
--format_csv_delimiter="|" --input_format_allow_errors_num=10000 \ 
--input_format_allow_errors_ratio=0.1 
相关推荐
indexsunny几秒前
互联网大厂Java面试实战:从Spring Boot到微服务架构的深度解析
java·spring boot·spring cloud·kafka·prometheus·security·microservices
bukeyiwanshui19 分钟前
Linux实践
linux·运维·服务器
ChoSeitaku28 分钟前
NO.2|proto3语法|消息类型|通讯录|文件读取|enum类型
java·服务器·前端
庞轩px40 分钟前
MinorGC的完整流程与复制算法深度解析
java·jvm·算法·性能优化
zhouping@42 分钟前
JAVA学习笔记day06
java·笔记·学习
MinterFusion1 小时前
如何在开放麒麟(openKylin)下安装FTP服务器(v0.1.0)
运维·服务器·网络·vsftpd·开放麒麟·明德融创·openkylin
毕设源码-郭学长1 小时前
【开题答辩全过程】以 某某协会管理与展示平台为例,包含答辩的问题和答案
java
多云的夏天1 小时前
docker容器部署-windows-ubuntu
java·docker·容器
庞轩px1 小时前
内存区域的演进与直接内存——JVM性能优化的权衡艺术
java·jvm·笔记·性能优化
xlq223221 小时前
30.进程池IPC
linux·运维·服务器