python如何将一个dataframe快速写入clickhouse

目录

前言

dataframe是用python做数据分析最场景的数据结构了,如何将dataframe数据快速写入到clickhouse数据库呢?这里介绍几种方法,各有优劣势,可以结合自己的使用场景挑用。

思路与核心代码

假设df是一个dataframe数据结构,一共有5个列。

  • to_records一条一条插入
python 复制代码
df = pd.Dataframe()

for x in df.to_records(index = False): 
    sql = "INSERT INTO database.table_name(col1,col2,col3,col4,col5)VALUES"+str(tuple(x))
    # print(sql)
    client.execute(sql)

这种方法将dataframe里面每一个看车一个record记录,一条记录一条记录插入clickhouse数据表,不容易出岔子,但是一旦数据量很大,就会要很长时间;

  • 整个dataframe插入
python 复制代码
df = pd.Dataframe()

insert_query = 'INSERT INTO  database.table_name(col1,col2,col3,col4,col5)VALUES'  
values_query = ','.join([tuple(df.iloc[i]) for i in range(len(df))])  
insert_query += f' ({",".join([f"({col}, {val})" for col, val in zip(df.columns, values_query)])})'  
cursor = conn.cursor()  
cursor.execute(insert_query)

这种方法先利用values_query变量将每一行的数据转换为字符串形式,然后,使用INSERT语句将通过将整个DataFrame一次性插入ClickHouse中,避免了频繁的网络通信,从而提高了性能。但是需要注意的是,这种方法只适用于小型数据集。其实,也可以仿MySQL那样用to_sql的方法一次性塞入表里面

python 复制代码
df = pd.Dataframe()

df.to_sql('database.table_name', conn, if_exists='append', index=False) 
  • parallel插入
python 复制代码
insert_query = 'INSERT INTO my_table (name, age, salary) VALUES'  
values_query = ','.join([tuple(df.iloc[i]) for i in range(len(df))])  
insert_query += f' ({",".join([f"({col}, {val})" for col, val in zip(df.columns, values_query)])})'  
cursor = conn.cursor()  
cursor.execute(insert_query, parameters=None, execution_profile='parallel')

对于超大型数据集,建议使用ClickHouse的并行插入功能或其他分布式技术。

优缺点分析

1,如果提前构造好了dataframe,且dataframe数据量适中,那么可以考虑一次性塞入,如果dataframe数据量足够大超出了内存容量,那么就要考虑了;

2,对于哪些容易丢失的还是一条一条插入数据库为好;

相关推荐
清风~徐~来7 分钟前
【视频点播系统】Etcd-SDK 介绍及使用
数据库·etcd
计算机毕设VX:Fegn08958 分钟前
计算机毕业设计|基于springboot + vue球鞋购物系统(源码+数据库+文档)
数据库·vue.js·spring boot·后端·课程设计
仍然.10 分钟前
MYSQL--- 表的设计
数据库·mysql
刘一说14 分钟前
Java中基于属性的访问控制(ABAC):实现动态、上下文感知的权限管理
java·网络·python
一晌小贪欢15 分钟前
Python 操作 Excel 高阶技巧:用 openpyxl 玩转循环与 Decimal 精度控制
开发语言·python·excel·openpyxl·python办公·python读取excel
铁蛋AI编程实战18 分钟前
Falcon-H1-Tiny 微型 LLM 部署指南:100M 参数也能做复杂推理,树莓派 / 手机都能跑
java·人工智能·python·智能手机
数据知道22 分钟前
PostgreSQL的连接方式有哪些?有哪些连接工具?
数据库·postgresql
柚子科技24 分钟前
毕业设计不用愁:一个免费的 SQL 转 ER 图在线工具,真香!
数据库·sql·毕业设计·课程设计·毕设
xuefuhe24 分钟前
postgresql获取真正的execution plan
数据库·postgresql
xcLeigh25 分钟前
KingbaseES数据库:ksql 命令行从建表到删表实战(含避坑指南)
数据库·增删改查·国产数据库·金仓数据库