(数据科学学习手札161)高性能数据分析利器DuckDB在Python中的使用

本文完整代码及附件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes

1 简介

大家好我是费老师,就在几天前,经过六年多的持续开发迭代,著名的开源高性能分析型数据库DuckDB发布了其1.0.0正式版本。

DuckDB具有极强的单机数据分析性能表现,功能丰富,具有诸多拓展插件,且除了默认的SQL查询方式外,还非常友好地支持在PythonRJavaNode.js等语言环境下使用,特别是在Python中使用非常的灵活方便,今天的文章,费老师我就将带大家一起快速了解DuckDBPython中的常见使用姿势😎~

2 DuckDB在Python中的使用

DuckDB的定位是嵌入式关系型数据库,在Python中安装起来非常的方便,以当下最主流的开源Python环境管理工具mamba为例,直接在终端中执行下列命令,我们就一步到位的完成了对应演示虚拟环境的创建,并在环境中完成了python-duckdbjupyterlabpandaspolars等相关分析工具的安装:

bash 复制代码
mamba create -n duckdb-demo python=3.9 -y && mamba activate duckdb-demo && mamba install python-duckdb jupyterlab pandas polars pyarrow -y

2.1 数据集的导入

2.1.1 直接导入文件

作为一款数据分析工具,能够方便灵活的导入各种格式的数据非常重要,DuckDB默认可直接导入csvparquetjson等常见格式的文件,我们首先使用下列代码生成具有五百万行记录的简单示例数据,并分别导出为csvparquet格式进行比较:

python 复制代码
# 利用pandas生成示例数据文件
import numpy as np
import pandas as pd

generated_df = pd.DataFrame(
    {
        '类别': np.random.choice(list('ABCDEF'), 1000000),
        '数值': np.round(np.random.uniform(0, 1000000, 1000000), 3)
    }
)

# 分别导出为csv、parquet格式
generated_df.to_csv('./demo_data.csv', index=False)
generated_df.to_parquet('./demo_data.parquet')

针对两种格式的文件,分别比较默认情况下DuckDBpandaspolars的读取速度:

  • csv格式
  • parquet格式

可以看到,无论是对比pandas还是polarsDuckDB的文件读取性能都是大幅领先甚至碾压级的⚡。

除此之外,DuckDB也可以通过SQL语句的方式进行等价操作:

2.1.2 读取其他框架的数据对象

除了默认可直接读取少数几种常见数据格式外,DuckDBPython中还支持直接以执行SQL语句的方式,直接读取pandaspolars等框架中的数据框,这一点可太强大了,意味着只要是pandaspolars等框架可以读取的格式,DuckDB都可以直接"拿来吧你"🤣:

2.2 执行分析运算

DuckDB作为一款关系型数据库,其执行分析运算最直接的方式就是写SQL,针对DuckDB默认读取到内存中的对象(DuckDB中称作关系):

我们可以通过duckdb.sql()直接将关系当作表名,书写SQL语句进行查询分析,下面是一些简单的例子:

比较一下与pandaspolars之间执行相同任务的耗时差异,DuckDB依旧是碾压级的存在👍:

2.3 计算结果转换

DuckDB默认自带的文件写出接口比较少,依旧是只针对csvparquet等主流格式具有相应的write_parquet()write_csv()可以直接导出文件,但是针对PythonDuckDB提供了多样化的数据转换接口,可以快捷高效地将计算结果转换为Python对象、pandas数据框、polars数据框、numpy数组等常用格式:

基于此,就不用担心通过DuckDB计算的数据结果不好导出为其他各种格式文件了~

如果你恰好需要转出为csvparquet等格式,那么直接使用DuckDB的文件写出接口,性能依旧是非常强大的:

  • csv格式
  • parquet格式

更多有关DuckDBPython中应用的内容,请移步官方文档(https://duckdb.org/docs/api/python/overview),费老师我也会在之后持续的分享DuckDB相关教程文章,欢迎持续关注,一起来熟练掌握这款数据分析利器😉。


以上就是本文的全部内容,欢迎在评论区与我们进行讨论~

相关推荐
wshlp12345632 分钟前
deepseek api 灵活使用
python
明月说数据1 小时前
Smartbi 10 月版本亮点:AIChat对话能力提升,国产化部署更安全
ai·数据分析·版本更新
AI视觉网奇1 小时前
coco json 分类标注工具源代码
开发语言·python
要加油GW2 小时前
python使用vscode 需要配置全局的环境变量。
开发语言·vscode·python
B站计算机毕业设计之家2 小时前
python图像识别系统 AI多功能图像识别检测系统(11种识别功能)银行卡、植物、动物、通用票据、营业执照、身份证、车牌号、驾驶证、行驶证、车型、Logo✅
大数据·开发语言·人工智能·python·图像识别·1024程序员节·识别
@小红花2 小时前
Tableau 从零到精通:系统教学文档(自学版)
信息可视化·数据挖掘·数据分析
快乐的钢镚子2 小时前
思腾合力云服务器远程连接
运维·服务器·python
苏打水com2 小时前
爬虫进阶实战:突破动态反爬,高效采集CSDN博客详情页数据
爬虫·python
夫唯不争,故无尤也3 小时前
三大AI部署框架对比:本地权重与多模型协作实战
人工智能·python·深度学习
be_humble3 小时前
GPU机器-显卡占用
pytorch·python·深度学习