我用 Rust 写了个数据文件预览工具,167MB Parquet 35ms 出结果

我用 Rust 写了个数据文件预览工具,167MB Parquet 35ms 出结果

背景

做数据工程时经常遇到这个场景:

收到一个陌生的 .parquet.csv 文件,想快速了解它有多少行、哪些列、什么类型。

常规操作是打开 Python:

python 复制代码
import polars as pl
df = pl.read_parquet("file.parquet")
print(df.shape)
print(df.schema)
print(df.head())

等个几秒,看完,关掉。

每天重复十几次,很烦。

于是我写了 dpeek,一个基于 Polars 的命令行数据预览工具。


一行命令看清楚

行数、列数、类型、数据,一次看全。

还支持:

bash 复制代码
dpeek tail file.parquet         # 看最后几行
dpeek schema file.parquet       # 只看列名和类型
dpeek -c col1,col2 file.csv     # 只看部分列
dpeek -n 20 file.csv            # 看前20行
dpeek --fast file.csv           # 大文件跳过全量扫描

为什么快?

Parquet 的秘密: Parquet 文件把 schema、行数、统计信息都存在文件末尾的 footer 里。dpeek 直接读 footer,不用扫描数据------167MB 的文件,实际 I/O 不到 1MB。

CSV 的权衡: CSV 没有元数据,行数和类型只能扫全文。默认模式会扫完整个文件保证准确;加 --fast 只读前 100 行,1.8GB 的 CSV 也能 90ms 出结果。

性能数据(Apple M4,含进程启动):

文件 大小 模式 耗时
titanic.parquet 11KB 默认 ~23ms
167MB Parquet 167MB 默认 ~35ms
1.8GB CSV 1.8GB --fast ~24ms

对比:pandas/pyarrow 作为 CLI 工具调用,光 Python 解释器启动就要 ~500ms。


安装

最省事的方式(有 uv 就行,自动安装不污染环境):

bash 复制代码
uvx dpeek file.parquet

或者永久安装:

bash 复制代码
uv tool install dpeek   # 之后直接 dpeek
brew install Xyc2016/tap/dpeek
cargo binstall dpeek
pip install dpeek

技术栈

  • Rust --- 核心逻辑
  • Polars 0.53 --- DataFrame 引擎,Parquet/CSV 读取
  • clap 4 --- CLI 解析
  • maturin --- 打包成 Python wheel 发布到 PyPI
  • GitHub Actions --- 三平台构建 + 自动发布 PyPI / Homebrew tap

二进制 39MB(LTO + strip),PyPI wheel 直接包含预编译二进制,无需本地编译。

GitHub: github.com/Xyc2016/dpe...

欢迎 Star ⭐ 和提 Issue!

相关推荐
Rust研习社2 小时前
Weak 弱引用:如何用 Weak 打破 Rc 与 Arc 的循环引用
开发语言·后端·rust
DogDaoDao3 小时前
【GitHub】Warp 终端深度解析:Rust + GPU 加速的 AI 原生终端开源架构
人工智能·程序员·rust·开源·github·ai编程·warp
舟遥遥娓飘飘3 小时前
量化投资体系之二:为 Web 看板集成公众号/财经原始数据
前端·数据分析·自动化·ai编程
wangruofeng3 小时前
Rust 深度调研:从 Linux 内核到 Cloudflare,为什么最硬核的项目都在用 Rust?
架构·rust
咸甜适中3 小时前
rust语言学习笔记Trait之Debug、Display
笔记·学习·rust
yaodong51816 小时前
不会Python也能数据分析:Gemini 3.1 Pro解决办公问题的SQL自动生成
python·sql·数据分析
时空系19 小时前
第9篇:成员功能——为结构体添加能力 Rust中文编程
开发语言·网络·rust
PaperData21 小时前
2000-2023年地级市数字基础设施评价指标体系
大数据·网络·数据库·人工智能·数据分析·经管