技术栈
parquet
七夜zippoe
6 天前
物联网
·
json
·
csv
·
parquet
·
dolphindb
DolphinDB数据导入导出:CSV、JSON、Parquet
本文系统介绍DolphinDB数据导入导出功能。从CSV文件到JSON数据,从Parquet格式到数据库同步,全面讲解各类数据格式的导入导出方法。通过丰富的代码示例,帮助读者掌握高效的数据交换技能。
achi010
8 天前
csv
·
gcp
·
parquet
·
bigquery
·
avro
·
google cloud
·
bigquery 导出格式
GCP BigQuery 导出:CSV 与二进制格式(Parquet/Avro)全维度深度对比
本文基于 Google Cloud 官方文档与第三方权威性能测试,对 BigQuery 导出场景下 CSV文本格式 与 主流二进制格式(Parquet/Avro) 进行全维度对比,包含核心特性、优缺点、性能、大数据量场景分析,并提供官方文档支撑与可直接运行的演示案例。
喜欢吃豆
6 个月前
人工智能
·
语言模型
·
自然语言处理
·
大模型
·
parquet
Parquet 范式:大语言模型训练数据格式优化的基础解析
将数据格式转换为 Apache Parquet 并非一种随意的偏好,而是针对大规模数据处理(尤其是大语言模型 (LLM) 训练)的一项基础性能优化。Parquet 格式通过其列式存储架构,在 I/O 效率、存储成本和查询性能方面提供了数量级的提升。
亚林瓜子
7 个月前
hadoop
·
macos
·
cli
·
parquet
在mac上面使用parquet-cli查看parquet文件
需要在mac上面简单查看parquet文件,parquet格式是hadoop生态的文件格式。也就是说,这个是大数据这块领域的基础文件格式之一。
柯大侠爱喝水
1 年前
python
·
pandas
·
csv
·
hdf5
·
parquet
python pandas ,处理csv文件、hdf5文件、parquet文件效率详细对比
废话不多说,先放结论:1. python 处理csv 和hdf5对比我本地存了100个小的csv文件(内容是股票交易数据),总30M
archimekai
2 年前
数据结构
·
数据库
·
google
·
parquet
Google Dremel和parquet的复杂嵌套数据结构表征方法解析
转载请注明出处。作者:archimekai 核心参考文献: Dremel: Interactive Analysis of Web-Scale Datasets
Dreammmming Time
2 年前
spark
·
iceberg
·
vectorized
·
parquet
Iceberg: 列式读取Parquet数据
BaseBatchReader支持以Batch + Vectorized的特性,读取底层的文件。通过VectorizedSparkParquetReaders::build Reader()静态方法创建的读取器,关键特性如下:
我是有底线的