量化人必看|miniQMT踩坑记:回测太慢?一招教你把行情数据“搬回家”!

今天继续分享miniQMT系列文章。

关于行情处理的Python代码在文章最后面,不愿意看的可以直接拉到最后

这篇文章主要聊的是行情数据下载。很多朋友可能会问:既然 xtquant 已经提供了在线获取行情的接口,为什么还要自己费劲把数据下载到本地?🤔

原因很简单------为了后面的策略回测更高效!如果每次回测都临时从 xtquant 拉数据,不仅慢,还会严重拖累回测的效率。把行情先存到本地,相当于提前把食材备好,后面炒菜(回测)的时候就能快很多啦。


直接从xtquant获取行情之前我们需要先调用download_history_data (下载单个股票行情)或者download_history_data2 (下载多个股票行情)把行情下载到本地,然后通过get_market_data_ex 来获取对应的行情数据。

行情目前支持"1m","5m","15m","30m","60m","1d", "1w", "1mon", "1q", "1y","tick"等周期。

聊一聊踩到的坑

从 xtquant 拿行情,速度很慢,一开始用了多线程,发现代码运行一半就直接卡死了,后来没办法改成了单线程,每次批量下载500个股票的数据,基本上能在10分钟以内把日线行情下载到本地了。

接下来是重点了

行情相关接口我封装了8个方法

  • get_kline_oneline_multi 直接从xtquant拉取多个股票的行情,返回Dataframe格式数据,有一个stock的列,里面是股票代码

  • get_kline_oneline 直接从xtquant拉取1个股票的行情,返回Dataframe格式数据,有一个stock的列,里面是股票代码

  • down_all_kline_to_feather 把全部行情数据下载到本地,并保存成一个feather格式的文件

  • down_all_kline_to_parquet 把全部行情数据下载到本地,并保存成一个parquet格式的文件

  • get_kline_from_feather_multi 从本地feather文件读取多个股票的行情

  • get_kline_from_feather 从本地feather文件读取单个股票的行情

  • get_kline_from_parquet_multi 从本地parquet文件读取多个股票的行情

  • get_kline_from_parquet 从本地parquet文件读取单个股票的行情


行情数据保存成 Feather 还是 Parquet?怎么选?

很多刚入门量化的小伙伴都会问我: 「行情数据保存的时候,用 feather 好还是 parquet 好?差别大吗?」

1. 这两种格式是干什么的?

无论是 feather 还是 parquet ,本质都是 数据存储格式,它们的作用就是:

把 Pandas 的 DataFrame 快速保存到硬盘

相比 csv,这两种格式有两个明显优点:

  1. 读写速度快很多
  2. 保留数据类型(时间、浮点数、字符串等),不需要额外解析

2. 什么时候用 feather?

特点:

  • 读写速度特别快
  • 没有压缩,文件大一点
  • 代码特别简单

适合:

  • 数据量不大(几百 MB 到 1GB 以内)
  • 回测、研究主要在本地单机进行
  • 每次回测只需要一次性把数据全读进内存

如果你电脑空间够,追求,选 feather 就对了。


3. 什么时候用 parquet?

特点:

  • 自带压缩,文件体积小
  • 支持按列读取、分块处理,扩展性更强
  • 读取速度比 feather 慢一点点(一般慢 10%--30%)

适合:

  • 数据量很大(几个 GB 甚至几十 GB)
  • 做长期数据存储或者在云端、集群环境里使用
  • 未来有增量处理、按列查询等需求

如果你的数据很大,存储空间宝贵,选 parquet 更合适。


4. 实战经验

我自己的经验是这样:

  • 本地回测:先存 parquet(节省空间),需要回测的时候,提前转成 feather,加载速度快很多。
  • 长期数据仓库:统一用 parquet 格式存储。

parquet 可以看成是"压缩版的长期存储", feather 更像是"临时高速缓存"。


5. 代码对比

保存:

python 复制代码
# 保存 feather
df.to_feather("a_stock_kline_1d.feather")

# 保存 parquet
df.to_parquet("a_stock_kline_1d.parquet", engine="pyarrow", compression="snappy")

读取:

python 复制代码
# 读取 feather
df = pd.read_feather("a_stock_kline_1d.feather")

# 读取 parquet
df = pd.read_parquet("a_stock_kline_1d.parquet", engine="pyarrow")

6. 最后给新手的建议

  • 数据小:优先 feather,快!

  • 数据大:优先 parquet,省空间!

  • 如果你还不确定,保存 parquet,反正随时可以转成 feather:

    python 复制代码
    pd.read_parquet("xxx.parquet").to_feather("xxx.feather")

源码

相关推荐
biter down19 分钟前
基于 Pywinauto 的 QQ 音乐 GUI 自动化测试实践
python
人道领域22 分钟前
【LeetCode刷题日记】669.修剪二叉搜索树
开发语言·python·算法
ZC跨境爬虫1 小时前
跟着 MDN 学CSS day_29:(掌握文本与字体样式的核心艺术)
前端·css·ui·html·tensorflow
EntyIU2 小时前
mineru从安装部署到测试使用完整指南
python·ocr
李子琪。2 小时前
网络空间安全深度实战:CSRF 漏洞原理剖析与基于 Token 的纵深防御体系构建(全栈实验报告)
前端·安全·csrf
冰暮流星2 小时前
javascript之history对象介绍
前端·笔记
IT_陈寒2 小时前
Vite热更新失灵?你可能漏了这个配置
前端·人工智能·后端
丷丩2 小时前
MapLibre GL JS第19课:实时更新要素
前端·javascript·gis·map·mapbox·maplibre gl js
Mr.Daozhi2 小时前
RAG 进阶实战:跑通 Demo 后我连续翻了 6 次车,逐一修复才真正可用(含 Gradio Web 版)
前端·数据库·langchain·大模型·gradio·rag·科研工具
安替-AnTi2 小时前
厚朴 APK 搜索接口分析
python·apk·解析·taobao