从零搭建量化投资系统:用 Qlib 一行代码搞定均线分析

一、前言:你还在用 Excel 拉数据吗?

如果你曾经手动从财经网站下载 CSV,然后在 Excel 里拖公式算均线、画折线图,你一定懂那种"数据还没分析完,耐心先耗光了"的感觉。

量化投资的核心从来不是那几行策略代码,而是高效的数据处理管线 。今天介绍的 Qlib,是微软亚洲研究院开源的 AI 量化投资框架,涵盖了数据获取、特征工程、模型训练、回测评估的全流程。

本文从一个最小化示例出发------拉取贵州茅台一年的收盘价并计算 5 日均线------带你跑通 Qlib 的"Hello World"。


二、为什么选 Qlib?三个字:高性能

在量化领域,数据引擎选型绕不开这几个方案:

方案 优点 痛点
手动 CSV + Pandas 简单直观 数据源不稳定,多品种时文件膨胀严重
Tushare / AkShare + 自建管线 数据覆盖全 需要自己写缓存层和表达式解析
Qlib 内置数据引擎 + 公式表达式解析 + AI 模型集成 有学习曲线,非中国数据需自行适配

Qlib 最大的杀手锏是其 表达式引擎 ------你不需要手动写 df['MA5'] = df['close'].rolling(5).mean(),直接写 "Mean($close, 5)" 字符串,Qlib 内部会自动解析并向量化执行。这在因子数量膨胀到上百个时,优势极其明显。


三、核心代码逐行拆解

先看完整代码(不到 30 行):

python 复制代码
import qlib
import matplotlib.pyplot as plt

# 1. 初始化 Qlib
qlib.init(provider_uri="~/.qlib/qlib_data/cn_data", region="cn")

from qlib.data import D

# 2. 定义标的与指标
instruments = ["600519.SH"]
fields = ["$close", "Mean($close, 5)"]
start_time = "2024-01-01"
end_time = "2024-12-31"

# 3. 加载数据
df = D.features(instruments, fields,
start_time=start_time, end_time=end_time)

# 4. 可视化
df.plot(title="600519.SH 贵州茅台 - 收盘价与5日均线", figsize=(12, 6))
plt.show()

下面逐模块深挖。

3.1 初始化:qlib.init()

python 复制代码
qlib.init(provider_uri="~/.qlib/qlib_data/cn_data", region="cn")

这行代码是 Qlib 的"开机键"。provider_uri 指向本地数据目录,region="cn" 告诉 Qlib 使用中国市场的交易日历和节假日规则。

踩坑预警 :如果你还没下载数据,直接运行这行会报 FileNotFoundError。前置操作为:

bash 复制代码
python -m qlib.run.get_data qlib_data --region cn

下载完成后,~/.qlib/qlib_data/cn_data 下会出现按日期分片的 calendar/features/ 目录,数据以 .bin 二进制格式存储,读取速度远超 CSV。

3.2 表达式引擎:D.features()

python 复制代码
fields = ["$close", "Mean($close, 5)"]
df = D.features(instruments, fields, start_time=start_time, end_time=end_time)

这是 Qlib 最核心的抽象。注意 $close$ 前缀------它表示这是一个原生字段 (直接从数据源读取),而 Mean($close, 5) 是一个衍生表达式(由 Qlib 的表达式引擎动态计算)。

Qlib 支持的表达式远不止 Mean,还包括:

表达式 含义
$close 收盘价
Mean($close, 5) 5 日均线
Std($close, 20) 20 日标准差
Corr($close, $volume, 20) 收盘价与成交量的 20 日相关系数
Ref($close, -1) 前一日收盘价(-1 表示前一天)
($close - $open) / $open 日涨跌幅

设计精妙之处 :Qlib 会将所有表达式编译成一个统一的 AST(抽象语法树),合并重复的子表达式,然后一次性批量计算。这意味着你写 50 个因子,底层只做了一次全表扫描,而不是 50 次 apply

3.3 可视化:Pandas 原生支持

python 复制代码
df.plot(title="600519.SH 贵州茅台 - 收盘价与5日均线", figsize=(12, 6))
plt.show()

D.features() 返回的是一个标准的 pd.DataFrame,索引是时间,列为 $closeMean($close, 5)。直接用 Pandas 的 .plot() 方法就能出图,不需要额外适配。

预期的图表效果:收盘价(蓝色)呈现 2024 年的实际走势,5 日均线(橙色)是一条更平滑的曲线,两条线交织在一起------金叉死叉的信号一目了然。


四、常见踩坑与最佳实践

坑 1:时间范围超出数据覆盖

如果你设置 start_time="2010-01-01" 但本地数据只覆盖到 2014 年,D.features() 不会报错,而是返回空 DataFrame。建议先用 D.calendar() 确认交易日历范围。

坑 2:Stock 代码格式

中国市场的 Qlib 代码格式为 {代码}.{交易所},其中:

  • SH = 上海交易所(6 开头)
  • SZ = 深圳交易所(0/3 开头)

常见错误是写 600519.XSHG(这是其他数据源的格式),Qlib 不认。

坑 3:provider_uri 路径

~ 在 Python 中可能不会被展开,建议写成:

python 复制代码
import os
provider_uri = os.path.expanduser("~/.qlib/qlib_data/cn_data")
qlib.init(provider_uri=provider_uri, region="cn")

最佳实践:多标的批量查询

真实策略不会只看一只股票。Qlib 支持一次传入多个标的:

python 复制代码
instruments = ["600519.SH", "000858.SZ", "601318.SH"] # 茅台、五粮液、中国平安
df = D.features(instruments, fields, start_time=start_time, end_time=end_time)

返回的 DataFrame 会自动加上 MultiIndex,第一层是 instrument,第二层是 datetime,用 df.xs("600519.SH") 即可切片到单只股票。


五、总结与下一步

本文通过 30 行代码,走通了 Qlib 的三大核心能力:

  1. 数据管线qlib.init() + 本地二进制存储,告别 CSV 地狱
  2. 表达式引擎D.features() 用声明式语法替代手写 Pandas 计算,性能与可读性兼得
  3. 无缝可视化:输出标准 DataFrame,与 matplotlib / plotly 生态完美兼容

进阶路线建议

  • qlib.contrib.data.handler.Alpha158 自动生成 158 个技术因子
  • qlib.contrib.model 下的 LSTM / LightGBM 训练股价预测模型
  • qlib.backtest 跑完整的回测流程,计算 Sharpe 比率与最大回撤

量化投资的入门门槛已经被这些开源框架拉到了前所未有的低点。真正稀缺的不再是工具,而是你对市场的独立判断------工具只是帮你省下时间,把精力花在该花的地方。


本文代码基于 Qlib 官方示例简化,运行环境:Python 3.9+,qlib ≥ 0.9,Windows 11。