从基础到实战的量化交易全流程学习：1.3 数学与统计学基础——概率与统计基础

从基础到实战的量化交易全流程学习：1.3 数学与统计学基础------概率与统计基础 | 基础概念

第一部分：概率与统计基础

第1节：基础概念：随机变量、概率分布、大数定律与中心极限定理

一、随机变量与概率分布：用数学描述市场不确定性

1. 随机变量：从"随机事件"到"数字语言"

定义与分类

随机变量（Random Variable）是一个将随机试验结果映射到实数的函数，记为 ( X )。
离散型随机变量 ：取值为有限个或可数无穷个
- 例子：抛硬币结果（正面=1，反面=0）
连续型随机变量 ：取值充满某个区间
- 例子：股票价格（如 ( X \in [0, +\infty) )）

量化交易中的例子

随机事件	随机变量定义	类型
某股票是否上涨	( X=1 )（上涨），( X=0 )（下跌）	离散型
标的资产月波动率	( X \in [0, 50%] )	连续型

2. 概率分布：刻画随机变量的"可能性图谱"

离散型分布：概率质量函数（PMF）

定义：( P(X=x_i) ) 表示随机变量取特定值 ( x_i ) 的概率
性质：所有概率之和为1，即 ( \sum_{i} P(x_i) = 1 )
二项分布示例（策略在10次交易中盈利 ( k ) 次的概率）：

P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k
- 其中 n = 10 n=10 n=10， p = 0.6 p=0.6 p=0.6，期望值 μ = n p = 6 \mu = np = 6 μ=np=6

连续型分布：概率密度函数（PDF）

定义：用 ( f(x) ) 描述随机变量在 ( x ) 附近的概率密度
性质：总面积为1，即 ( \int_{-\infty}^{+\infty} f(x)dx = 1 )
正态分布示例 （股票对数收益率）：
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=σ2π 1e−2σ2(x−μ)2
- 均值 μ \mu μ，标准差 σ \sigma σ

二、大数定律：用"大量数据"看穿市场本质

1. 数学表达与直观理解

弱大数定律（辛钦大数定律） ：
lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − μ ∣ < ϵ ) = 1 \lim_{n\to\infty} P\left( \left| \frac{1}{n}\sum_{i=1}^n X_i - \mu \right| < \epsilon \right) = 1 n→∞limP( n1i=1∑nXi−μ <ϵ)=1
- 样本均值收敛于总体均值 μ \mu μ
- 核心结论：样本量越大，样本均值越接近总体均值
- 量化应用：策略回测时，用历史交易的平均收益估计真实期望收益

2.大数定律的直观演示

假设某策略单次交易的收益期望为 ( \mu = 0.5% )，标准差 ( \sigma = 5% )。

当交易次数 ( n=10 ) 时，样本均值可能剧烈波动
当 ( n=1000 ) 时，样本均值稳定在 ( 0.5% ) 附近

三、中心极限定理（CLT）：让"非正态数据"变得"正态可控"

1. 数学表达与核心思想

定理内容 ：
设 ( X_1, X_2, \dots, X_n ) 是独立同分布随机变量，期望 ( \mu )，方差 ( \sigma^2 )，则当 ( n ) 足够大时，样本均值 ( \bar{X}_n ) 近似服从正态分布：
X ˉ n ∼ N ( μ , σ 2 n ) \bar{X}_n \sim N\left( \mu, \frac{\sigma^2}{n} \right) Xˉn∼N(μ,nσ2)
- 均值 μ \mu μ，标准差 σ / n \sigma/\sqrt{n} σ/n
关键点 ：
1. 无论原始分布如何，均值分布趋近正态
2. 均值分布的方差随样本量 ( n ) 增大而减小

2. 量化应用：构建收益置信区间

假设某策略日收益标准差 ( \sigma = 2% )，回测 ( n=252 ) 天（约1年），样本均值 ( \bar{R} = 0.1% )，则 95% 置信区间为：：

R ˉ ± 1.96 × σ n \bar{R} \pm 1.96 \times \frac{\sigma}{\sqrt{n}} Rˉ±1.96×n σ

例： R ˉ = 0.1 % \bar{R} = 0.1\% Rˉ=0.1%， σ = 2 % \sigma = 2\% σ=2%， n = 252 n=252 n=252，计算得 0.1 % ± 0.25 % 0.1\% \pm 0.25\% 0.1%±0.25%
若区间包含0，则不能排除策略无效的可能性

四、Python实战：代码验证与可视化

1. 验证大数定律

python 复制代码

import numpy as np
import matplotlib.pyplot as plt

# 生成指数分布数据（均值μ=2）
np.random.seed(42)
data = np.random.exponential(scale=2, size=10000)

# 计算累积均值
cumulative_means = np.cumsum(data) / np.arange(1, 10001)

# 可视化
plt.plot(cumulative_means, label='样本均值')
plt.axhline(2, color='red', linestyle='--', label='真实均值 μ=2')
plt.xlabel('样本量')
plt.ylabel('均值')
plt.legend()
plt.show()

输出说明：

初始阶段样本均值波动剧烈
当样本量超过3000后，均值稳定在2附近

2. 验证中心极限定理