从基础到实战的量化交易全流程学习:1.3 数学与统计学基础------概率与统计基础 | 基础概念

第一部分:概率与统计基础
第1节:基础概念:随机变量、概率分布、大数定律与中心极限定理
一、随机变量与概率分布:用数学描述市场不确定性
1. 随机变量:从"随机事件"到"数字语言"
定义与分类
- 随机变量(Random Variable)是一个将随机试验结果映射到实数的函数,记为 ( X )。
- 离散型随机变量 :取值为有限个或可数无穷个
- 例子:抛硬币结果(正面=1,反面=0)
- 连续型随机变量 :取值充满某个区间
- 例子:股票价格(如 ( X \in [0, +\infty) ))
量化交易中的例子
随机事件 | 随机变量定义 | 类型 |
---|---|---|
某股票是否上涨 | ( X=1 )(上涨),( X=0 )(下跌) | 离散型 |
标的资产月波动率 | ( X \in [0, 50%] ) | 连续型 |
2. 概率分布:刻画随机变量的"可能性图谱"
离散型分布:概率质量函数(PMF)
-
定义:( P(X=x_i) ) 表示随机变量取特定值 ( x_i ) 的概率
-
性质:所有概率之和为1,即 ( \sum_{i} P(x_i) = 1 )
-
二项分布示例(策略在10次交易中盈利 ( k ) 次的概率):
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k
- 其中 n = 10 n=10 n=10, p = 0.6 p=0.6 p=0.6,期望值 μ = n p = 6 \mu = np = 6 μ=np=6
连续型分布:概率密度函数(PDF)
- 定义:用 ( f(x) ) 描述随机变量在 ( x ) 附近的概率密度
- 性质:总面积为1,即 ( \int_{-\infty}^{+\infty} f(x)dx = 1 )
- 正态分布示例 (股票对数收益率):
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=σ2π 1e−2σ2(x−μ)2- 均值 μ \mu μ,标准差 σ \sigma σ
二、大数定律:用"大量数据"看穿市场本质
1. 数学表达与直观理解
- 弱大数定律(辛钦大数定律) :
lim n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − μ ∣ < ϵ ) = 1 \lim_{n\to\infty} P\left( \left| \frac{1}{n}\sum_{i=1}^n X_i - \mu \right| < \epsilon \right) = 1 n→∞limP( n1i=1∑nXi−μ <ϵ)=1- 样本均值收敛于总体均值 μ \mu μ
- 核心结论:样本量越大,样本均值越接近总体均值
- 量化应用:策略回测时,用历史交易的平均收益估计真实期望收益
2.大数定律的直观演示
假设某策略单次交易的收益期望为 ( \mu = 0.5% ),标准差 ( \sigma = 5% )。
- 当交易次数 ( n=10 ) 时,样本均值可能剧烈波动
- 当 ( n=1000 ) 时,样本均值稳定在 ( 0.5% ) 附近
三、中心极限定理(CLT):让"非正态数据"变得"正态可控"
1. 数学表达与核心思想
- 定理内容 :
设 ( X_1, X_2, \dots, X_n ) 是独立同分布随机变量,期望 ( \mu ),方差 ( \sigma^2 ),则当 ( n ) 足够大时,样本均值 ( \bar{X}_n ) 近似服从正态分布:
X ˉ n ∼ N ( μ , σ 2 n ) \bar{X}_n \sim N\left( \mu, \frac{\sigma^2}{n} \right) Xˉn∼N(μ,nσ2)- 均值 μ \mu μ,标准差 σ / n \sigma/\sqrt{n} σ/n
- 关键点 :
- 无论原始分布如何,均值分布趋近正态
- 均值分布的方差随样本量 ( n ) 增大而减小
2. 量化应用:构建收益置信区间
假设某策略日收益标准差 ( \sigma = 2% ),回测 ( n=252 ) 天(约1年),样本均值 ( \bar{R} = 0.1% ),则 95% 置信区间为::
R ˉ ± 1.96 × σ n \bar{R} \pm 1.96 \times \frac{\sigma}{\sqrt{n}} Rˉ±1.96×n σ
- 例: R ˉ = 0.1 % \bar{R} = 0.1\% Rˉ=0.1%, σ = 2 % \sigma = 2\% σ=2%, n = 252 n=252 n=252,计算得 0.1 % ± 0.25 % 0.1\% \pm 0.25\% 0.1%±0.25%
- 若区间包含0,则不能排除策略无效的可能性
四、Python实战:代码验证与可视化
1. 验证大数定律
python
import numpy as np
import matplotlib.pyplot as plt
# 生成指数分布数据(均值μ=2)
np.random.seed(42)
data = np.random.exponential(scale=2, size=10000)
# 计算累积均值
cumulative_means = np.cumsum(data) / np.arange(1, 10001)
# 可视化
plt.plot(cumulative_means, label='样本均值')
plt.axhline(2, color='red', linestyle='--', label='真实均值 μ=2')
plt.xlabel('样本量')
plt.ylabel('均值')
plt.legend()
plt.show()
输出说明:
- 初始阶段样本均值波动剧烈
- 当样本量超过3000后,均值稳定在2附近
2. 验证中心极限定理
python
# 从指数分布中重复抽样(每组n=50)
sample_means = [np.mean(np.random.exponential(2, 50)) for _ in range(1000)]
# 绘制直方图
plt.hist(sample_means, bins=30, density=True, alpha=0.6)
# 叠加理论正态分布曲线
mu = 2
sigma = 2 / np.sqrt(50)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
plt.plot(x, 1/(sigma * np.sqrt(2*np.pi)) * np.exp(-0.5*((x - mu)/sigma)**2), 'r')
plt.show()
输出说明:
- 直方图形状接近钟形曲线
- 红色曲线为理论正态分布,与数据高度吻合
五、关键总结
概念 | 核心思想 | 量化应用场景 |
---|---|---|
随机变量 | 将不确定性事件映射为数值 | 定义交易信号、收益等指标 |
概率分布 | 描述随机变量的可能性分布 | 建模价格波动、评估风险 |
大数定律 | 样本均值收敛于总体均值 | 验证策略稳定性、减少偶然性 |
中心极限定理 | 均值分布趋近正态,简化统计分析 | 构建置信区间、假设检验 |
六、思考与练习
- 假设某策略单次交易盈利概率为40%,计算在100次交易中至少盈利45次的概率(用二项分布公式)。
- 若某股票日收益率服从正态分布 ( N(0.1%, 2%) ),计算其年化(252天)收益率的95%置信区间。
- 修改Python代码,将指数分布改为均匀分布 ( U(0, 4) ),观察大数定律和CLT是否仍然成立。