从基础到实战的量化交易全流程学习:1.3 数学与统计学基础——概率与统计基础 | 基础概念

从基础到实战的量化交易全流程学习:1.3 数学与统计学基础------概率与统计基础 | 基础概念


第一部分:概率与统计基础

第1节:基础概念:随机变量、概率分布、大数定律与中心极限定理


一、随机变量与概率分布:用数学描述市场不确定性

1. 随机变量:从"随机事件"到"数字语言"

定义与分类
  • 随机变量(Random Variable)是一个将随机试验结果映射到实数的函数,记为 ( X )。
  • 离散型随机变量 :取值为有限个或可数无穷个
    • 例子:抛硬币结果(正面=1,反面=0)
  • 连续型随机变量 :取值充满某个区间
    • 例子:股票价格(如 ( X \in [0, +\infty) ))
量化交易中的例子
随机事件 随机变量定义 类型
某股票是否上涨 ( X=1 )(上涨),( X=0 )(下跌) 离散型
标的资产月波动率 ( X \in [0, 50%] ) 连续型

2. 概率分布:刻画随机变量的"可能性图谱"

离散型分布:概率质量函数(PMF)
  • 定义:( P(X=x_i) ) 表示随机变量取特定值 ( x_i ) 的概率

  • 性质:所有概率之和为1,即 ( \sum_{i} P(x_i) = 1 )

  • 二项分布示例(策略在10次交易中盈利 ( k ) 次的概率):

    P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k

    • 其中 n = 10 n=10 n=10, p = 0.6 p=0.6 p=0.6,期望值 μ = n p = 6 \mu = np = 6 μ=np=6
连续型分布:概率密度函数(PDF)
  • 定义:用 ( f(x) ) 描述随机变量在 ( x ) 附近的概率密度
  • 性质:总面积为1,即 ( \int_{-\infty}^{+\infty} f(x)dx = 1 )
  • 正态分布示例 (股票对数收益率):
    f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=σ2π 1e−2σ2(x−μ)2
    • 均值 μ \mu μ,标准差 σ \sigma σ

二、大数定律:用"大量数据"看穿市场本质

1. 数学表达与直观理解

  • 弱大数定律(辛钦大数定律)
    lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − μ ∣ < ϵ ) = 1 \lim_{n\to\infty} P\left( \left| \frac{1}{n}\sum_{i=1}^n X_i - \mu \right| < \epsilon \right) = 1 n→∞limP( n1i=1∑nXi−μ <ϵ)=1
    • 样本均值收敛于总体均值 μ \mu μ
    • 核心结论:样本量越大,样本均值越接近总体均值
    • 量化应用:策略回测时,用历史交易的平均收益估计真实期望收益

2.大数定律的直观演示

假设某策略单次交易的收益期望为 ( \mu = 0.5% ),标准差 ( \sigma = 5% )。

  • 当交易次数 ( n=10 ) 时,样本均值可能剧烈波动
  • 当 ( n=1000 ) 时,样本均值稳定在 ( 0.5% ) 附近

三、中心极限定理(CLT):让"非正态数据"变得"正态可控"

1. 数学表达与核心思想

  • 定理内容
    设 ( X_1, X_2, \dots, X_n ) 是独立同分布随机变量,期望 ( \mu ),方差 ( \sigma^2 ),则当 ( n ) 足够大时,样本均值 ( \bar{X}_n ) 近似服从正态分布:
    X ˉ n ∼ N ( μ , σ 2 n ) \bar{X}_n \sim N\left( \mu, \frac{\sigma^2}{n} \right) Xˉn∼N(μ,nσ2)
    • 均值 μ \mu μ,标准差 σ / n \sigma/\sqrt{n} σ/n
  • 关键点
    1. 无论原始分布如何,均值分布趋近正态
    2. 均值分布的方差随样本量 ( n ) 增大而减小

2. 量化应用:构建收益置信区间

假设某策略日收益标准差 ( \sigma = 2% ),回测 ( n=252 ) 天(约1年),样本均值 ( \bar{R} = 0.1% ),则 95% 置信区间为::

R ˉ ± 1.96 × σ n \bar{R} \pm 1.96 \times \frac{\sigma}{\sqrt{n}} Rˉ±1.96×n σ

  • 例: R ˉ = 0.1 % \bar{R} = 0.1\% Rˉ=0.1%, σ = 2 % \sigma = 2\% σ=2%, n = 252 n=252 n=252,计算得 0.1 % ± 0.25 % 0.1\% \pm 0.25\% 0.1%±0.25%
  • 若区间包含0,则不能排除策略无效的可能性

四、Python实战:代码验证与可视化

1. 验证大数定律

python 复制代码
import numpy as np
import matplotlib.pyplot as plt

# 生成指数分布数据(均值μ=2)
np.random.seed(42)
data = np.random.exponential(scale=2, size=10000)

# 计算累积均值
cumulative_means = np.cumsum(data) / np.arange(1, 10001)

# 可视化
plt.plot(cumulative_means, label='样本均值')
plt.axhline(2, color='red', linestyle='--', label='真实均值 μ=2')
plt.xlabel('样本量')
plt.ylabel('均值')
plt.legend()
plt.show()

输出说明

  • 初始阶段样本均值波动剧烈
  • 当样本量超过3000后,均值稳定在2附近

2. 验证中心极限定理

python 复制代码
# 从指数分布中重复抽样(每组n=50)
sample_means = [np.mean(np.random.exponential(2, 50)) for _ in range(1000)]

# 绘制直方图
plt.hist(sample_means, bins=30, density=True, alpha=0.6)

# 叠加理论正态分布曲线
mu = 2
sigma = 2 / np.sqrt(50)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
plt.plot(x, 1/(sigma * np.sqrt(2*np.pi)) * np.exp(-0.5*((x - mu)/sigma)**2), 'r')
plt.show()

输出说明

  • 直方图形状接近钟形曲线
  • 红色曲线为理论正态分布,与数据高度吻合

五、关键总结

概念 核心思想 量化应用场景
随机变量 将不确定性事件映射为数值 定义交易信号、收益等指标
概率分布 描述随机变量的可能性分布 建模价格波动、评估风险
大数定律 样本均值收敛于总体均值 验证策略稳定性、减少偶然性
中心极限定理 均值分布趋近正态,简化统计分析 构建置信区间、假设检验

六、思考与练习

  1. 假设某策略单次交易盈利概率为40%,计算在100次交易中至少盈利45次的概率(用二项分布公式)。
  2. 若某股票日收益率服从正态分布 ( N(0.1%, 2%) ),计算其年化(252天)收益率的95%置信区间。
  3. 修改Python代码,将指数分布改为均匀分布 ( U(0, 4) ),观察大数定律和CLT是否仍然成立。
相关推荐
DJ斯特拉6 分钟前
Tlias智能学习辅助系统(一)
学习
灰灰勇闯IT7 分钟前
隐语MOOC三期笔记:可信数据空间实战课——从“数据孤岛”到“安全流通”,企业落地的3个关键步骤(附部署脚本)
笔记·安全
谢景行^顾15 分钟前
numpy
开发语言·python·numpy
上天夭22 分钟前
PyTorch的Dataloader模块解析
人工智能·pytorch·python
是一个Bug22 分钟前
Spring Boot 的全局异常处理器
spring boot·后端·python
dTTb25 分钟前
python元组和字典
python
列星随旋1 小时前
redis分片集群的部署和使用
redis·学习
沐雪轻挽萤1 小时前
pytorch模型部署基础知识
人工智能·pytorch·python
xxxxxmy1 小时前
相向双指针—接雨水
python·相向双指针
nix.gnehc1 小时前
PyTorch数据加载与预处理
人工智能·pytorch·python