从基础到实战的量化交易全流程学习:1.3 数学与统计学基础——概率与统计基础 | 基础概念

从基础到实战的量化交易全流程学习:1.3 数学与统计学基础------概率与统计基础 | 基础概念


第一部分:概率与统计基础

第1节:基础概念:随机变量、概率分布、大数定律与中心极限定理


一、随机变量与概率分布:用数学描述市场不确定性

1. 随机变量:从"随机事件"到"数字语言"

定义与分类
  • 随机变量(Random Variable)是一个将随机试验结果映射到实数的函数,记为 ( X )。
  • 离散型随机变量 :取值为有限个或可数无穷个
    • 例子:抛硬币结果(正面=1,反面=0)
  • 连续型随机变量 :取值充满某个区间
    • 例子:股票价格(如 ( X \in [0, +\infty) ))
量化交易中的例子
随机事件 随机变量定义 类型
某股票是否上涨 ( X=1 )(上涨),( X=0 )(下跌) 离散型
标的资产月波动率 ( X \in [0, 50%] ) 连续型

2. 概率分布:刻画随机变量的"可能性图谱"

离散型分布:概率质量函数(PMF)
  • 定义:( P(X=x_i) ) 表示随机变量取特定值 ( x_i ) 的概率

  • 性质:所有概率之和为1,即 ( \sum_{i} P(x_i) = 1 )

  • 二项分布示例(策略在10次交易中盈利 ( k ) 次的概率):

    P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k

    • 其中 n = 10 n=10 n=10, p = 0.6 p=0.6 p=0.6,期望值 μ = n p = 6 \mu = np = 6 μ=np=6
连续型分布:概率密度函数(PDF)
  • 定义:用 ( f(x) ) 描述随机变量在 ( x ) 附近的概率密度
  • 性质:总面积为1,即 ( \int_{-\infty}^{+\infty} f(x)dx = 1 )
  • 正态分布示例 (股票对数收益率):
    f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=σ2π 1e−2σ2(x−μ)2
    • 均值 μ \mu μ,标准差 σ \sigma σ

二、大数定律:用"大量数据"看穿市场本质

1. 数学表达与直观理解

  • 弱大数定律(辛钦大数定律)
    lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − μ ∣ < ϵ ) = 1 \lim_{n\to\infty} P\left( \left| \frac{1}{n}\sum_{i=1}^n X_i - \mu \right| < \epsilon \right) = 1 n→∞limP( n1i=1∑nXi−μ <ϵ)=1
    • 样本均值收敛于总体均值 μ \mu μ
    • 核心结论:样本量越大,样本均值越接近总体均值
    • 量化应用:策略回测时,用历史交易的平均收益估计真实期望收益

2.大数定律的直观演示

假设某策略单次交易的收益期望为 ( \mu = 0.5% ),标准差 ( \sigma = 5% )。

  • 当交易次数 ( n=10 ) 时,样本均值可能剧烈波动
  • 当 ( n=1000 ) 时,样本均值稳定在 ( 0.5% ) 附近

三、中心极限定理(CLT):让"非正态数据"变得"正态可控"

1. 数学表达与核心思想

  • 定理内容
    设 ( X_1, X_2, \dots, X_n ) 是独立同分布随机变量,期望 ( \mu ),方差 ( \sigma^2 ),则当 ( n ) 足够大时,样本均值 ( \bar{X}_n ) 近似服从正态分布:
    X ˉ n ∼ N ( μ , σ 2 n ) \bar{X}_n \sim N\left( \mu, \frac{\sigma^2}{n} \right) Xˉn∼N(μ,nσ2)
    • 均值 μ \mu μ,标准差 σ / n \sigma/\sqrt{n} σ/n
  • 关键点
    1. 无论原始分布如何,均值分布趋近正态
    2. 均值分布的方差随样本量 ( n ) 增大而减小

2. 量化应用:构建收益置信区间

假设某策略日收益标准差 ( \sigma = 2% ),回测 ( n=252 ) 天(约1年),样本均值 ( \bar{R} = 0.1% ),则 95% 置信区间为::

R ˉ ± 1.96 × σ n \bar{R} \pm 1.96 \times \frac{\sigma}{\sqrt{n}} Rˉ±1.96×n σ

  • 例: R ˉ = 0.1 % \bar{R} = 0.1\% Rˉ=0.1%, σ = 2 % \sigma = 2\% σ=2%, n = 252 n=252 n=252,计算得 0.1 % ± 0.25 % 0.1\% \pm 0.25\% 0.1%±0.25%
  • 若区间包含0,则不能排除策略无效的可能性

四、Python实战:代码验证与可视化

1. 验证大数定律

python 复制代码
import numpy as np
import matplotlib.pyplot as plt

# 生成指数分布数据(均值μ=2)
np.random.seed(42)
data = np.random.exponential(scale=2, size=10000)

# 计算累积均值
cumulative_means = np.cumsum(data) / np.arange(1, 10001)

# 可视化
plt.plot(cumulative_means, label='样本均值')
plt.axhline(2, color='red', linestyle='--', label='真实均值 μ=2')
plt.xlabel('样本量')
plt.ylabel('均值')
plt.legend()
plt.show()

输出说明

  • 初始阶段样本均值波动剧烈
  • 当样本量超过3000后,均值稳定在2附近

2. 验证中心极限定理

python 复制代码
# 从指数分布中重复抽样(每组n=50)
sample_means = [np.mean(np.random.exponential(2, 50)) for _ in range(1000)]

# 绘制直方图
plt.hist(sample_means, bins=30, density=True, alpha=0.6)

# 叠加理论正态分布曲线
mu = 2
sigma = 2 / np.sqrt(50)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
plt.plot(x, 1/(sigma * np.sqrt(2*np.pi)) * np.exp(-0.5*((x - mu)/sigma)**2), 'r')
plt.show()

输出说明

  • 直方图形状接近钟形曲线
  • 红色曲线为理论正态分布,与数据高度吻合

五、关键总结

概念 核心思想 量化应用场景
随机变量 将不确定性事件映射为数值 定义交易信号、收益等指标
概率分布 描述随机变量的可能性分布 建模价格波动、评估风险
大数定律 样本均值收敛于总体均值 验证策略稳定性、减少偶然性
中心极限定理 均值分布趋近正态,简化统计分析 构建置信区间、假设检验

六、思考与练习

  1. 假设某策略单次交易盈利概率为40%,计算在100次交易中至少盈利45次的概率(用二项分布公式)。
  2. 若某股票日收益率服从正态分布 ( N(0.1%, 2%) ),计算其年化(252天)收益率的95%置信区间。
  3. 修改Python代码,将指数分布改为均匀分布 ( U(0, 4) ),观察大数定律和CLT是否仍然成立。
相关推荐
虾球xz4 分钟前
游戏引擎学习第247天:简化DEBUG_VALUE
c++·学习·游戏引擎
敲敲敲-敲代码21 分钟前
【PyCharm- Python- ArcGIS】:安装一个和 ArcGIS 不冲突的独立 Python让PyCharm 使用 (解决全过程记录)
python·arcgis·pycharm
崔高杰25 分钟前
On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其一CLT与LLM知识推理
论文阅读·人工智能·笔记·语言模型·自然语言处理
猿榜编程40 分钟前
python基础-requests结合AI实现自动化数据抓取
开发语言·python·自动化
一键三联啊1 小时前
【FastJSON】的parse与parseObject
linux·前端·python
0509151 小时前
测试基础笔记第十四天
笔记
superior tigre1 小时前
C++学习:六个月从基础到就业——模板编程:模板特化
开发语言·c++·学习
·醉挽清风·1 小时前
学习笔记—双指针算法—移动零
c++·笔记·学习·算法
艾醒(AiXing-w)1 小时前
探索大语言模型(LLM):自监督学习——从数据内在规律中解锁AI的“自学”密码
人工智能·学习·语言模型
shimly1234562 小时前
(done) 吴恩达版提示词工程 8. 聊天机器人 (聊天格式设计,上下文内容,点餐机器人)
人工智能·python·机器人