数学建模——Box-Cox变换

用途:当某个随机变量 X X X 不服从正态分布的时候,可以尝试通过这种变换将其变成正态分布。

两个常用的变换

  • 对数变换:已知随机变量 X X X,如果有 ln ⁡ X ∼ N ( μ , σ 2 ) \ln X\sim N(\mu,\sigma^2) lnX∼N(μ,σ2),那么对 X X X 使用对数变换。适合随着自变量的增加,因变量的方差也增大的模型。
  • 平方根变换:已知随机变量 X X X,如果有 X ∼ N ( μ , σ 2 ) \sqrt X\sim N(\mu,\sigma^2) X ∼N(μ,σ2),那么对 X X X 使用平方根变换。适合服从Poission分布的计数资料,或轻度偏态资料。

Box-Cox 变换简介

Box-Cox变换的基本思想是通过对数据进行一定的变换,使得变换后的数据更加符合正态分布的特征。这种变换是一种幂函数变换,其公式如下:
y ~ = { y λ − 1 λ , λ ≠ 0 ln ⁡ y , λ = 0 \tilde{y}=\left \{{\begin{matrix}\cfrac{{{y}^{\lambda }}-1}{\lambda },&\lambda \ne 0\\\ln{y},&\lambda =0\end{matrix}}\right . y~=⎩ ⎨ ⎧λyλ−1,lny,λ=0λ=0

将原数据 y y y 变为大致服从正态分布的 y ~ \tilde y y~。Box-Cox 变换可以很好地根据一组随机变量 X X X 的观测值,构造出一个服从正态分布的变量 X ~ \tilde X X~,从而能够根据这个正态分布进行一些数据分析。传统的 Fitter 库给出的最佳拟合可能是一些从来没有见过的分布函数。

注意上式只适合非负数 ,如果存在负数,需要将 y y y 加上一个偏移量后再进行 Box-Cox 变换。

对数变换是 λ = 0 \lambda =0 λ=0 的 Box-Cox 变换,平方根变换是 λ = 1 / 2 \lambda=1/2 λ=1/2 的 Box-Cox 变换。

代码实例

python 复制代码
from scipy.stats import boxcox
# 下面这个库也含有 boxcox 变换方法,但是这个库的 boxcox 需要自行提供 λ。而 scipy.stats.boxcox 可以通过极大似然等方法自行计算 λ。
# from scipy.special import boxcox

from scipy.special import inv_boxcox
import numpy as np

np.random.seed(114514)
# F 分布有点偏态正态分布的意思,生成一组 F 分布数据
x = np.random.f(dfnum=3, dfden=10, size=10000)

# box-cox 正变换
y, lambda_ = boxcox(x, lmbda=None, alpha=None)
print(lambda_)
# 0.1678598919247737

import seaborn as sns
import matplotlib.pyplot as plt

plt.rcParams['font.family'] = 'Euclid'
plt.subplot(121)
sns.distplot(x)
plt.title('Origin')
plt.subplot(122)
sns.distplot(y)
plt.title('Transformed')
plt.show()

# 这是反变换,经验证和之前的 x 是一样的
x = inv_boxcox(y, lambda_)

做出来图片如下。

参考文献

下面的资料对 Box-Cox 变换有深入的介绍:

相关推荐
Amo Xiang21 分钟前
2024 Python3.10 系统入门+进阶(十五):文件及目录操作
开发语言·python
数模竞赛Paid answer30 分钟前
2017年国赛高教杯数学建模A题CT系统参数标定及成像解题全过程文档及程序
数学建模·全国大学生数学建模竞赛·高教杯
liangbm331 分钟前
数学建模笔记——动态规划
笔记·python·算法·数学建模·动态规划·背包问题·优化问题
数模竞赛Paid answer38 分钟前
2018年国赛高教杯数学建模D题汽车总装线的配置问题解题全过程文档及程序
数学建模·全国大学生数学建模竞赛·数学建模数据分析
B站计算机毕业设计超人42 分钟前
计算机毕业设计Python+Flask微博情感分析 微博舆情预测 微博爬虫 微博大数据 舆情分析系统 大数据毕业设计 NLP文本分类 机器学习 深度学习 AI
爬虫·python·深度学习·算法·机器学习·自然语言处理·数据可视化
羊小猪~~1 小时前
深度学习基础案例5--VGG16人脸识别(体验学习的痛苦与乐趣)
人工智能·python·深度学习·学习·算法·机器学习·cnn
waterHBO3 小时前
python 爬虫 selenium 笔记
爬虫·python·selenium
编程零零七4 小时前
Python数据分析工具(三):pymssql的用法
开发语言·前端·数据库·python·oracle·数据分析·pymssql
AIAdvocate6 小时前
Pandas_数据结构详解
数据结构·python·pandas
小言从不摸鱼6 小时前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt