【小白学机器学习37】用numpy计算协方差cov(x,y) 和 皮尔逊相关系数 r(x,y)

目录

[1 关于1个数组np.array(1组数据)如何求各种统计数据](#1 关于1个数组np.array(1组数据)如何求各种统计数据)

[2 关于2个数组np.array(2组数据)如何求数组的相关关系?](#2 关于2个数组np.array(2组数据)如何求数组的相关关系?)

[2.1 协方差公式和方差公式](#2.1 协方差公式和方差公式)

[2.2 协方差 公式 的相关说明](#2.2 协方差 公式 的相关说明)

[2.3 用np.cov(x,y,ddof=0) 直接求协方差矩阵](#2.3 用np.cov(x,y,ddof=0) 直接求协方差矩阵)

[2.4 手动求2个数组的协方差的具体步骤](#2.4 手动求2个数组的协方差的具体步骤)

[2.5 皮尔逊相关系数 (和有偏无偏没关系,分母约掉)](#2.5 皮尔逊相关系数 (和有偏无偏没关系,分母约掉))

[2.6 直接用公式求corr1=np.corrcoef(x,y) 皮尔逊相关系数矩阵](#2.6 直接用公式求corr1=np.corrcoef(x,y) 皮尔逊相关系数矩阵)

[2.7 手动求皮尔逊相关系数](#2.7 手动求皮尔逊相关系数)

[3 完整测试代码](#3 完整测试代码)


用python处理协方差 和 皮尔逊相关系数

1 1个数组np.array(1组数据)如何求各种统计数据?

  • 如果
  • np.mean(array)
  • np.var(array,ddof=1)
  • np.std(array,ddof=1)

均值

  • mean=u = Σ(x1+x2+.....+xn)/n
  • E=mean

方差

  • var= Σ(x1-u)^2 / n
  • var= Σ(x1-u)^2 / (n-1)

标准差

  • std=sqrt(var)

求1组数据的各种统计值

list1=[1,2,3,4,5,6,7,8,9,10]

array1=np.array(list1)

mu1=np.mean(array1)

var1=np.var(array1) #默认缺省 ddof=0,方差有偏估计

var11=np.var(array1,ddof=1) #ddof 无偏估计

std1=np.std(array1)

std11=np.std(array1,ddof=1)

2 关于2个数组np.array(2组数据)如何求数组的相关关系?

2组数据/2个数组,可以检查是否有相关关系

  • 协方差
  • 相关系数

2.1 协方差公式和方差公式

方差公式

  • var(x) =var(x,x) = Σ(x1-u)^2 / n
  • var(x) =var(x,x) = Σ(x1-u)^2 / (n-1)

协方差公式

  • cov(x,y) = (x1i-u1)*(x2i-u2) / n
  • cov(x,y) = (x1i-u1)*(x2i-u2) / (n-1)

2.2 协方差 公式 的相关说明

  • 协方差的范围可以为,正数,负数
  • 如果是正数,表示正相关
  • 如果是负数,表示负相关
  • 如果=0等,表示不相关
  • 图形上看就不相关

2.3 用np.cov(x,y,ddof=0) 直接求协方差矩阵

  • 协方差矩阵
  • 包含了,cov(x,y) 和 δx^2 和 δy^2
  • 直接求法 cov1=np.cov(x,y,ddof=0)
  • 直接求法 cov1=np.cov(x,y,ddof=1) #无偏
import numpy as np
import pandas as pd
import scipy as sp
%precision 3

# 求1组数据的各种统计值
list1=[1,2,3,4,5,6,7,8,9,10]
array1=np.array(list1)

mu1=np.mean(array1)
var1=np.var(array1)            #默认缺省 ddof=0,方差有偏估计
var11=np.var(array1,ddof=1)    #ddof 无偏估计
std1=np.std(array1)
std11=np.std(array1,ddof=1)

print("mu1%d=" %555)  #%d %s 只适合数字,字符串,不适合变量,变量当参数会报错
print("mu1=" ,mu1)    #比较山寨,但是可以
print("var1={0}".format(var1))   #适合变量带入,不灵活,不能用参数名需要标数字对应
print("var11={0}".format(var11)) 
print(f"std1={std1}")   #适合变量带入,带入的是参数名,灵活
print(f"std11={std11}") 
print()

# 求2组数据的各种统计值,也就是2组数据之间的关系---相关关系
list2=[2,6,7,5,7,8]
list3=[10,12,14,20,24,28]
array2=np.array(list2)
array3=np.array(list3)

#pd.DataFrame 注意驼峰命名法,2个首字母都要大写
dataframe1=pd.DataFrame({"x":array2,"y":array3})
print(dataframe1)
print()

x=dataframe1["x"]
y=dataframe1["y"]

cov1=np.cov(x,y,ddof=0)
print(cov1)
print()

cov2=np.cov(x,y,ddof=1)
print(cov2)
print()

corr1=np.corrcoef(x,y)
print(corr1)
print()

2.4 手动求2个数组的协方差的具体步骤

  • 先求2个数组分别的均值,
  • 数组-均值 =新的数组
  • 新数组*新数组=新数组
  • Σ新数据=协方差cov(x,y)
  • cov11=sum((array2-u2)*(array3-u3))/N
  • #错误写法,需求将差的乘积求和Σ

  • cov11=(array2-u2)*sum(array3-u3)/N

  • #错误写法,是差的乘积求和Σ,不是分别的和的 乘积!

  • #cov11=sum(array2-u2)*sum(array3-u3)/N

    手动求协方差

    u2=np.mean(array2)
    len2=len(array2)

    u3=np.mean(array3)
    len3=len(array3)

    N=len(dataframe1)

    if(len2==len3 and len3==N):
    print("二维数组的长度就是其中任何一个xi的长度")

    #cov11=(array2-u2)*sum(array3-u3)/N #错误写法,需求将差的乘积求和Σ
    #cov11=sum(array2-u2)sum(array3-u3)/N #错误写法,是差的乘积求和Σ,不是分别的和的乘积!
    cov11=sum((array2-u2)
    (array3-u3))/N

    print(cov11)

2.5 皮尔逊相关系数 (和有偏无偏没关系,分母约掉)

  • 协方差和 /n /(n-1) 没有关系,因为分子,分母都包含除掉了
  • 所以,相关系数,不需要ddof=0/1
  • 协方差的范围 [-1,1] 之间

2.6 直接用公式求corr1=np.corrcoef(x,y) 皮尔逊相关系数矩阵

  • 相关系数矩阵
  • 包含了,1 和相关系数 Rxy
  • 直接求法 corr1=np.corrcoef(x,y)

2.7 手动求皮尔逊相关系数

  • 公式方法
  • 分子,相关系数
  • 分母,开根号(里面是 x1的方差 * x2的方差)
  • 或者说,分母是开根号(里面是 x1的标准差std^2* x2的标准差std^2)
# 手动求协方差
u2=np.mean(array2)
len2=len(array2)

u3=np.mean(array3)
len3=len(array3)

N=len(dataframe1)

if(len2==len3 and len3==N):
    print("二维数组的长度就是其中任何一个xi的长度")

#cov11=(array2-u2)*sum(array3-u3)/N       #错误写法,需求将差的乘积求和Σ
#cov11=sum(array2-u2)*sum(array3-u3)/N    #错误写法,是差的乘积求和Σ,不是分别的和的乘积!
cov11=sum((array2-u2)*(array3-u3))/N

print(cov11)
print()

# 手动求相关系数r(x,y)
var2=np.var(array2)
var3=np.var(array3)

corr11=cov11/np.sqrt(var2*var3)
print(corr11)
print()

3 完整测试代码

import numpy as np
import pandas as pd
import scipy as sp
%precision 3

# 求1组数据的各种统计值
list1=[1,2,3,4,5,6,7,8,9,10]
array1=np.array(list1)

mu1=np.mean(array1)
var1=np.var(array1)            #默认缺省 ddof=0,方差有偏估计
var11=np.var(array1,ddof=1)    #ddof 无偏估计
std1=np.std(array1)
std11=np.std(array1,ddof=1)

print("mu1%d=" %555)  #%d %s 只适合数字,字符串,不适合变量,变量当参数会报错
print("mu1=" ,mu1)    #比较山寨,但是可以
print("var1={0}".format(var1))   #适合变量带入,不灵活,不能用参数名需要标数字对应
print("var11={0}".format(var11)) 
print(f"std1={std1}")   #适合变量带入,带入的是参数名,灵活
print(f"std11={std11}") 
print()

# 求2组数据的各种统计值,也就是2组数据之间的关系---相关关系
list2=[2,6,7,5,7,8]
list3=[10,12,14,20,24,28]
array2=np.array(list2)
array3=np.array(list3)

#pd.DataFrame 注意驼峰命名法,2个首字母都要大写
dataframe1=pd.DataFrame({"x":array2,"y":array3})
print(dataframe1)
print()

x=dataframe1["x"]
y=dataframe1["y"]

cov1=np.cov(x,y,ddof=0)
print(cov1)
print()

cov2=np.cov(x,y,ddof=1)
print(cov2)
print()

corr1=np.corrcoef(x,y)
print(corr1)
print()

# 手动求协方差
u2=np.mean(array2)
len2=len(array2)

u3=np.mean(array3)
len3=len(array3)

N=len(dataframe1)

if(len2==len3 and len3==N):
    print("二维数组的长度就是其中任何一个xi的长度")

#cov11=(array2-u2)*sum(array3-u3)/N       #错误写法,需求将差的乘积求和Σ
#cov11=sum(array2-u2)*sum(array3-u3)/N    #错误写法,是差的乘积求和Σ,不是分别的和的乘积!
cov11=sum((array2-u2)*(array3-u3))/N

print(cov11)
print()

# 手动求相关系数r(x,y)
var2=np.var(array2)
var3=np.var(array3)

corr11=cov11/np.sqrt(var2*var3)
print(corr11)
print()

4 可用markdown写各种草稿公式

\\sqrt(x\^2)

\\begin{bmatrix} a \& b \\\\ c \& d \\\\ \\end{bmatrix}

cov(x,y) = (x1i-u1)\*(x2i-u2) / n

#使用markdown

#使用latex

cov(x,y)= \\begin{bmatrix} δx\^2,cov(x,y) \\\\ cov(x,y),δy\^2 \\end{bmatrix}

r(x,y)= \\begin{bmatrix} 1,r(x,y) \\\\ r(x,y),1 \\end{bmatrix}

r(x,y)=cov(x,y)/\\sqrt(δx1\^2\*δx2\^2)

相关推荐
懒大王爱吃狼13 分钟前
Python绘制数据地图-MovingPandas
开发语言·python·信息可视化·python基础·python学习
数据小小爬虫16 分钟前
如何使用Python爬虫按关键字搜索AliExpress商品:代码示例与实践指南
开发语言·爬虫·python
martian66539 分钟前
第17篇:python进阶:详解数据分析与处理
开发语言·python
无码不欢的我43 分钟前
使用vscode在本地和远程服务器端运行和调试Python程序的方法总结
ide·vscode·python
五味香44 分钟前
Java学习,查找List最大最小值
android·java·开发语言·python·学习·golang·kotlin
AIGC大时代1 小时前
方法建议ChatGPT提示词分享
人工智能·深度学习·chatgpt·aigc·ai写作
糯米导航1 小时前
ChatGPT Prompt 编写指南
人工智能·chatgpt·prompt
金融OG1 小时前
99.8 金融难点通俗解释:净资产收益率(ROE)
大数据·python·线性代数·机器学习·数学建模·金融·矩阵
Damon小智1 小时前
全面评测 DOCA 开发环境下的 DPU:性能表现、机器学习与金融高频交易下的计算能力分析
人工智能·机器学习·金融·边缘计算·nvidia·dpu·doca
赵孝正1 小时前
特征选择(机器学习)
人工智能·机器学习