【Pandas】pandas Series var

Pandas2.2 Series

Computations descriptive stats

方法	描述
Series.abs()	用于计算 `Series` 中每个元素的绝对值
Series.all()	用于检查 `Series` 中的所有元素是否都为 `True` 或非零值（对于数值型数据）
Series.any()	用于检查 `Series` 中是否至少有一个元素为 `True` 或非零值（对于数值型数据）
Series.autocorr()	用于计算 `Series` 的自相关系数
Series.between()	用于检查 `Series` 中的每个元素是否在指定的两个值之间（包括边界值）
Series.clip()	用于将 `Series` 中的元素限制在指定的上下限之间
Series.corr()	用于计算两个 `Series` 之间的相关系数
Series.count()	用于计算 Series 中非 NA/null 值的数量
Series.cov(other $, min_periods, ddof$ )	用于计算两个 Series 之间的协方差
Series.cummax( $axis, skipna$ )	用于计算 Series 中元素的累积最大值
Series.cummin( $axis, skipna$ )	用于计算 Series 中元素的累积最小值
Series.cumprod( $axis, skipna$ )	用于计算 Series 中元素的累积乘积
Series.cumsum( $axis, skipna$ )	用于计算 Series 中元素的累积和
Series.describe( $percentiles, include, exclude$ )	用于生成 Series 对象的描述性统计信息的方法
Series.diff(`[periods]`)	用于计算 Series 中元素与前一个元素之间差值的方法
Series.factorize( $sort, use_na_sentinel$ )	用于将 Series 中的唯一值编码为从 0 开始的整数索引的方法
Series.kurt( $axis, skipna, numeric_only$ )	用于计算 Series 中数据的峰度（kurtosis）
Series.max( $axis, skipna, numeric_only$ )	用于计算 Series 中所有元素的最大值
Series.mean( $axis, skipna, numeric_only$ )	用于计算 Series 中所有元素的算术平均值
Series.median( $axis, skipna, numeric_only$ )	用于计算 Series 对象中位数的函数
Series.min( $axis, skipna, numeric_only$ )	用于计算 Series 对象最小值的函数
Series.mode(`[dropna]`)	用于计算 Series 对象中最常出现的值（众数）的函数
Series.nlargest( $n, keep$ )	用于获取 Series 对象中最大的 n 个值的函数
Series.nsmallest( $n, keep$ )	用于获取 Series 对象中最小的 n 个值的函数
Series.pct_change( $periods, fill_method, ...$ )	用于计算 Series 对象中元素与前一个元素之间百分比变化的方法
Series.prod( $axis, skipna, numeric_only, ...$ )	用于计算 Series 对象中所有元素乘积的函数
Series.quantile( $q, interpolation$ )	用于计算 Series 对象的分位数（quantiles）的方法
Series.rank( $axis, method, numeric_only, ...$ )	用于计算 Series 对象中每个元素的排名的方法
Series.sem( $axis, skipna, ddof, numeric_only$ )	用于计算 Series 对象的标准误差（Standard Error of the Mean, SEM）的方法
Series.skew( $axis, skipna, numeric_only$ )	用于计算 Series 对象的偏度（skewness）的方法
Series.std( $axis, skipna, ddof, numeric_only$ )	用于计算 Series 对象的标准差（Standard Deviation, STD）的方法
Series.sum( $axis, skipna, numeric_only, ...$ )	用于计算 Series 中元素的总和
Series.var( $axis, skipna, ddof, numeric_only$ )	用于计算 Series 中元素的样本方差

pandas.Series.var

pandas.Series.var() 方法用于计算 Series 中元素的样本方差。以下是该方法的详细描述：

参数：
- axis：{index (0)}，默认为0。此参数在 Series 中通常不使用，因为 Series 是一维数据结构。
- skipna：布尔值，默认为 True。如果设置为 True，则在计算时忽略 NaN 值；如果设置为 False，则 NaN 值会导致结果也为 NaN。
- ddof：整数，默认为 1。表示"Delta Degrees of Freedom"（自由度调整）。方差计算公式中的分母是 N - ddof，其中 N 是观测值的数量。默认情况下，ddof=1 计算的是无偏样本方差。
- numeric_only：布尔值，默认为 None。如果设置为 True，则只包含数值列（float、int、boolean）。此参数在 Series 中通常不使用，因为 Series 只有一种数据类型。
返回值：
- 返回一个标量值，表示 Series 中所有元素的样本方差。

示例及结果

python 复制代码

import pandas as pd

# 创建一个简单的 Series
s = pd.Series([1, 2, 3, 4, 5])

# 计算 Series 的样本方差，默认 ddof=1
result_default_ddof = s.var()
print("Variance with default ddof (1):", result_default_ddof)

# 设置 ddof=0 计算总体方差
result_ddof_0 = s.var(ddof=0)
print("Variance with ddof=0:", result_ddof_0)

# 包含 NaN 值的 Series
s_with_nan = pd.Series([1, 2, 3, None, 5])

# 忽略 NaN 值计算方差
result_skipna_true = s_with_nan.var(skipna=True)
print("Variance with skipna=True:", result_skipna_true)

# 不忽略 NaN 值计算方差
result_skipna_false = s_with_nan.var(skipna=False)
print("Variance with skipna=False:", result_skipna_false)

输出结果

复制代码

Variance with default ddof (1): 2.5
Variance with ddof=0: 2.0
Variance with skipna=True: 2.9166666666666665
Variance with skipna=False: nan

解释

对于没有 NaN 值的 Series：
- 默认情况下 (ddof=1)，计算的是无偏样本方差。
- 如果将 ddof 设置为 0，则计算的是总体方差。
当 Series 中包含 NaN 值时：
- 如果 skipna=True，则忽略 NaN 值并计算剩余元素的方差。
- 如果 skipna=False，则只要存在 NaN 值，结果就会是 NaN。