Pandas2.2 Series
Computations descriptive stats
方法 | 描述 |
---|---|
Series.abs() | 用于计算 Series 中每个元素的绝对值 |
Series.all() | 用于检查 Series 中的所有元素是否都为 True 或非零值(对于数值型数据) |
Series.any() | 用于检查 Series 中是否至少有一个元素为 True 或非零值(对于数值型数据) |
Series.autocorr() | 用于计算 Series 的自相关系数 |
Series.between() | 用于检查 Series 中的每个元素是否在指定的两个值之间(包括边界值) |
Series.clip() | 用于将 Series 中的元素限制在指定的上下限之间 |
Series.corr() | 用于计算两个 Series 之间的相关系数 |
Series.count() | 用于计算 Series 中非 NA/null 值的数量 |
Series.cov(other[, min_periods, ddof]) | 用于计算两个 Series 之间的协方差 |
Series.cummax([axis, skipna]) | 用于计算 Series 中元素的累积最大值 |
Series.cummin([axis, skipna]) | 用于计算 Series 中元素的累积最小值 |
Series.cumprod([axis, skipna]) | 用于计算 Series 中元素的累积乘积 |
Series.cumsum([axis, skipna]) | 用于计算 Series 中元素的累积和 |
Series.describe([percentiles, include, exclude]) | 用于生成 Series 对象的描述性统计信息的方法 |
Series.diff([periods] ) |
用于计算 Series 中元素与前一个元素之间差值的方法 |
Series.factorize([sort, use_na_sentinel]) | 用于将 Series 中的唯一值编码为从 0 开始的整数索引的方法 |
Series.kurt([axis, skipna, numeric_only]) | 用于计算 Series 中数据的峰度(kurtosis) |
Series.max([axis, skipna, numeric_only]) | 用于计算 Series 中所有元素的最大值 |
Series.mean([axis, skipna, numeric_only]) | 用于计算 Series 中所有元素的算术平均值 |
Series.median([axis, skipna, numeric_only]) | 用于计算 Series 对象中位数的函数 |
Series.min([axis, skipna, numeric_only]) | 用于计算 Series 对象最小值的函数 |
Series.mode([dropna] ) |
用于计算 Series 对象中最常出现的值(众数)的函数 |
Series.nlargest([n, keep]) | 用于获取 Series 对象中最大的 n 个值的函数 |
Series.nsmallest([n, keep]) | 用于获取 Series 对象中最小的 n 个值的函数 |
Series.pct_change([periods, fill_method, ...]) | 用于计算 Series 对象中元素与前一个元素之间百分比变化的方法 |
Series.prod([axis, skipna, numeric_only, ...]) | 用于计算 Series 对象中所有元素乘积的函数 |
Series.quantile([q, interpolation]) | 用于计算 Series 对象的分位数(quantiles)的方法 |
Series.rank([axis, method, numeric_only, ...]) | 用于计算 Series 对象中每个元素的排名的方法 |
Series.sem([axis, skipna, ddof, numeric_only]) | 用于计算 Series 对象的标准误差(Standard Error of the Mean, SEM)的方法 |
Series.skew([axis, skipna, numeric_only]) | 用于计算 Series 对象的偏度(skewness)的方法 |
Series.std([axis, skipna, ddof, numeric_only]) | 用于计算 Series 对象的标准差(Standard Deviation, STD)的方法 |
Series.sum([axis, skipna, numeric_only, ...]) | 用于计算 Series 中元素的总和 |
Series.var([axis, skipna, ddof, numeric_only]) | 用于计算 Series 中元素的样本方差 |
pandas.Series.var
pandas.Series.var()
方法用于计算 Series 中元素的样本方差。以下是该方法的详细描述:
-
参数:
axis
:{index (0)},默认为0。此参数在 Series 中通常不使用,因为 Series 是一维数据结构。skipna
:布尔值,默认为 True。如果设置为 True,则在计算时忽略 NaN 值;如果设置为 False,则 NaN 值会导致结果也为 NaN。ddof
:整数,默认为 1。表示"Delta Degrees of Freedom"(自由度调整)。方差计算公式中的分母是 N - ddof,其中 N 是观测值的数量。默认情况下,ddof=1
计算的是无偏样本方差。numeric_only
:布尔值,默认为 None。如果设置为 True,则只包含数值列(float、int、boolean)。此参数在 Series 中通常不使用,因为 Series 只有一种数据类型。
-
返回值:
- 返回一个标量值,表示 Series 中所有元素的样本方差。
示例及结果
python
import pandas as pd
# 创建一个简单的 Series
s = pd.Series([1, 2, 3, 4, 5])
# 计算 Series 的样本方差,默认 ddof=1
result_default_ddof = s.var()
print("Variance with default ddof (1):", result_default_ddof)
# 设置 ddof=0 计算总体方差
result_ddof_0 = s.var(ddof=0)
print("Variance with ddof=0:", result_ddof_0)
# 包含 NaN 值的 Series
s_with_nan = pd.Series([1, 2, 3, None, 5])
# 忽略 NaN 值计算方差
result_skipna_true = s_with_nan.var(skipna=True)
print("Variance with skipna=True:", result_skipna_true)
# 不忽略 NaN 值计算方差
result_skipna_false = s_with_nan.var(skipna=False)
print("Variance with skipna=False:", result_skipna_false)
输出结果
Variance with default ddof (1): 2.5
Variance with ddof=0: 2.0
Variance with skipna=True: 2.9166666666666665
Variance with skipna=False: nan
解释
-
对于没有 NaN 值的 Series:
- 默认情况下 (
ddof=1
),计算的是无偏样本方差。 - 如果将
ddof
设置为 0,则计算的是总体方差。
- 默认情况下 (
-
当 Series 中包含 NaN 值时:
- 如果
skipna=True
,则忽略 NaN 值并计算剩余元素的方差。 - 如果
skipna=False
,则只要存在 NaN 值,结果就会是 NaN。
- 如果