1. 众数的基础概念
众数(Mode) 是统计学中的基本概念,指的是在一组数据中出现频率最高的数值。
- 如果一组数据中有多个数值出现的频率相同且都是最高,那么这组数据就有多个众数;
- 如果所有数值出现的频率都相同,那么这组数据没有众数;
- 众数是唯一不要求数据是数值型的统计量(比如 ["苹果", "苹果", "香蕉"] 的众数是"苹果"),但在 PyTorch 中仅支持数值型张量。
2. PyTorch 中 torch.mode() 的用法
torch.mode() 专门用于计算张量的众数,核心参数是 dim(指定计算维度),返回两个张量:
- values:对应维度上的众数值;
- indices:众数值在原张量中的索引位置。
完整示例代码
python
import torch
# 示例1:一维张量的众数
a = torch.tensor([1, 2, 2, 3, 3, 3, 4])
mode_val, mode_idx = torch.mode(a)
print("一维张量众数:", mode_val.item()) # 输出 3(3出现次数最多)
print("众数索引:", mode_idx.item()) # 输出 3(3第一次出现在索引3的位置)
# 示例2:二维张量按维度计算众数
b = torch.tensor([[1, 2, 2],
[3, 3, 4],
[3, 2, 2]])
# 按列(dim=0)计算众数:每一列的众数
mode_col_val, mode_col_idx = torch.mode(b, dim=0)
print("按列众数:", mode_col_val) # 输出 tensor([3, 2, 2])
print("按列众数索引:", mode_col_idx) # 输出 tensor([1, 0, 0])
# 按行(dim=1)计算众数:每一行的众数
mode_row_val, mode_row_idx = torch.mode(b, dim=1)
print("按行众数:", mode_row_val) # 输出 tensor([2, 3, 2])
print("按行众数索引:", mode_row_idx) # 输出 tensor([1, 0, 1])
特殊情况说明
如果张量中有多个数值出现频率相同且最高,torch.mode() 会返回最先出现的那个数值:
python
c = torch.tensor([1, 1, 2, 2, 3]) # 1和2都出现2次(最高)
mode_c, idx_c = torch.mode(c)
print("多众数时返回最先出现的:", mode_c.item()) # 输出 1
总结
- 核心定义 :众数是一组数据中出现次数最多的数值,是描述数据集中趋势的统计量(和均值、中位数并列)。
- PyTorch 用法 :
torch.mode()计算张量众数,指定dim可按维度计算,返回"众数值+首次出现索引"。 - 特殊规则 :存在多个众数时,PyTorch 会返回最先出现的那个数值。