样本与样本值

很多ML或PR的刊物中不区分这个概念。区分:严谨但繁琐,不区分:不严谨,有时候产生混淆。


定义 设XXX是具有分布函数FFF的随机变量,若X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn是具有同一分布函数FFF的、相互独立的随机变量,则称X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn为从分布函数FFF(或总体FFF、或总体XXX)得到的容量为nnn的简单随机样本,简称样本,它们的观察值x1,x2,⋯ ,xnx_1, x_2, \cdots, x_nx1,x2,⋯,xn称为样本值 ,又称为XXX的nnn个独立的观察值。

也可以将样本看成是一个随机向量,写成(X1,X2,⋯ ,Xn)(X_1, X_2, \cdots, X_n)(X1,X2,⋯,Xn),此时样本值相应地写成(x1,x2,⋯ ,xn)(x_1, x_2, \cdots, x_n)(x1,x2,⋯,xn)。若(x1,x2,⋯ ,xn)(x_1, x_2, \cdots, x_n)(x1,x2,⋯,xn)与(y1,y2,⋯ ,yn)(y_1, y_2, \cdots, y_n)(y1,y2,⋯,yn)都是相应于样本(X1,X2,⋯ ,Xn)(X_1, X_2, \cdots, X_n)(X1,X2,⋯,Xn)的样本值,一般来说它们是不相同的。

由定义得:若X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn为FFF的一个样本,则X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn相互独立,且它们的分布函数都是FFF,所以(X1,X2,⋯ ,Xn)(X_1, X_2, \cdots, X_n)(X1,X2,⋯,Xn)的分布函数为
F∗(x1,x2,⋯ ,xn)=∏i=1nF(xi). F^*(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n F(x_i). F∗(x1,x2,⋯,xn)=i=1∏nF(xi).又若XXX具有概率密度fff,则(X1,X2,⋯ ,Xn)(X_1, X_2, \cdots, X_n)(X1,X2,⋯,Xn)的概率密度为
f∗(x1,x2,⋯ ,xn)=∏i=1nf(xi). f^*(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n f(x_i). f∗(x1,x2,⋯,xn)=i=1∏nf(xi).


  1. 简单随机样本(Simple Random Sample)

    -X1,X2,...,XnX_1, X_2, \ldots, X_nX1,X2,...,Xn是同分布、相互独立的随机变量;

    • 每个Xi∼FX_i \sim FXi∼F,即来自同一个总体FFF;
    • 观察值x1,x2,...,xnx_1, x_2, \ldots, x_nx1,x2,...,xn称为样本值
  2. 联合分布函数

    • 因为各分量独立,联合分布函数为边缘分布函数的乘积:
      F∗(x)=∏i=1nF(xi) F^*(\boldsymbol{x}) = \prod_{i=1}^n F(x_i) F∗(x)=i=1∏nF(xi)
  3. 联合概率密度

    • 若XXX有密度函数fff,则样本的联合密度为:
      f∗(x)=∏i=1nf(xi) f^*(\boldsymbol{x}) = \prod_{i=1}^n f(x_i) f∗(x)=i=1∏nf(xi)

⚠️ 注意:这里的f∗f^*f∗和F∗F^*F∗并非导数,而是表示联合分布或联合密度。


一、总体为多元随机变量的定义

设总体是一个ddd维随机向量:

X=(X(1),X(2),⋯ ,X(d))⊤ \boldsymbol{X} = (X^{(1)}, X^{(2)}, \cdots, X^{(d)})^{\top} X=(X(1),X(2),⋯,X(d))⊤

其联合分布函数为F(x)=P(X≤x)F(\boldsymbol{x}) = P(\boldsymbol{X} \leq \boldsymbol{x})F(x)=P(X≤x),或具有概率密度函数f(x)f(\boldsymbol{x})f(x)(若连续型)。


二、样本(Sample)

从该总体中抽取一个容量为nnn的简单随机样本 ,是指nnn个独立同分布(i.i.d.)的ddd维随机向量:

X1,X2,⋯ ,Xn \boldsymbol{X}_1, \boldsymbol{X}_2, \cdots, \boldsymbol{X}_n X1,X2,⋯,Xn

其中每个:

  • Xi=(Xi(1),Xi(2),⋯ ,Xi(d))⊤\boldsymbol{X}_i = (X_i^{(1)}, X_i^{(2)}, \cdots, X_i^{(d)})^{\top}Xi=(Xi(1),Xi(2),⋯,Xi(d))⊤ 是第iii个观测单位;
  • 所有Xi∼i.i.d.F\boldsymbol{X}_i \overset{\text{i.i.d.}}{\sim} FXi∼i.i.d.F,即独立且服从与总体相同的分布。

✅ 可将整个样本看作一个n×dn \times dn×d的随机矩阵:

X11X12⋯X1dX21X22⋯X2d⋮⋮⋱⋮Xn1Xn2⋯Xnd\]=\[X1⊤X2⊤⋮Xn⊤\] \\begin{bmatrix} X_{11} \& X_{12} \& \\cdots \& X_{1d} \\\\ X_{21} \& X_{22} \& \\cdots \& X_{2d} \\\\ \\vdots \& \\vdots \& \\ddots \& \\vdots \\\\ X_{n1} \& X_{n2} \& \\cdots \& X_{nd} \\end{bmatrix} = \\begin{bmatrix} \\boldsymbol{X}_1\^{\\top} \\\\ \\boldsymbol{X}_2\^{\\top} \\\\ \\vdots \\\\ \\boldsymbol{X}_n\^{\\top} \\end{bmatrix} X11X21⋮Xn1X12X22⋮Xn2⋯⋯⋱⋯X1dX2d⋮Xnd = X1⊤X2⊤⋮Xn⊤


三、样本值(Sample Values / Observations)

对应于上述样本的观察结果是一组具体的ddd维向量:

x1,x2,⋯ ,xn \boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n x1,x2,⋯,xn

其中每个:

  • xi=(xi(1),xi(2),⋯ ,xi(d))⊤∈Rd\boldsymbol{x}_i = (x_i^{(1)}, x_i^{(2)}, \cdots, x_i^{(d)})^{\top} \in \mathbb{R}^dxi=(xi(1),xi(2),⋯,xi(d))⊤∈Rd 是Xi\boldsymbol{X}_iXi 的实际观测值。

✅ 同样可以写成n×dn \times dn×d数据矩阵(即数据表):
Xdata=[x11x12⋯x1dx21x22⋯x2d⋮⋮⋱⋮xn1xn2⋯xnd]=[x1⊤x2⊤⋮xn⊤] \boldsymbol{X}{\text{data}} = \begin{bmatrix} x{11} & x_{12} & \cdots & x_{1d} \\ x_{21} & x_{22} & \cdots & x_{2d} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nd} \end{bmatrix} = \begin{bmatrix} \boldsymbol{x}_1^{\top} \\ \boldsymbol{x}_2^{\top} \\ \vdots \\ \boldsymbol{x}_n^{\top} \end{bmatrix} Xdata= x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1dx2d⋮xnd = x1⊤x2⊤⋮xn⊤


四、联合分布与联合密度(多元情形)

由于样本是独立同分布的,因此:

1. 联合分布函数

F∗(x1,x2,⋯ ,xn)=P(X1≤x1,⋯ ,Xn≤xn)=∏i=1nF(xi) F^*(\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n) = P(\boldsymbol{X}_1 \leq \boldsymbol{x}_1, \cdots, \boldsymbol{X}_n \leq \boldsymbol{x}n) = \prod{i=1}^n F(\boldsymbol{x}_i) F∗(x1,x2,⋯,xn)=P(X1≤x1,⋯,Xn≤xn)=i=1∏nF(xi)

注:Xi≤xi\boldsymbol{X}_i \leq \boldsymbol{x}_iXi≤xi 指各分量分别不大于。

2. 联合概率密度函数(如果存在)

f∗(x1,x2,⋯ ,xn)=∏i=1nf(xi) f^*(\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}n) = \prod{i=1}^n f(\boldsymbol{x}_i) f∗(x1,x2,⋯,xn)=i=1∏nf(xi)

这是多元统计分析、机器学习(如多元正态分布建模、最大似然估计)中的基础表达式。


✅ 五、举例说明

假设我们要研究某城市居民的"健康状况",记录每个人的:

  • 身高(cm)
  • 体重(kg)
  • 收缩压(mmHg)

则总体为三维随机向量:
X=(身高,体重,血压)⊤ \boldsymbol{X} = (\text{身高}, \text{体重}, \text{血压})^{\top} X=(身高,体重,血压)⊤

从中抽取n=100n = 100n=100人的数据,得到样本:
X1,X2,⋯ ,X100 \boldsymbol{X}_1, \boldsymbol{X}2, \cdots, \boldsymbol{X}{100} X1,X2,⋯,X100

每个Xi\boldsymbol{X}_iXi 是一个三维随机向量。

观测后得到样本值:
x1=[17065120], x2=[16558118], ⋯ , x100=[17872130] \boldsymbol{x}_1 = \begin{bmatrix} 170 \\ 65 \\ 120 \end{bmatrix},\ \boldsymbol{x}2 = \begin{bmatrix} 165 \\ 58 \\ 118 \end{bmatrix},\ \cdots,\ \boldsymbol{x}{100} = \begin{bmatrix} 178 \\ 72 \\ 130 \end{bmatrix} x1= 17065120 , x2= 16558118 , ⋯, x100= 17872130

这构成一个100×3100 \times 3100×3的数据矩阵。


✅ 总结对比

概念 一元情形(标量) 多元情形(向量)
总体 随机变量XXX 随机向量X∈Rd\boldsymbol{X} \in \mathbb{R}^dX∈Rd
分布 F(x),f(x)F(x), f(x)F(x),f(x) F(x),f(x)F(\boldsymbol{x}), f(\boldsymbol{x})F(x),f(x)
样本 X1,⋯ ,XnX_1, \cdots, X_nX1,⋯,Xn X1,⋯ ,Xn\boldsymbol{X}_1, \cdots, \boldsymbol{X}_nX1,⋯,Xn
样本值 x1,⋯ ,xnx_1, \cdots, x_nx1,⋯,xn x1,⋯ ,xn\boldsymbol{x}_1, \cdots, \boldsymbol{x}_nx1,⋯,xn
联合密度 ∏i=1nf(xi)\prod_{i=1}^n f(x_i)∏i=1nf(xi) ∏i=1nf(xi)\prod_{i=1}^n f(\boldsymbol{x}_i)∏i=1nf(xi)

相关推荐
讲师-汪春波3 小时前
【无标题】
人工智能
RockHopper20253 小时前
利用数字孪生技术打造智能工厂的“情境认知”能力
人工智能·智能制造·数字孪生·智能工厂
喵叔哟3 小时前
8. 从0到上线:.NET 8 + ML.NET LTR 智能类目匹配实战--规则回退与可解释性:四层策略如何兜底
人工智能·深度学习·.net
微软技术栈3 小时前
Microsoft AI Genius | 用智能 Microsoft Copilot 副驾驶® 构建高韧性 DevOps 流程
人工智能·microsoft·copilot
茶杯6754 小时前
GraphRAG产品赋能企业智能升级:创邻科技知寰Hybrid RAG的四大核心应用场景深度解析
人工智能·科技·graphrag产品
少林and叔叔4 小时前
基于yolov5.7.0的人工智能算法的下载、开发环境搭建(pycharm)与运行测试
人工智能·pytorch·python·yolo·目标检测·pycharm
kuan_li_lyg4 小时前
笛卡尔坐标机器人控制的虚拟前向动力学模型
人工智能·stm32·机器人·机械臂·动力学·运动学·导纳控制
合作小小程序员小小店4 小时前
旧版本附近停车场推荐系统demo,基于python+flask+协同推荐(基于用户信息推荐),开发语言python,数据库mysql,
人工智能·python·flask·sklearn·推荐算法
却道天凉_好个秋4 小时前
OpenCV(十四):绘制直线
人工智能·opencv·计算机视觉