数理统计

数理统计(mathematical statistics)根据观察或实验得到的数据来研究随机现象,并对研究对象的客观规律做出合理的估计和判断。在人工智能的研究中,数理统计用于对机器学习的算法和数据挖掘的结果做出解释,只有做出合理的解读,数据的价值才能够体现。

虽然数理统计以概率论为理论基础,但两者之间存在方法上的本质区别。概率论作用的前提是随机变量的分布已知,根据已知的分布来分析随机变量的特征与规律;数理统计的研究对象则是未知分布的随机变量,研究方法是对随机变量进行独立重复的观察,根据得到的观察结果对原始分布做出推断。可以简单的理解为:数理统计可以看成是逆向的概率论

总体和样本

在数理统计中,可用的资源是有限的数据集合,这个有限数据集被称为样本(sample) 。相应地,观察对象所有的可能取值被称为总体(population)。数理统计的任务就是根据样本推断总体的数字特征。样本通常由对总体进行多次独立的重复观测而得到,这保证了不同的样本值之间相互独立,并且都与总体具有相同的分布。

统计量

数理统计的基本任务之一是利用样本所提供的信息来对总体分布中未知的量进行推断,简单来说,就是由样本推断总体.但是,样本常常表现为一组数据,很难直接用来解决我们所要研究的具体问题.人们常常把数据加工成若干个简单明了的数字特征,由数据加工后的数字特征就是统计量.所以说统计量综合了样本的信息,是统计推断的基础.统计量的选择和运用在统计推断中占据核心地位.

其中最重要的两个统计量是样本均值和样本方差,如下图所示:

三大分布

χ2分布、t分布、F分布都是从正态总体中衍生出来的。其中满足χ2分布记为Yχ2(n);满足t分布,记为Tt(n);满足F分布,记为F~F(m,n)。

χ2分布

t分布

F分布

统计推断

统计推断的基本问题可以分为两大类:参数估计(estimation theory)和假设检验(hypothesis test) 。其中参数估计 ,顾名思义就是找参数是多少?比如假定总体X服从正态分布,那么参数估计 就是判断刻画正态分布的均值μ和方差σ2究竟取什么值。而假设检验则主要是看参数的值是否等于某个特定的值。

参数估计

参数估计的形式有两种:点估计和区间估计.

点估计

在已知总体分布函数形式,但未知其一个或者多个参数时,借助于总体的一个样本来估计未知参数的取值就是参数的点估计。点估计的具体方法包括矩估计法(method of moments)和最大似然估计法(maximum likelihood estimation)。

矩估计法

矩估计的基本思想是用样本的k阶矩作为总体的k阶矩的估计量,从而解出未知参数。

最大似然估计法

极大似然估计法先代入参数值计算观测样本发生的概率,得到似然函数,然后对似然函数求极大值,得到对应的参数,即为极大似然估计参数。

具体见 一文读懂矩估计、极大似然估计和贝叶斯估计-腾讯云开发者社区-腾讯云

估计量评选标准

对于同一个参数,用不同的估计方法求出的估计量可能是不同的,那么这时候就有一个疑问,采用哪个估计量会更好些呢?评判一个估计量的好坏不能一概而论,即一个估计量的优劣不是绝对的,而是基于某一评判标准而言相对的评价结论.在下文中介绍三种常用的评判标准:无偏性、有效性和相合性

  • 无偏性:估计量的数学期望等于未知参数的真实值;
  • 有效性:无偏估计量的方差尽可能小;
  • 相合性:当样本容量趋近于无穷时,估计量依概率收敛于未知参数的真实值

置信区间和区间估计

对估计量的判别标准涉及了估计误差的影响,这是和估计值同样重要的参量。在估计未知参数θ 的过程中,除了求出估计量,还需要估计出一个区间,并且确定这个区间包含 θ 真实值的可信程度。在数理统计中,这个区间被称为置信区间 (confidence interval),这种估计方式则被称为区间估计

假设检验

参数估计的对象是总体的某个参数,假设检验的对象则是关于总体的某个论断,即关于总体的假设。假设检验的作用就在于根据学习器在测试集上的性能推断其泛化能力的强弱,并确定所得结论的精确程度,可以进一步推广为比较不同学习器的性能。

其他

线性回归

相关推荐
你好!蒋韦杰-(烟雨平生)1 天前
OpenGL
c++·数学·游戏·3d
闻缺陷则喜何志丹6 天前
【数论】P12191 [蓝桥杯 2025 省研究生组] 01 串|普及+
c++·数学·蓝桥杯·数论·洛谷
Wishell20156 天前
日拱一卒之学习记录2
数学
闻缺陷则喜何志丹16 天前
【.NetAPI]统计标注的值、上公差、下公差
数学·.net·cad·netapi
燃于AC之乐17 天前
我的算法修炼之路--6 ——模幂、构造、背包、贪心、剪枝、堆维护六题精析
c++·数学·算法·贪心算法·dfs·剪枝·01背包
朔北之忘 Clancy20 天前
2025 年 9 月青少年软编等考 C 语言一级真题解析
c语言·开发语言·c++·学习·数学·青少年编程·题解
charlie11451419123 天前
从0开始的机器学习(笔记系列)——导数 · 多元函数导数 · 梯度
人工智能·笔记·学习·数学·机器学习·导数
patrickpdx24 天前
2015年伊朗数学奥林匹克国家队选拔赛几何
数学
铸人1 个月前
四元数散度和旋度-7
数学·复数·超复数
好奇龙猫1 个月前
【大学院-筆記試験練習:线性代数和数据结构(1)】
数据结构·数学