做数据分析为何要学统计学(0)——如果提高数据样本质量

样本是数据分析的关键,直接影响研究成果质量。如果样本质量不高,即使使用再好的分析方法,也无法得出理想的结论。所以数据学科圈里有句名言"数据比方法更重要"。所以如何提高数据样本的质量是保证研究成果质量的第一步,虽然这一点在现实中往往被忽视。追求新方法的热情远远高于准备数据,而这种现象对科学研究来说,极为有害。

提高数据样本质量是一项极为传统的技术活,确实没有太多值得圈点的地方。但高水平的研究成果都会以很大的篇幅描述数据的构成及获得过程,以些来突出研究工作的真实性、可靠性、科学性。比较典型的是,一篇优秀的学术论文,Data、Method和Discussion是最核心的部分。

如何提高数据样本质量?我们可以从样本产生的各各环节下手,找出影响样本质量的关键活动,有的放矢地解决这个问题。

首先是确保数据采集的准确性与可靠性,也就是如何降低数据误差。任何项目的检测都不可能是绝对准确的,测得值与真实值之间总是或多或少的存在着差别,即误差。采样过程必需要尽量降低数据误差。根据误差产生的原因,我们可以将误差分为系统误差、随机误差和过失误差三种情况。

  • 系统误差是由测量工具不精确和测量方法选择不当造成的。这类误差我们可以通过校准工具或者选择更合适的测量方法来消除;
  • 随机误差是由环境因素等外部不可控原因导致的,如温度、湿度、压力、电磁干扰等。无法预防,也无法从根本上消除。只有通过多闪重复实验来尽可能降低随机误差的比例;
  • 过失误差是由操作人员的不履行正确采集操作规程、工作不认真甚至造假等人为因素造成的。这种误差是可以通过员工培训或管理手段避免的。

其次是采用科学的抽样方法 。所谓抽样就是从样本集合中选取一定数量的样本。抽样一是为了降低数据分析的工作量,二是消除人为干预数据供应的情况,同时还可以降低随机误差的不良影响。科学的抽样会显著提高样本代表总体的水平。一般常用的方法包括单纯随机抽样、系统抽样和分层抽样。

  • 单纯随机抽样。采用无放回的形式,随机抽取样本集合中的样本,直到达数量要求为止。这种抽样操作简便,公平性强,但不适合大样本集合,容易造成样本分布局部化,降低样本代表总体的水平;
  • 系统抽样。首先将样本集合平均分为m组(m为采样数量),然后对每一组进行单纯随机抽样。该方法适合大样本,能够弥补单纯随机抽样局化的缺陷。但是对于数据按顺序有周期特征或单调递增(或递减)趋势特征时,将会产生明显的偏性。
  • 分层抽样。先对样本集合根据样本的某种属性进行分组,然后在每组内按等比方式抽样。比如某高校要对学生体BMI监测,一共要抽取300人。该校有男生12000人,女生18000人。于是我们可以将学生分为男生组与女生组,然后按比例从男生中使用随机抽样或系统抽样方法选择120人,女生中选择180人。该方法适合为明显个体特征(如年龄、性别、职业等)的大样本,样本代表性较好,抽样误差较小。缺点是操作更复杂。

有研究指出以上三种抽样方法,分层抽样误差相对最小,单纯随机抽样误差相对最大。不过在计算机的帮助下,抽样工作量已经可以忽略不计,在数据量已经不是问题的前提下,尽量选择低误差的抽样方法是样本质量的重要保障。

相关推荐
zm-v-1593043398637 分钟前
ArcGIS 水文分析升级:基于深度学习的流域洪水演进过程模拟
人工智能·深度学习·arcgis
拓端研究室2 小时前
视频讲解|核密度估计朴素贝叶斯:业务数据分类—从理论到实践
人工智能·分类·数据挖掘
灵智工坊LingzhiAI2 小时前
人体坐姿检测系统项目教程(YOLO11+PyTorch+可视化)
人工智能·pytorch·python
昨日之日20062 小时前
Video Background Remover V3版 - AI视频一键抠像/视频换背景 支持50系显卡 一键整合包下载
人工智能·音视频
SHIPKING3933 小时前
【机器学习&深度学习】什么是下游任务模型?
人工智能·深度学习·机器学习
秀儿还能再秀5 小时前
基于Excel的数据分析思维与分析方法
数据分析·excel
子燕若水7 小时前
Unreal Engine 5中的AI知识
人工智能
极限实验室8 小时前
Coco AI 实战(一):Coco Server Linux 平台部署
人工智能
杨过过儿8 小时前
【学习笔记】4.1 什么是 LLM
人工智能
巴伦是只猫8 小时前
【机器学习笔记Ⅰ】13 正则化代价函数
人工智能·笔记·机器学习