做数据分析为何要学统计学(0)——如果提高数据样本质量

样本是数据分析的关键,直接影响研究成果质量。如果样本质量不高,即使使用再好的分析方法,也无法得出理想的结论。所以数据学科圈里有句名言"数据比方法更重要"。所以如何提高数据样本的质量是保证研究成果质量的第一步,虽然这一点在现实中往往被忽视。追求新方法的热情远远高于准备数据,而这种现象对科学研究来说,极为有害。

提高数据样本质量是一项极为传统的技术活,确实没有太多值得圈点的地方。但高水平的研究成果都会以很大的篇幅描述数据的构成及获得过程,以些来突出研究工作的真实性、可靠性、科学性。比较典型的是,一篇优秀的学术论文,Data、Method和Discussion是最核心的部分。

如何提高数据样本质量?我们可以从样本产生的各各环节下手,找出影响样本质量的关键活动,有的放矢地解决这个问题。

首先是确保数据采集的准确性与可靠性,也就是如何降低数据误差。任何项目的检测都不可能是绝对准确的,测得值与真实值之间总是或多或少的存在着差别,即误差。采样过程必需要尽量降低数据误差。根据误差产生的原因,我们可以将误差分为系统误差、随机误差和过失误差三种情况。

  • 系统误差是由测量工具不精确和测量方法选择不当造成的。这类误差我们可以通过校准工具或者选择更合适的测量方法来消除;
  • 随机误差是由环境因素等外部不可控原因导致的,如温度、湿度、压力、电磁干扰等。无法预防,也无法从根本上消除。只有通过多闪重复实验来尽可能降低随机误差的比例;
  • 过失误差是由操作人员的不履行正确采集操作规程、工作不认真甚至造假等人为因素造成的。这种误差是可以通过员工培训或管理手段避免的。

其次是采用科学的抽样方法 。所谓抽样就是从样本集合中选取一定数量的样本。抽样一是为了降低数据分析的工作量,二是消除人为干预数据供应的情况,同时还可以降低随机误差的不良影响。科学的抽样会显著提高样本代表总体的水平。一般常用的方法包括单纯随机抽样、系统抽样和分层抽样。

  • 单纯随机抽样。采用无放回的形式,随机抽取样本集合中的样本,直到达数量要求为止。这种抽样操作简便,公平性强,但不适合大样本集合,容易造成样本分布局部化,降低样本代表总体的水平;
  • 系统抽样。首先将样本集合平均分为m组(m为采样数量),然后对每一组进行单纯随机抽样。该方法适合大样本,能够弥补单纯随机抽样局化的缺陷。但是对于数据按顺序有周期特征或单调递增(或递减)趋势特征时,将会产生明显的偏性。
  • 分层抽样。先对样本集合根据样本的某种属性进行分组,然后在每组内按等比方式抽样。比如某高校要对学生体BMI监测,一共要抽取300人。该校有男生12000人,女生18000人。于是我们可以将学生分为男生组与女生组,然后按比例从男生中使用随机抽样或系统抽样方法选择120人,女生中选择180人。该方法适合为明显个体特征(如年龄、性别、职业等)的大样本,样本代表性较好,抽样误差较小。缺点是操作更复杂。

有研究指出以上三种抽样方法,分层抽样误差相对最小,单纯随机抽样误差相对最大。不过在计算机的帮助下,抽样工作量已经可以忽略不计,在数据量已经不是问题的前提下,尽量选择低误差的抽样方法是样本质量的重要保障。

相关推荐
春末的南方城市10 分钟前
开源音乐分离器Audio Decomposition:可实现盲源音频分离,无需外部乐器分离库,从头开始制作。将音乐转换为五线谱的程序
人工智能·计算机视觉·aigc·音视频
矢量赛奇32 分钟前
比ChatGPT更酷的AI工具
人工智能·ai·ai写作·视频
KuaFuAI40 分钟前
微软推出的AI无代码编程微应用平台GitHub Spark和国产AI原生无代码工具CodeFlying比到底咋样?
人工智能·github·aigc·ai编程·codeflying·github spark·自然语言开发软件
Make_magic1 小时前
Git学习教程(更新中)
大数据·人工智能·git·elasticsearch·计算机视觉
shelly聊AI1 小时前
语音识别原理:AI 是如何听懂人类声音的
人工智能·语音识别
源于花海1 小时前
论文学习(四) | 基于数据驱动的锂离子电池健康状态估计和剩余使用寿命预测
论文阅读·人工智能·学习·论文笔记
雷龙发展:Leah1 小时前
离线语音识别自定义功能怎么用?
人工智能·音频·语音识别·信号处理·模块测试
4v1d1 小时前
边缘计算的学习
人工智能·学习·边缘计算
风之馨技术录1 小时前
智谱AI清影升级:引领AI视频进入音效新时代
人工智能·音视频
sniper_fandc1 小时前
深度学习基础—Seq2Seq模型
人工智能·深度学习