【小白学机器学习19】统计基础:什么是定量分析,量化的4个层级,因果关系分类等

目录

[1 定性分析和定量分析](#1 定性分析和定量分析)

[1.1 两种分析方式](#1.1 两种分析方式)

[1.2 定性分析](#1.2 定性分析)

[1.3 定量分析](#1.3 定量分析)

[1.3.1 定义](#1.3.1 定义)

[1.3.2 名字](#1.3.2 名字)

[1.4 特点和差异](#1.4 特点和差异)

[1.5 两者的关系](#1.5 两者的关系)

[1.6 测量的评价:切实,可靠](#1.6 测量的评价:切实,可靠)

[1.7 关于统计分析](#1.7 关于统计分析)

[2 定量分析的三段式逻辑:个体 → 样本 → 总体](#2 定量分析的三段式逻辑:个体 → 样本 → 总体)

[2.1 定量分析的逻辑链条是](#2.1 定量分析的逻辑链条是)

[2.2 三个分析层级](#2.2 三个分析层级)

[2.3 总体/母体,population](#2.3 总体/母体,population)

[2.4 样本 Sample](#2.4 样本 Sample)

[2.5 但是问题来了:总体不可知,如何保证样本和总体同结构呢](#2.5 但是问题来了:总体不可知,如何保证样本和总体同结构呢)

[2.5.1 总体既不可知,那么怎么知道样本近似总体?](#2.5.1 总体既不可知,那么怎么知道样本近似总体?)

[2.5.2 那么如何保证样本高度近似,逼近总体呢?](#2.5.2 那么如何保证样本高度近似,逼近总体呢?)

[2.5.3 具体的方法就是:随机抽样](#2.5.3 具体的方法就是:随机抽样)

随机抽样

随意抽样

[3 量化研究的对象: 个体,和个体的属性](#3 量化研究的对象: 个体,和个体的属性)

[3.1 研究的对象:现实中我们观测到的两个维度](#3.1 研究的对象:现实中我们观测到的两个维度)

[3.2 分析单位:](#3.2 分析单位:)

[3.3 其中属性又有2个向度:](#3.3 其中属性又有2个向度:)

[4 对数据进行定量分析,定量/量化的4个层级](#4 对数据进行定量分析,定量/量化的4个层级)

[4.1 定量/量化的意思](#4.1 定量/量化的意思)

[4.2 量化的4个层级](#4.2 量化的4个层级)

[4.3 定类,称名变量](#4.3 定类,称名变量)

[4.4 定序,顺序变量](#4.4 定序,顺序变量)

[4.5 定距,定距变量](#4.5 定距,定距变量)

[4.6 定比,定比变量](#4.6 定比,定比变量)

[4.7 可被定量的等级,和实际定量等级是两回事](#4.7 可被定量的等级,和实际定量等级是两回事)

[5 变化的事物和事物之间的联系](#5 变化的事物和事物之间的联系)

[5.1 我们只研究变化的东西](#5.1 我们只研究变化的东西)

[5.1.1 但是变和不变是相对的](#5.1.1 但是变和不变是相对的)

[5.2 变化的2种不同含义](#5.2 变化的2种不同含义)

[5.3 对应数据的分类方法1:](#5.3 对应数据的分类方法1:)

[5.2 人的思维模式,喜欢去探求不同事件之间的联系,尤其是因果关系](#5.2 人的思维模式,喜欢去探求不同事件之间的联系,尤其是因果关系)

[5.2.2 事物之间的关系分为很多种](#5.2.2 事物之间的关系分为很多种)

[5.2.3 为什么喜欢研究因果关系](#5.2.3 为什么喜欢研究因果关系)

[5.2.4 哪些算因果分析](#5.2.4 哪些算因果分析)

[5.3 各种变量的名称](#5.3 各种变量的名称)


1 定性分析和定量分析

1.1 两种分析方式

人类有两种认识世界上的事物的方式

  • 定性分析:通过发掘问题、理解事件现象,去研究事物的属性,事物之间的关系等。
  • 定量分析:用数学工具,用数字为形容词/名字去描述和记录某些个体的属性的分析方式

下面是百科里来的

定性研究(Qualitative research)是与定量研究(Study on measurement,Quantitative research)相对的概念,也称质化研究,是社会科学领域的一种基本研究范式,也是科学研究的重要步骤和方法之一。

定性研究是指通过发掘问题、理解事件现象、分析人类行为观点以及回答提问来获取敏锐的洞察力。几乎每天在每个工作场所学习环境下都会进行定性研究。

定量研究(Study on measurement,Quantitative research)是与定性研究(Qualitative research)相对的概念,要考察和研究事物的量,就得用数学的工具对事物进行数量的分析,这就叫定量的研究,也称量化研究,是社会科学领域的一种基本研究范式,也是科学研究的重要步骤和方法之一。

1.2 定性分析

很多相似名字,差不多意思

  • 定性研究 qualitative research
  • 质性研究,质性分析,质化研究等
  • 优点:
  1. 适合人脑的模式分析的思路
  2. 只要想象力丰富,几乎无上限?
  3. 是其他行动的前提
  • 缺点:
  1. 无法证伪,可能导致大量的错的,假的混杂在真的一起。
  2. 很难把研究对象,研究内容随机化

1.3 定量分析

1.3.1 定义

  • 量化分析:就是把要分析的一个真实事物/理念中概念:变项,进行数字化,从而成为一个变量 variable,然后分析这个变量。
  • 建模:简单的就是建一个函数表达式 /一个方程等,复杂的,很多函数和方程组联立等等超过我的描述能力

1.3.2 名字

有很多相近的名字,大概都是差不多的意思

  • 定量分析,量化分析:quantitative analysis
  • 统计分析,统计方法:statistical analysis
  • 优点
  • 缺点
  1. 有时候会因为数据错误,而结论也肯定错误
  2. "错误输入导致错误的输出"
  3. "垃圾进,垃圾出"
  4. 有时候会得出一些肤浅的结论,比如关联度过高,可能本身就是存在共线性的关系等。

1.4 特点和差异

  • 定性分析,可以教基本路数,思维方式,但具体细节,其他靠悟,更接近艺术
  • 定量分析,可以教基本路数,还可以具体步骤,套路,招式,可证伪得思维方式

1.5 两者的关系

1.5.1 两者是互补关系

  • 两种分析方式没啥好鄙视得,
  • 做定量研究之前,一般需要先有理念,设想等,也就是先有定性的分析。
  • 而不做定量分析,定性研究很难证伪,无法落地

1.5.2 定量分析之前的定性分析

  • 一般量化之前,都会先有定性分布
  • 定性分析,可能是基于现有的理论模型,也可能是一个新的假设模型而建立的
  • 举个例子
  • 比如在对概率数据量化之前,我们已经假设了总体是符合什么样的分布了,比如是正态分布
  • 正态分布的规律我们是知道的,但是不清楚每个具体的总体的正态分布的,均值,方差等具体参数!所以我们进行定量分析的目的就是为了搞清楚这个正态分布具体的参数:均值,方差,正态分布的具体图形等等总体参数!
  • 这就是我们定量分析的出发点,和目的,我觉得搞清楚这个很重要

1.5.3 我觉的可能的例外是机器学习的无监督学习

  • 所有定量分析之前都需要定性分析吗?
  • 反例:机器学习里的无监督学习是不是已经是不需要先做定性分析的例子? 根据算法去自动分类,形成最终的结果,是研究人员事前并没有设想到的一些结论等?

1.6 测量的评价:切实,可靠

  • 切实 valid :测量的手段是合适的,可测得,可测准的,等等
  • 可靠 reliable / 有效度/ 效度/信度:反复验证,数据变化不应该太大,稳定性比较抢

1.7 关于统计分析

  • 自然科学里可重复的实验室试验,最可靠,可重复,可证伪
  • 其次是医学里的双盲试验等,比实验室试验已经打了折扣
  • 统计分析,其实并上面两者都低,只是一个做不了前面2者的一个替代品!
  • 为什么
  1. 人的特殊性
  2. 人的价值和权力,导致无法对人对实验
  3. 人的复杂性也很难做定量试验

2 定量分析的三段式逻辑:个体 → 样本 → 总体

2.1 定量分析的逻辑链条是

  • 个体 → 样本 → 总体

  • 普通→ 特殊 → 一般

  • cases → 特殊 sample statistic → 一般 population parameter

  • 现象 → 样本 → 自在之物

  • Erscheinung → Ding an sich

  • 定性分析先心里有了一个模型

  • 通过收集cases,形成一个特殊的样本/殊像,再试图去估计总体的参数

  • 这个是类黑格尔逻辑分析的三段论,而不是,从个体到一般的两段论。

  • 为什么一定要有中间过程,我觉得是逻辑上的桥梁,否则很难从逻辑上推论

  • 比如,没有对样本的研究,从个体很难推论到总体

2.2 三个分析层级

  • 第1层级,个体 unit ,case, observation
  • 第2层级,样本 sample
  • 第3层级,总体、母体(认为的那个模型里)参数的具体参数 population

2.3 总体/母体,population

  • 总体是一种理想化的东西,可以说永远无法真正的/完全的认识,可以部分认知
  • 从柏拉图的那些 理念,理想化的实体,只存在于彼岸的东西。
  • 我们可以认识总体的一些部分,但是永远不能完全的认识。
  1. 有些总体已经封闭,比如地球上的恐龙数量
  2. 有很多总体还在变化,其数量等很多属性不可知。

2.4 样本 Sample

定义

  • 错误:样本是总体的随意的一部分
  • 不够准确:样本是总体的一部分。没错但是不够精确
  • 准确:必须尽量和母体高度形似,结构高度相似的才算样本。

样本不是随便取得总体的一部分

  • 样本和整体的关系,不是局部和整体的关系
  • 而是微缩结构和整体结构的关系
  • 理论上,样本尽量是1比1的缩略最好

2.5 但是问题来了:总体不可知,如何保证样本和总体同结构呢

2.5.1 总体既不可知,那么怎么知道样本近似总体?

  • 但是因为母体不可被真正完全认识,只能部分认识
  • 所以,样本是否和总体真的同构,高度近似,这个无法验证!

2.5.2 那么如何保证样本高度近似,逼近总体呢?

  • 那么如何保证样本高度近似,逼近总体呢?
  • 答案是:无法完全保证。无法从结果上证实,只能成程序上保证
  • 也就是结果的正确/正义无法保证,只能从过程的正确/正义上去保证

2.5.3 具体的方法就是:随机抽样

随机抽样
  • 什么是随机抽样:总体内的每个个体抽到的机会均等
  • 至少程序上保证每个个体都有被平等抽到的可能/机会/概率。
  • 随机抽样:比如随机抽取的,比如编号后随机,等距抽样等等,
  • 随机抽样,只能保证过程公正,无法保证结果公平(结果是凭运气随机的)
随意抽样
  • 有规律的往往就是非随机的,
  • 现实中,记者街头采访,各种调查都是随意抽样
  • 为什么:比如记者采访调查人们的幸福感,只是选择我国某个城市的某个街道。这也抽样,最多只能代表这个街道的某天某个时刻的人的随机性。
  • 因为,没考虑,地理范围,时间,城市差别,人群年龄,生活习惯等各种差别。
  • 这些往往都很随意,原因是什么?
  • 原因是,没有在做样本调查前,先想清楚,总体是什么,怎么让样本去逼近总体,怎么样做到让每个个体都有被平等抽到的可能。

3 量化研究的对象: 个体,和个体的属性

3.1 研究的对象:现实中我们观测到的两个维度

  • 维度1:会观测到很多的个体(但我们一般只选其中一部分就是样本,不可能研究全部)
  • 维度2:可以观测到每个个体的有很多属性(但我们一般只研究我们看重的属性,而非全部)

3.2 分析单位:

  • 单个的个体 → 一群个体(定量分析必然要分析一群个体:样本,而不只是单个)
  • 个体的部分属性

3.3 其中属性又有2个向度:

  1. 属性的名称,
  2. 属性的尺度: 属性的强弱,大小,高低等特点。针对属性的尺度,有不同的定义方法,见下文

4 对数据进行定量分析,定量/量化的4个层级

4.1 定量/量化的意思

  • 定,不是确定的意思,只是标记数据。
  • 一般来说,如果是确定数据的意义,一般是定性研究已经做完了。
  • 定量研究,是要对数据进行标记。

4.2 量化的4个层级

  • 最低:定类测量:cateforical measurement,名义测量:nominal measurement
  • 定序测量:ordinal measurement
  • 定距测量:interval measurement
  • 最高:定比测量:ratio measurement
  • 这几个层级是向下兼容的,也就是说:定量的数据肯定也是符合定距,定序,定类的!

4.3 定类,称名变量

  • 定类测量:cateforical measurement
  • 名义测量:nominal measurement
  • 只是对数据进行最 粗糙的分类操作
  • 比如,分为2类,分别为0,1类
  • 分为3类,分别为 A,B,C类 或者 A,B ,1-A-B 补集等
  • 分为10类,等等
  • 定类的数据,只能判断 = 或 !=
  • 所以,这里的数字,0,1 和A,B 或者甲乙 区别不大,只是一个标记!不是纯数字!

4.4 定序,顺序变量

  • 定距测量:ordinal measurement
  • 分类,且用数字标记不同的等级,且这些数字之间存在顺序关系。
  • 比如:军棋里的军衔 :司令> 师长> 团长> 连长>排长> 班长 等
  • 这些数据,存在 排序关系,可以比大小
  • 可以判断 < > =

4.5 定距,定距变量

  • 定距测量:interval measurement
  • 用数字标记不同的间隔,且这个距离本身可以比较。
  • 0 表示比较的标准,不表示没有
  • 可以 + -
  • 不适合做 x / 运算,就是也可以x / 运算,但是结果无意义

我自己举个例子

  • 比如 AB城市相距 50公里,BC城市相距100公里,CD城市相距50公里,
  • 可以说,AB城市距离=CD城市距离<BC城市距离
  • 但是不能从,从M点到D,是从M点到B的几倍。因为M点在哪儿并没有确定,也就是没有比较绝对距离的基础:原点。

网上的例子2

  • 比如身高里,没有真正的0点,0只是1个标识?
  • 所以180的人比170的人高10CM
  • 但是不能说 180的人身高是90的2倍?这也没有意义?一般不都这说么
  • 为啥? 表示不理解

网上例子3

  • 智商200的人是智商100的人的2倍,不一定?
  • 这个确实不一定是高2倍,但是一般确实是这么说吧

网上例子4

  • 20度不能是10度的2倍
  • 摄氏温度是定距变量,绝对温度才是定比变量。
  • 定距变量与定比变量的区别在于后者才有绝对零点,因此能用乘除运算说明具体数值之间的关系
  • 但是,绝对温度/华氏温度有绝对零度,绝对零度就是没有温度?这就可以是定比变量了?
  • 查了下:据说根本原因是摄氏温度的比例在物理学没有意义

网上例子5

  • 时间,2点比1点多,而且多一小时,这是+-法
  • 但是不能说2点是1点的2倍?

网上查到的比较让人信服的答案,是需要从物理学除非

绝对的0度,是物理上能量的最小值。

一般的0度,可以把10度也定义为0度,没有背后的物理学意义支撑,其实也可以 x/ 只是X /的结果没有意义

网上很多都是垃圾解释

4.6 定比,定比变量

  • 定比测量:ratio measurement
  • 定比测量,是数字标记,可以完全数字化的属性。
  • 完全数字化,意味着,可以进行数字的 +-x /各种运算。
  • 比如年龄,30>15 , 30是15的2倍,这些都是对的。

4.7 可被定量的等级,和实际定量等级是两回事

  • 比如年龄,可以定量为定比数据
  • 但是如果粗略分析里,年龄也可以划分为,儿童,成年人,老人等定序数据。
  • 取决于具体的需要。
  • 但是有些数据,比如性别就只能被 定类,无法做更高层次的分析。

5 变化的事物和事物之间的联系

  • 变化 vary
  • 常量 constant
  • 变量 varibale

5.1 我们只研究变化的东西

  • 不变是相对的,变化是绝对的
  • 日常见到很多东西是不变的
  • 不变的东西,我们无法通过观察,实验等,从中得到任何新的知识。
  • 但是变化的东西,我们可能观察到他们的变化,而且可能通过控制变量控制其变化。
  • 我们希望研究变化的东西,之间是否有关联,

5.1.1 但是变和不变是相对的

  • 变和不变的标准,有时候只合选择标准相关
  • 比如,只分析男队员的数据,那么性别就是常量
  • 如果分析的队员包括男女,那么性别就是变量

5.2 变化的2种不同含义

  • 日新月异之变化,就是事物随着时间的变化
  • 事物在不同个体之间的差异

5.3 对应数据的分类方法1:

  • 按横截面的数据, cross-sectional data
  • 按时间序列获得数据,longitudinal data ,panel data

5.2 人的思维模式,喜欢去探求不同事件之间的联系,尤其是因果关系

5.2.2 事物之间的关系分为很多种

  • 万事万物都互相联系(辩证法),这个可以是相干,相干 relevant
  • 事物A 和事物B相关关系,相关 correlate,相关还有,正负相关的差别。
  • 事物A 发生后,事物B跟着发生,可能是因果关系
  1. 为什么A之后发生B只是可能
  2. 比如天气热了,大家都吃冰淇淋,都穿泳衣
  3. 我们的经验告诉我们,天气热是吃冰淇淋的原因。但是吃冰淇淋是穿泳衣的原因吗?事实上,这2个都是天气热的结果,这2个事件,高度线性相关,存在共线性。

5.2.3 为什么喜欢研究因果关系

  • 预测未来,因为因果关系可以帮我们预测未来,掌握现在的因,试图预知未来的果
  • 掌握未来
  • 理解过去
  • 等等

5.2.4 哪些算因果分析

日常语言里:

  • 1个原因引起1个结果
  • 1个原因引起多个结果
  • 多个原因引起1个结果
  • 多个原因引起多个结果

感觉数学上,无论是函数的定义,还是映射的定义

都只研究下面这几类

  • 1个原因引起1个结果(函数,双射=单射+满射)

  • 1个原因引起多个结果(函数,满射非单射)

  • 每个结果都有原因(函数,满射)

  • 多个原因引起1个结果(非函数,非映射)

  • 有结果,没有原因(非函数,非映射)

  • 有原因,没有结果(非函数,非映射)

5.3 各种变量的名称

变化vary

自变量 IV

  • independent variable
  • 决定其他变量变化的因子,因

因变量 DV

  • dependent variable
  • response variable
  • outcome variable
  • 被其他因素决定的变量,结果,果
相关推荐
szxinmai主板定制专家5 分钟前
【NI国产替代】基于国产FPGA+全志T3的全国产16振动+2转速(24bits)高精度终端采集板卡
人工智能·fpga开发
YangJZ_ByteMaster13 分钟前
EndtoEnd Object Detection with Transformers
人工智能·深度学习·目标检测·计算机视觉
余~~1853816280041 分钟前
NFC 碰一碰发视频源码搭建技术详解,支持OEM
开发语言·人工智能·python·音视频
唔皇万睡万万睡1 小时前
五子棋小游戏设计(Matlab)
人工智能·matlab·游戏程序
视觉语言导航1 小时前
AAAI-2024 | 大语言模型赋能导航决策!NavGPT:基于大模型显式推理的视觉语言导航
人工智能·具身智能
volcanical1 小时前
Bert各种变体——RoBERTA/ALBERT/DistillBert
人工智能·深度学习·bert
知来者逆1 小时前
Binoculars——分析证实大语言模型生成文本的检测和引用量按学科和国家明确显示了使用偏差的多样性和对内容类型的影响
人工智能·深度学习·语言模型·自然语言处理·llm·大语言模型
跟德姆(dom)一起学AI1 小时前
0基础跟德姆(dom)一起学AI 自然语言处理05-文本特征处理
人工智能·python·深度学习·自然语言处理
四口鲸鱼爱吃盐2 小时前
CVPR2024 | 重新思考针对深度神经网络的数据可用性攻击
人工智能·神经网络·dnn
Kongues2 小时前
探究人工智能在教育领域的应用——以大语言模型为例
人工智能·语言模型·自然语言处理