在进行问卷分析时,你是否遇见过下面这样的问题:
- 我做的是非量表问卷,还需要做信效度分析吗?
- 导师让我对自编非量表问卷进行信效度分析怎么办?
- 看了好多教程,都说信效度分析是量表的'专属',非量表问卷怎么评估数据质量?
其实答案很明确:
- 一般情况下,非量表问卷无需进行信效度分析------不同于量表问卷需要通过信效度检验确保测量的准确性和一致性,非量表问卷以收集具体事实、行为等基础信息为主,无需额外进行信效度评估;
- 但如果遇到导师严格要求、期刊发表需要等特殊情况,需要评估问卷数据质量,那么非量表问卷核心评估维度就可以从**"** 内容效度" 与" **重测信度"**下手,量表常用的克隆巴赫α系数(内部一致性信度)、因子分析(结构效度),完全不适合非量表问卷,强行使用会得出无效结论。
本文将深度解析如何通过"内容效度"与"重测信度"这两大核心工具,科学、严谨地评估非量表数据质量,并基于SPSSAU软件演示如何完成内容效度和重测信度分析。
一、非量表问卷VS量表问卷
在正式展开前,我们需要先明确一个基本问题:非量表问卷和量表问卷的区别?
1 、量表问卷(又称李克特量表):通常采用五点或七点计分方式,如"非常不满意---非常满意",每题得分可以累加,形成一个有连续意义的数值变量。这类问卷的信效度分析,通常使用克隆巴赫α系数和因子分析(探索性因子分析/验证性因子分析)进行检验。
2 、非量表问卷 :由单选题、多选题、填空题等构成,每道题测量的是独立的事实或类别(如性别、职业、购买行为、品牌选择等),各题之间不具备同质性,无法通过累加得分获得有意义的"总分"。这也正是传统信效度分析方法(如内部一致性信度和结构效度)不适用于非量表问卷的根本原因。
|----------|-------------------------------------------------|---------------------------------------------|
| 对比维度 | 量表问卷 | 非量表问卷 |
| 测量目的 | 测量抽象的潜在变量(如满意度、忠诚度、自我效能) | 收集具体事实、行为、简单态度(无潜在变量) |
| 题目特点 | 多题项共同测量一个维度,题目高度相关(如5道题测"用户满意度"),多为Likert 1-5分制 | 每题独立,无关联(如"性别""购买频率""偏好类型"),题型多样(单选、多选、填空等) |
| 信效度核心需求 | 检验题项间的一致性(内部一致性信度)、题项与理论维度的匹配度(结构效度) | 检验题目设计的合理性(内容效度)、测量结果的稳定性(重测信度) |
| 常用分析方法 | 克隆巴赫α系数、因子分析(EFA/CFA) | 内容效度(专家评分法)、重测信度(相关分析/Kappa系数) |
那么,非量表问卷就无法进行信效度分析了吗?当然不是。**信度是指使用某研究工具所获得结果的一致程度或准确程度;效度是指研究工具能真正反映它所期望研究概念的程度。**只要理解这两个概念的本质,就能找到适用于非量表问卷的分析方法。
二、非量表问卷内容效度评估
非量表问卷题目(单选、多选、填空等),无法使用因子分析等统计方法进行效度检验,这种情况下应对问卷的内容效度进行分析,以证明问卷设计的合理性和有效性。
内容效度的核心评估方法是专家评分法 :邀请相关领域的专家,对问卷的每道题目进行评分,判断题目是否贴合调研目的、表述是否清晰、是否有冗余或遗漏。可使用文字论证法或内容效度指数法 。
1、文字论证法
如果研究要求不是特别严格,或者专家资源有限,可以通过文字论证的方式来呈现内容效度。建议从以下几个方面展开:
- **问卷设计过程说明:**清晰阐述题目设计的逻辑和思路,说明每道题与测量目标之间的对应关系。
- **参考文献依据:**说明问卷设计参考了哪些权威文献或已有工具。
- **预测试与修订过程:**描述是否进行了小范围预测试,根据反馈做了哪些修改和优化。
- **专家或同行认可:**说明问卷设计是否经过了导师、专家或同行的审阅和认可。
2、内容效度指数法
如果希望在论文中呈现更严谨、可量化的效度指标,建议采用内容效度指数法。CVI是国际上广泛认可的内容效度量化指标,在量表开发和问卷质量评估中被普遍采用。
(1 )I-CVI 指标
内容效度的计算上较为简单,专家打分只能为1/2/3/4分,3/4分表示测量项较好或者好,那么首先计算出每项时打分为3/4分的专家数量,从而得到打分为3/4分的占比情况(即I-CVI指标),该指标值越大越好,可使用该指标进行内容效度判断。一般最少需要3位专家评估,其判断标准如下表格:
|----------|-----------------|
| 专家数量 | 判断标准 |
| <=5个专家时 | I-CVI小于1则不通过 |
| <=5个专家时 | I-CVI=1则通过 |
| >5个专家时 | I-CVI小于0.78则不通过 |
| >5个专家时 | I-CVI>=0.78则通过 |
当专家人数≤5个时即专家个数较少时,此时希望专家打分均为3/4分。如果专家个数>5个时,此时只要78%的专家打分为3/4分即可。
(2 )校正内容效度(调整Kappa ,K* 值)
为防止专家打分出现随机性,还可计算专家打分随机一致性概率Pc值,并且计算校正内容效度(调整Kappa,K*值),进一步进行内容效度判断。
- 专家打分随机一致性概率Pc值= C(n,A)*(0.5^n),此处n表示专家总数量,A表示某测量项时专家打分为3/4的个数,C表示数学上的组合计算。
- 调整Kappa(K*值)= (I-CVI值 -- Pc值) / (1 -- Pc值)
如果是正常的专家打分数据,Pc值通常较高,最后结合调整Kappa值进行内容效度判断,其判断标准如下表格:
|-----------------------------|----------|
| 调整kappa (K* 值) | 判断标准 |
| <0.4 | 差 |
| [0.4,0.6) | 一般 |
| [0.6,0.74) | 良好 |
| [0.74,1) | 优秀 |
调整Kappa值越大越好,一般大于0.6即说明内容效度良好,但如果调整Kappa值小于0.4则无法接受。
(3 )整体内容效度S-CVI 值
I-CVI指标是针对具体每个题目,当然还可计算全部一起的问卷题目,即对整个问卷的内容效度进行评价。其有两个指标,分别全体一致S-CVI(也称S-CVI或UA值),还有平均S-CVI指标值。
- 全体一致S-CVI = 打分全部都为3/4的测量项个数 / 总测量项个数,通常其判断标准是0.8,即需要有80%以上的测量项全部都被专家认为是良好或者好才行。
- 平均S-CVI则是I-CVI指标的算术平均值,通常标准为0.9。一般情况下可能使用I-CVI较多。
参考文献:
1\] 史静琤, 莫显昆, \& MO Xiankun. (2012). 量表编制中内容效度指数的应用. 中南大学学报:医学版, 37(2), 4. \[2\] 柯友枝, 孙建刚, 李博, 刘阳. 问卷是否有效------基于2010-2020年CSSCI收录体育期刊文献的系统分析\[J\]. 上海体育学院学报, 2023, 47 (02): 37-47+103. ### 3、SPSSAU内容效度软件操作 在SPSSAU【问卷研究】模块,选择【内容效度】,按提示将专家对每个问题的评分(只能是1/2/3/4分,分值越高越有效)粘贴或修改后,点击"开始分析"按钮,操作如下图: ### 4、内容效度分析结果解读 SPSSAU输出内容效度分析结果如下: **(1)测量项内容效度专家评分及指标计算**  分析上表可知: * **CVI** **:**所有3个测量项的I-CVI值均为1.000,大于6位专家时的临界值(通常为0.78),说明每个测量项的内容效度均达标。 * **调整Kappa K\*** **值:**所有3个测量项的K值均为1.000,大于0.74的"优秀"标准,说明校正后的内容效度非常优秀。 本次内容效度分析结果非常理想,问卷内容能有效反映所测特质。 【建议】通常情况下建议使用校正内容效度即针对调整Kappa K\*值进行判断,因为K\*值将专家打分独立性纳入考虑范围。 **(2** **)整体内容效度**  上表格展示整体内容效度的两个指标------全体一致S-CVI和平均S-CVI指标。分析上表可知,全体一致S-CVI = 15/15=1≥0.8,通过。平均S-CVI指标,其为I-CVI指标的算术平均为1\>=0.9,其通过。 【建议】全体一致S-CVI指标衡量的是所有测量项整体内容效度情况,而平均S-CVI指标衡量的是平均内容效度,一般查阅全体一致S-CVI可能更加适合。 **(3** **)不同专家人数各情况下I-CVI** **评估速查表**  上表格为不同专家人数及打分为3/4分时专家个数不同情况时的评估速查表。I-CIV指标和调整Kappa这两个指标均可对内容效度进行评价,但二者评价结果可能出现不一致,原因在于二者计算公式和评价标准不一致。 以上即为非量表问卷有效性检验方法------内容效度分析的全部内容,该方法通过专家打分对问卷的有效性和合理性进行检验,内容效度指标的计算简单也比较通俗易懂。 ## 三、非量表问卷重测信度分析 如果说内容效度是"检验题目设计是否合理",那重测信度就是"检验测量结果是否稳定"。 ### 1、重测信度 重测信度是指用同一研究工具两次测定同一研究对象,所得结果的一致程度。一致程度越高,说明研究工具的稳定性越高,重测信度也就越高。 对于测量事实或类别的**非量表问卷,重测信度是最适合的信度评估方法**。它通过对比同一批人在两个时间点(通常间隔2周)的回答是否一致,来判断问卷的可靠性。 比如你调研"大学生外卖购买行为",让100名大学生今天填一次问卷,2周后再让这100名大学生填一次相同的问卷,如果两次填写的结果高度一致,说明重测信度高,数据稳定可靠;如果两次结果差异很大,说明问卷测量不稳定,数据不可信。 ### 2、收集重测数据 (1)选取同一批被试:重测的被试必须和第一次测量的被试完全一致,不能更换被试。在数据收集时,需要通过某种标识(如手机号后四位、学号等)进行匹配; (2)两次测量的问卷完全一致:题目、选项、表述都不能修改,确保测量工具相同; (3)两次测量的时间间隔:需要把握尺度,多数研究者推荐2周左右较为合适; (4)控制无关变量:两次测量的场景、时间、环境尽量一致(比如都是线上填写,都是晚上8点左右),避免无关因素影响被试的回答。 ### 3、按题目类型选择分析方法 重测信度的分析需要根据不同的题目类型选择相应的统计方法。需要注意的是,重测信度不适用开放题和未处理的多选题。 **(1** **)数值型填空题**(如年龄、收入、消费金额)推荐使用皮尔逊相关系数。 将同一批受访者两次测量的数值进行相关分析,相关系数越高,说明数值越稳定。一般认为相关系数大于0.7表示重测信度良好。 **(2** **)二分类定类题**(如男/女,是/否)推荐使用Kappa系数。 Kappa系数专门用于评价分类变量结果的一致性。一般认为κ≤0.4表示一致性较差;0.4<κ≤0.6表示中度一致;0.6<κ≤0.8表示有较高的一致性;κ>0.8表示有极好的一致性。 **(3** **)多分类定类题**(如职业、品牌偏好、教育程度)这类题目需要根据选项的性质区分处理: * 无序多分类(选项无顺序关系,如职业:学生/公务员/企业员工/自由职业):推荐使用简单Kappa系数,关注两次回答是否完全相同。 * 有序多分类(选项有等级顺序,如满意度:非常不满意/不满意/满意/非常满意):推荐使用线性加权Kappa系数。加权Kappa认可"近似"回答的合理性,例如第一次选"不满意"、第二次选"非常不满意"的偏差,应比从"不满意"跳到"非常满意"的偏差更小,给予较轻的惩罚。 ### 4、SPSSAU重测信度软件操作 **(1** **)数据格式整理** 重测信度的数据格式,核心是同一被试,两次测量结果在同一行。在Excel中,你需要将两次测量作为不同的问题(列)横向排列,数据格式示例如下图: * 行一一对应: 第一行必须是用户1的两次回答,第二行必须是用户2的两次回答。 * 样本量一致: 两次测量的人数必须完全相等。如果第二次有人没填,那一整行(包括第一次的数据)通常都需要剔除。 * 变量命名: 建议加上前缀(如T1代表Time1,T2代表Time2),方便在SPSSAU拖拽变量时快速区分。 **(2** **)SPSSAU** **软件操作** 将数据整理好后,上传至SPSSAU平台。按题目类型选择分析方法:例如针对连续变量"年龄",使用【通用方法】模块【相关系数】进行重测信度分析,操作如下图:SPSSAU输出相关系数结果如下:分析上表可知,第一次测量与第二次测量年龄结果相关系数为1,意味着大家对年龄没有撒谎,两次测量结果完全一致,重测信度非常高。 * 针对二分类变量"性别"或无序多分类变量"职业",使用SPSSAU【实验/医学研究】模块【Kappa】中的"简单Kappa"进行重测信度分析; * 针对有序多分类变量"产品满意度"使用"加权Kappa(线性Cohens)"进行分析。 SPSSAU操作如下图:SPSSAU输出Kappa系数结果如下:分析上表可知,第一次与第二次测量产品满意度Kappa系数为0.795,说明一致性程度较强,重测信度较高。 最终每道题目得到的重测信度结果可整理为一个表格,如下表: ### 5、重测信度结果报告 * **做法1** **:合并报告重测信度范围** 非量表问卷的题目多为"独立信息收集",每题无关联(如年龄、性别、职业),逐题报告只会增加冗余,无实际意义;导师一般更关注整体数据稳定性,而非单题稳定性,所以一般合并报告更符合学术规范。 最简单的做法可参考以下话术: "本研究对问卷中的24项非量表题进行了间隔两周的重测信度分析。结果显示,各题项的 Pearson相关系数(或Kappa值)介于0.712至0.925之间,且均在0.01水平上呈现显著性。这表明问卷各题项在时间跨度上具有良好的测量稳定性,数据质量可靠。" * **做法2** **:分类按维度报告重测信度范围** 如果你的非量表题可以归纳为几个大类(如:个人基本信息类、消费行为类、态度倾向类),可按类别报告重测信度结果范围,将最终结果整理成如下表格: **总结:** * 非量表问卷无法使用克隆巴赫α系数和因子分析进行信效度检验,但可以采用"内容效度+重测信度"的方法来评估数据质量。 * 内容效度的核心是证明问卷题目准确、全面地反映了测量目标。可以通过定性文字论述或定量CVI指标相结合的方式呈现。 * 重测信度的核心是评估问卷的稳定性。关键在于根据题目类型选择正确的统计方法:数值题用相关系数,分类题用Kappa系数。 * SPSSAU软件可进行内容效度与重测信度分析。