非量表问卷信效度分析，用内容效度 + 重测信度评估数据质量

在进行问卷分析时，你是否遇见过下面这样的问题：

我做的是非量表问卷，还需要做信效度分析吗？
导师让我对自编非量表问卷进行信效度分析怎么办？
看了好多教程，都说信效度分析是量表的'专属'，非量表问卷怎么评估数据质量？

其实答案很明确：

一般情况下，非量表问卷无需进行信效度分析------不同于量表问卷需要通过信效度检验确保测量的准确性和一致性，非量表问卷以收集具体事实、行为等基础信息为主，无需额外进行信效度评估；
但如果遇到导师严格要求、期刊发表需要等特殊情况，需要评估问卷数据质量，那么非量表问卷核心评估维度就可以从**"** 内容效度" 与" **重测信度"**下手，量表常用的克隆巴赫α系数（内部一致性信度）、因子分析（结构效度），完全不适合非量表问卷，强行使用会得出无效结论。

本文将深度解析如何通过"内容效度"与"重测信度"这两大核心工具，科学、严谨地评估非量表数据质量，并基于SPSSAU软件演示如何完成内容效度和重测信度分析。

一、非量表问卷VS量表问卷

在正式展开前，我们需要先明确一个基本问题：非量表问卷和量表问卷的区别？

1 、量表问卷（又称李克特量表）：通常采用五点或七点计分方式，如"非常不满意---非常满意"，每题得分可以累加，形成一个有连续意义的数值变量。这类问卷的信效度分析，通常使用克隆巴赫α系数和因子分析（探索性因子分析/验证性因子分析）进行检验。

2 、非量表问卷 ：由单选题、多选题、填空题等构成，每道题测量的是独立的事实或类别（如性别、职业、购买行为、品牌选择等），各题之间不具备同质性，无法通过累加得分获得有意义的"总分"。这也正是传统信效度分析方法（如内部一致性信度和结构效度）不适用于非量表问卷的根本原因。

|----------|-------------------------------------------------|---------------------------------------------|
| 对比维度 | 量表问卷 | 非量表问卷 |
| 测量目的 | 测量抽象的潜在变量（如满意度、忠诚度、自我效能） | 收集具体事实、行为、简单态度（无潜在变量） |
| 题目特点 | 多题项共同测量一个维度，题目高度相关（如5道题测"用户满意度"），多为Likert 1-5分制 | 每题独立，无关联（如"性别""购买频率""偏好类型"），题型多样（单选、多选、填空等） |
| 信效度核心需求 | 检验题项间的一致性（内部一致性信度）、题项与理论维度的匹配度（结构效度） | 检验题目设计的合理性（内容效度）、测量结果的稳定性（重测信度） |
| 常用分析方法 | 克隆巴赫α系数、因子分析（EFA/CFA） | 内容效度（专家评分法）、重测信度（相关分析/Kappa系数） |

那么，非量表问卷就无法进行信效度分析了吗？当然不是。**信度是指使用某研究工具所获得结果的一致程度或准确程度；效度是指研究工具能真正反映它所期望研究概念的程度。**只要理解这两个概念的本质，就能找到适用于非量表问卷的分析方法。

二、非量表问卷内容效度评估

非量表问卷题目（单选、多选、填空等），无法使用因子分析等统计方法进行效度检验，这种情况下应对问卷的内容效度进行分析，以证明问卷设计的合理性和有效性。

内容效度的核心评估方法是专家评分法 ：邀请相关领域的专家，对问卷的每道题目进行评分，判断题目是否贴合调研目的、表述是否清晰、是否有冗余或遗漏。可使用文字论证法或内容效度指数法 。

1、文字论证法

如果研究要求不是特别严格，或者专家资源有限，可以通过文字论证的方式来呈现内容效度。建议从以下几个方面展开：

**问卷设计过程说明：**清晰阐述题目设计的逻辑和思路，说明每道题与测量目标之间的对应关系。
**参考文献依据：**说明问卷设计参考了哪些权威文献或已有工具。
**预测试与修订过程：**描述是否进行了小范围预测试，根据反馈做了哪些修改和优化。
**专家或同行认可：**说明问卷设计是否经过了导师、专家或同行的审阅和认可。

2、内容效度指数法

如果希望在论文中呈现更严谨、可量化的效度指标，建议采用内容效度指数法。CVI是国际上广泛认可的内容效度量化指标，在量表开发和问卷质量评估中被普遍采用。

（1 ）I-CVI 指标

内容效度的计算上较为简单，专家打分只能为1/2/3/4分，3/4分表示测量项较好或者好，那么首先计算出每项时打分为3/4分的专家数量，从而得到打分为3/4分的占比情况（即I-CVI指标），该指标值越大越好，可使用该指标进行内容效度判断。一般最少需要3位专家评估，其判断标准如下表格：

|----------|-----------------|
| 专家数量 | 判断标准 |
| <=5个专家时 | I-CVI小于1则不通过 |
| <=5个专家时 | I-CVI=1则通过 |
| >5个专家时 | I-CVI小于0.78则不通过 |
| >5个专家时 | I-CVI>=0.78则通过 |

当专家人数≤5个时即专家个数较少时，此时希望专家打分均为3/4分。如果专家个数＞5个时，此时只要78%的专家打分为3/4分即可。

（2 ）校正内容效度（调整Kappa ，K* 值）

为防止专家打分出现随机性，还可计算专家打分随机一致性概率Pc值，并且计算校正内容效度（调整Kappa，K*值），进一步进行内容效度判断。

专家打分随机一致性概率Pc值= C(n,A)*(0.5^n)，此处n表示专家总数量，A表示某测量项时专家打分为3/4的个数，C表示数学上的组合计算。
调整Kappa（K*值）= (I-CVI值 -- Pc值) / (1 -- Pc值)

如果是正常的专家打分数据，Pc值通常较高，最后结合调整Kappa值进行内容效度判断，其判断标准如下表格：

|-----------------------------|----------|
| 调整kappa （K* 值） | 判断标准 |
| <0.4 | 差 |
| [0.4,0.6) | 一般 |
| [0.6,0.74) | 良好 |
| [0.74,1) | 优秀 |

调整Kappa值越大越好，一般大于0.6即说明内容效度良好，但如果调整Kappa值小于0.4则无法接受。

（3 ）整体内容效度S-CVI 值

I-CVI指标是针对具体每个题目，当然还可计算全部一起的问卷题目，即对整个问卷的内容效度进行评价。其有两个指标，分别全体一致S-CVI(也称S-CVI或UA值)，还有平均S-CVI指标值。

全体一致S-CVI = 打分全部都为3/4的测量项个数 / 总测量项个数，通常其判断标准是0.8，即需要有80%以上的测量项全部都被专家认为是良好或者好才行。
平均S-CVI则是I-CVI指标的算术平均值，通常标准为0.9。一般情况下可能使用I-CVI较多。

参考文献：

$1$ 史静琤, 莫显昆, & MO Xiankun. (2012). 量表编制中内容效度指数的应用. 中南大学学报：医学版, 37(2), 4.

$2$ 柯友枝, 孙建刚, 李博, 刘阳. 问卷是否有效------基于2010-2020年CSSCI收录体育期刊文献的系统分析 $J$ . 上海体育学院学报, 2023, 47 (02): 37-47+103.

3、SPSSAU内容效度软件操作

在SPSSAU【问卷研究】模块，选择【内容效度】，按提示将专家对每个问题的评分（只能是1/2/3/4分，分值越高越有效）粘贴或修改后，点击"开始分析"按钮，操作如下图：

4、内容效度分析结果解读

SPSSAU输出内容效度分析结果如下：

（1）测量项内容效度专家评分及指标计算

分析上表可知：

CVI **：**所有3个测量项的I-CVI值均为1.000，大于6位专家时的临界值（通常为0.78），说明每个测量项的内容效度均达标。
调整Kappa K* **值：**所有3个测量项的K值均为1.000，大于0.74的"优秀"标准，说明校正后的内容效度非常优秀。

本次内容效度分析结果非常理想，问卷内容能有效反映所测特质。

【建议】通常情况下建议使用校正内容效度即针对调整Kappa K*值进行判断，因为K*值将专家打分独立性纳入考虑范围。

（2 ）整体内容效度

上表格展示整体内容效度的两个指标------全体一致S-CVI和平均S-CVI指标。分析上表可知，全体一致S-CVI = 15/15=1≥0.8，通过。平均S-CVI指标，其为I-CVI指标的算术平均为1>=0.9，其通过。

【建议】全体一致S-CVI指标衡量的是所有测量项整体内容效度情况，而平均S-CVI指标衡量的是平均内容效度，一般查阅全体一致S-CVI可能更加适合。

（3 ）不同专家人数各情况下I-CVI 评估速查表

上表格为不同专家人数及打分为3/4分时专家个数不同情况时的评估速查表。I-CIV指标和调整Kappa这两个指标均可对内容效度进行评价，但二者评价结果可能出现不一致，原因在于二者计算公式和评价标准不一致。

以上即为非量表问卷有效性检验方法------内容效度分析的全部内容，该方法通过专家打分对问卷的有效性和合理性进行检验，内容效度指标的计算简单也比较通俗易懂。

三、非量表问卷重测信度分析

如果说内容效度是"检验题目设计是否合理"，那重测信度就是"检验测量结果是否稳定"。

1、重测信度

重测信度是指用同一研究工具两次测定同一研究对象，所得结果的一致程度。一致程度越高，说明研究工具的稳定性越高，重测信度也就越高。

对于测量事实或类别的非量表问卷，重测信度是最适合的信度评估方法。它通过对比同一批人在两个时间点（通常间隔2周）的回答是否一致，来判断问卷的可靠性。

比如你调研"大学生外卖购买行为"，让100名大学生今天填一次问卷，2周后再让这100名大学生填一次相同的问卷，如果两次填写的结果高度一致，说明重测信度高，数据稳定可靠；如果两次结果差异很大，说明问卷测量不稳定，数据不可信。

2、收集重测数据

（1）选取同一批被试：重测的被试必须和第一次测量的被试完全一致，不能更换被试。在数据收集时，需要通过某种标识（如手机号后四位、学号等）进行匹配；

（2）两次测量的问卷完全一致：题目、选项、表述都不能修改，确保测量工具相同；

（3）两次测量的时间间隔：需要把握尺度，多数研究者推荐2周左右较为合适；

（4）控制无关变量：两次测量的场景、时间、环境尽量一致（比如都是线上填写，都是晚上8点左右），避免无关因素影响被试的回答。

3、按题目类型选择分析方法

重测信度的分析需要根据不同的题目类型选择相应的统计方法。需要注意的是，重测信度不适用开放题和未处理的多选题。

（1 ）数值型填空题（如年龄、收入、消费金额）推荐使用皮尔逊相关系数。

将同一批受访者两次测量的数值进行相关分析，相关系数越高，说明数值越稳定。一般认为相关系数大于0.7表示重测信度良好。

（2 ）二分类定类题（如男/女，是/否）推荐使用Kappa系数。

Kappa系数专门用于评价分类变量结果的一致性。一般认为κ≤0.4表示一致性较差；0.4＜κ≤0.6表示中度一致；0.6＜κ≤0.8表示有较高的一致性；κ＞0.8表示有极好的一致性。

（3 ）多分类定类题（如职业、品牌偏好、教育程度）这类题目需要根据选项的性质区分处理：

无序多分类（选项无顺序关系，如职业：学生/公务员/企业员工/自由职业）：推荐使用简单Kappa系数，关注两次回答是否完全相同。
有序多分类（选项有等级顺序，如满意度：非常不满意/不满意/满意/非常满意）：推荐使用线性加权Kappa系数。加权Kappa认可"近似"回答的合理性，例如第一次选"不满意"、第二次选"非常不满意"的偏差，应比从"不满意"跳到"非常满意"的偏差更小，给予较轻的惩罚。

4、SPSSAU重测信度软件操作

（1 ）数据格式整理

重测信度的数据格式，核心是同一被试，两次测量结果在同一行。在Excel中，你需要将两次测量作为不同的问题（列）横向排列，数据格式示例如下图：

行一一对应：第一行必须是用户1的两次回答，第二行必须是用户2的两次回答。
样本量一致：两次测量的人数必须完全相等。如果第二次有人没填，那一整行（包括第一次的数据）通常都需要剔除。
变量命名：建议加上前缀（如T1代表Time1，T2代表Time2），方便在SPSSAU拖拽变量时快速区分。

（2 ）SPSSAU 软件操作

将数据整理好后，上传至SPSSAU平台。按题目类型选择分析方法：例如针对连续变量"年龄"，使用【通用方法】模块【相关系数】进行重测信度分析，操作如下图：SPSSAU输出相关系数结果如下：分析上表可知，第一次测量与第二次测量年龄结果相关系数为1，意味着大家对年龄没有撒谎，两次测量结果完全一致，重测信度非常高。

针对二分类变量"性别"或无序多分类变量"职业"，使用SPSSAU【实验/医学研究】模块【Kappa】中的"简单Kappa"进行重测信度分析；
针对有序多分类变量"产品满意度"使用"加权Kappa(线性Cohens)"进行分析。

SPSSAU操作如下图：SPSSAU输出Kappa系数结果如下：分析上表可知，第一次与第二次测量产品满意度Kappa系数为0.795，说明一致性程度较强，重测信度较高。

最终每道题目得到的重测信度结果可整理为一个表格，如下表：

5、重测信度结果报告

做法1 ：合并报告重测信度范围

非量表问卷的题目多为"独立信息收集"，每题无关联（如年龄、性别、职业），逐题报告只会增加冗余，无实际意义；导师一般更关注整体数据稳定性，而非单题稳定性，所以一般合并报告更符合学术规范。

最简单的做法可参考以下话术：

"本研究对问卷中的24项非量表题进行了间隔两周的重测信度分析。结果显示，各题项的 Pearson相关系数（或Kappa值）介于0.712至0.925之间，且均在0.01水平上呈现显著性。这表明问卷各题项在时间跨度上具有良好的测量稳定性，数据质量可靠。"

做法2 ：分类按维度报告重测信度范围

如果你的非量表题可以归纳为几个大类（如：个人基本信息类、消费行为类、态度倾向类），可按类别报告重测信度结果范围，将最终结果整理成如下表格：

总结：

非量表问卷无法使用克隆巴赫α系数和因子分析进行信效度检验，但可以采用"内容效度+重测信度"的方法来评估数据质量。
内容效度的核心是证明问卷题目准确、全面地反映了测量目标。可以通过定性文字论述或定量CVI指标相结合的方式呈现。
重测信度的核心是评估问卷的稳定性。关键在于根据题目类型选择正确的统计方法：数值题用相关系数，分类题用Kappa系数。
SPSSAU软件可进行内容效度与重测信度分析。