RSR秩和比综合评价法
一、概述
秩和比法(Rank-sum ratio,简称RSR法)是我国学者田凤调于1988年提出的,田教授是我国杰出的卫生统计学家,该方法最初提出时用于解决医学卫生领域的综合评价问题,后经各领域学者的补充和完善,秩和比法现被广泛地应用于医疗卫生、工农业生产、经济管理等多领域的综合评价、统计质量控制等方面。
用一句话概括秩和比法的核心思想:给定一个n行m列的原始数据矩阵(n代表有n个评价对象,m代表有m个评价指标),通过秩变换消除量纲,并计算能够反映评价对象优劣的指标秩和比,再通过适当的方法对评价对象分档,以解决评价问题。
二、步骤
2.1 原始数据矩阵
2.2 确定指标类型
极大型指标又被称为效益型指标,在秩和比综合评价中很多论文都称为高优指标!
极小型指标又被称为成本型指标,在秩和比综合评价中很多论文都称为低优指标!
如果存在区间型指标和中间型指标,先通过topsis中的的正向化方法将其转为高优指标。
现在回过头来看我们上面的例子,产前检查率是高优指标,孕妇死亡率和婴儿死亡率是低优指标。
2.3 确定指标权重
在上面的例子中有三个评价指标,假设我们取产前检查率、孕妇死亡率和婴儿死亡率的权重分别为01、0.5和0.4,我们可以将这三个权重按照指标出现的先后顺序写成权重向量:[0.1 0.5 0.4]。那么这组权重反映的信息就是:对于这10个地区的孕妇保健工作水平评价问题而言孕妇死亡率最为重要,婴儿死亡率次之,产前检查率最不重要。
通常确定指标权重的方法有两大类型:
(1)主观赋权方法(依靠决策者或专家去给指标赋权):层次分析法、序关系分析法、德尔菲法等
(2)客观赋权方法(依靠各评价指标的数据去计算权重):熵权法、变异系数法等
2.4 编秩
Q1:什么是秩?
在线性代数中,一个矩阵的列秩是该矩阵的线性无关的纵列的极大数目。
但是,秩和比综合评价法中的秩完全是另一个概念:一个数的秩就是将这个数所在的那组数据按照从小到大的顺序重新排列,这个数所处的位置下标;若出现相同的数,则将它们的位置下标计算平均值作为它们的秩。用数学语言描述就是:
对 x 1 、 x 2 、 ⋯ 、 x n 排序,得到 x ( 1 ) 、 x ( 2 ) 、 ⋯ 、 x ( n ) x i = x ( k ) ,则其秩 R i = k 。若 x ( i ) = x ( i + 1 ) , 则秩取平均值 2 i + 1 2 。 对x_1、x_2、\cdots、x_n排序,得到x_{(1)}、x_{(2)}、\cdots、x_{(n)}\\ x_{i}=x_{(k)},则其秩R_{i}=k。若x_{(i)}=x_{(i+1)},则秩取平均值\frac{2i+1}{2}。 对x1、x2、⋯、xn排序,得到x(1)、x(2)、⋯、x(n)xi=x(k),则其秩Ri=k。若x(i)=x(i+1),则秩取平均值22i+1。
示例:计算18、23、9、11、11、20的秩
排序:9、11、11、18、20、23
秩:4、6、1、2.5、2.5、5
Q2:秩反映了什么信息?
对于高优指标,从小到大排秩,指标数值越大,秩越大,指标越优异;
对于低优指标,从大到小排秩,指标数值越小,秩越大,指标越优异。
为了统一编秩方式,常先将低优指标转化为高优指标(取负号)
Q3:秩矩阵R?
数据矩阵 X n × m X_{n\times{m}} Xn×m,对数据矩阵X中的m个评价指标分别编秩,得到秩矩阵 R n × m R_{n\times{m}} Rn×m
Q4:改进编秩方法?
回顾原来的编秩方法:将原始数据转换为秩时只考虑了数据之间的相对大小关系,
而忽略了数据之间的绝对差异,因此会损失一部分信息。
举个例子:[10 100 20 30 40]和[10 100 20 80 90],得到的秩都是[1 5 2 3 4]。
在秩和比法中,将上面这种编秩方法称为:整秩次秩和比法 。
下面我们来介绍一种改进的编秩方法:非整秩次秩和比法 ,编秩公式(对于高优指标)为
R i = 1 + ( n − 1 ) × x i − x m i n x m a x − x m i n R_{i}=1+(n-1)\times\frac{x_i-x_{min}}{x_{max}-x_{min}} Ri=1+(n−1)×xmax−xminxi−xmin
观察公式可知,秩的范围被限定在1~n之间。
非整秩次秩和比法用类似于线性插值的方法进行编秩,该方法编秩的结果不能反映数据之间的相对大小差异,所编秩次与原始数据之间还存在定量的线性对应关系从而能克服整秩次秩和比法的缺陷。
下面是将低优指标转化为高优指标,并使用非整次编秩所得的秩矩阵
2.5 计算(加权)秩和比
Q1:秩和?
将秩矩阵的第i行的m个元素相加求和,能够得到第i行的秩和
R S i = ∑ j = 1 m R i j ( i = 1 , 2 , ... , n ) RS_i=\sum_{j=1}^{m}R_{ij}(i=1,2,...,n) RSi=∑j=1mRij(i=1,2,...,n);
理论上,最小秩和为m,最大秩和为mn
Q2:加权秩和?
若我们考虑这m个评价指标的权重,那么可以计算加权秩和 W R S i = ∑ j = 1 m w j R i j ( i = 1 , 2 , ... , n ) WRS_{i}=\sum_{j=1}^{m}w_{j}R_{ij}(i=1,2,...,n) WRSi=∑j=1mwjRij(i=1,2,...,n),式中 w j w_{j} wj表示第j个评价指标的
权重。当m个评价指标的权重相同时, W R S i = ∑ j = 1 m 1 m R i j ( i = 1 , 2 , ... , n ) WRS_{i}=\sum_{j=1}^{m}\frac{1}{m}R_{ij}(i=1,2,...,n) WRSi=∑j=1mm1Rij(i=1,2,...,n)
理论上,最小加权秩和为1,最大加权秩和为n
Q3:秩和比?
将秩和归一化得到秩和比
R S R i = 1 m n R S i ( i = 1 , 2 , ... , n ) RSR_i=\frac{1}{mn}RS_{i}(i=1,2,...,n) RSRi=mn1RSi(i=1,2,...,n);
Q4:加权秩和比?
将加权秩和归一化得到加权秩和比
W R S R i = 1 n R S i ( i = 1 , 2 , ... , n ) WRSR_i=\frac{1}{n}RS_{i}(i=1,2,...,n) WRSRi=n1RSi(i=1,2,...,n);
该案例中计算加权秩和比,下面的RSR都指加权秩和比WRSR
如果不需要后续对评价对象进行分档,那么计算完秩和比你的任务就结束了,秩和比的大小就能当成各个评价对象的得分,得分越高,排名越靠前。
例如在这个案例中,根据WRSR排名结果
2.6 对评价对象分档
相比于Topsis,秩和比的精髓在于其能对评价对象进行分档。
秩和比 RSR的范围被限定在[0,1]区间上,各个评价对象的秩和比RSI就相当于它们的得分,问题的关键在于如何对RSR 划分标准。
以划分成三档为例,我们需要给出两个分档界值:r1和r2(0<r1<r2<1),当某样本的 RSR 满足 r2<RSR<1 时,划分到第一档;当满足 r1<RSR<r2 时,划分到第档;当满足 0<RSR<r1时,划分到第三档。类似的,如果要将各评价对象划分成K(K>1)档,则需要给出K-1个分档界值。因此,分档的关键在于如何找到合理的分档界值,分档界值的选择将会直接影响分档的结果!
秩和比综合评价法中有一个标准的步骤来帮我们选取分档界值,核心步骤分为
面几步:
- 1、确定秩和比分布
- 2、计算回归方程
- 3、选择分档数并给定概率单位的分档界值
Q1:什么是概率单位Probit?
概率单位表
Q2:probit有什么用?
假设我们现在需要分成三档,那么需要找到两个分档界值。
直接找RSR的分档界值不好找,但是概率单位Probit的分档界值可以根据标准正态分布表来确定,比如我们希望第一档对应的概率大于0.8,那么概率单位Probit 的第一个分档界值可以选择为5.8416;如果希望第二档对应的概率位于0.2至0.8之间,那么概率单位 Probit的第二个分档界值可以选择为4.1584;当概率小于0.2时就是第三档。
那这里的概率代表什么含义呢?在后面的步骤中会告诉大家如何计算这个概率,实际上就是 RSR的累计频率,你可以将这个概率p简单的理解为超过了多少比例的评价对象,例如p=0.2就表示超过了 20%的评价对象;p-0.8表示超过了 80%的评价对象。假如我们能够得到秩和比 RSR 和概率单位Probit 之间的函数关系,那么给定概率单位 Probit 的分档界值后,就能反推出秩和比 RSR的分档界值。
2.6.1 确定秩和比分布
提炼核心步骤:
- 将WRSR从小到大排序;
- 计算秩次R'(求WRSR的秩);
- 计算平均秩次R'/n
- 计算累计频率R'/n×100%,最后一个累计频率按1-1/4n校正(避免概率单位无穷大)
- 将累计频率转化成概率单位probit
2.6.2 计算RSR和probit的回归方程
设WRSR=a*probit+b,利用最小二乘法进行线性回归
回归直线方程为:y = 0.2142119157760455 Probit - 0.46490254781312745
OLS Regression Results
==============================================================================
Dep. Variable: WRSR R-squared: 0.814
Model: OLS Adj. R-squared: 0.790
Method: Least Squares F-statistic: 34.95
Date: Thu, 05 Dec 2024 Prob (F-statistic): 0.000357
Time: 15:46:26 Log-Likelihood: 9.2093
No. Observations: 10 AIC: -14.42
Df Residuals: 8 BIC: -13.81
Df Model: 1
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const -0.4649 0.191 -2.430 0.041 -0.906 -0.024
Probit 0.2142 0.036 5.912 0.000 0.131 0.298
==============================================================================
Omnibus: 7.019 Durbin-Watson: 0.990
Prob(Omnibus): 0.030 Jarque-Bera (JB): 3.023
Skew: -1.310 Prob(JB): 0.221
Kurtosis: 3.623 Cond. No. 30.7
==============================================================================
Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
分析回归结果,拟合优度R方为0.8,拟合效果一般;但对自变量Probit进行假设检验的p值远小于0.05,说明在95%的置信水平下,拒绝自变量Probit的回归系数为0的原假设,Probit和RSR之间线性关系显著,可以进行后续分档
2.6.3 选择分档数并给定概率单位的分档界值
在该案例中,我们选择分档数为3,则probit两个临界值为4和6,代入回归方程计算出WRSR的界值约为0.39和0.82,根据界值对评价对象进行归档,归档结果如下:
可以看到只有H被归为A档,只有C被归为B档,其他评价对象被归为C档
2.7 方差分析检验分档结果有效性
很多秩和比综合评价的论文会在分档结束后对分档结果进行方差分析,检验各组别间的总体均值是否有显著差异。
在 RSR分档结束后使用方差分析进行假设检验,其中原假设是:各档位的秩和比RSR的总体均值都相等;备择假设是:各档位的秩和比RSR的总体均值不全相等。方差分析对应的统计量服从F分布,因此在汇报结果时,需要给出F统计量的值,并给出该F统计量对应的p值,如果p值小于0.05,则表示在95%的置信水平下拒绝原假设,即我们的分档在一定程度上是合理的。
方差分析结果:
sum_sq df F PR(>F)
C(level) 0.389218 2.0 12.486204 0.004911
Residual 0.109101 7.0 NaN NaN
可以看到p值小于0.05,表明各档位的WRSR总体均值不全相等,说明我们的分档在一定程度上是合理的。