大规模创新类竞赛评审方案的建模与研究

随着科技的发展和教育制度的改革,近年来涌现出一批以"创新"为主题的竞赛项目。这类竞赛的运行模式为,参赛队伍提交文档、视频或幻灯片等文本形式的作品,专家对参赛队伍提交的作品评阅判分,一份作品将由多位专家独立进行评阅打分,按照具体的赛事细则,选出其中质量好的作品,最终制定获奖名单。这类竞赛规模大、创新性强,容易出现因作品分配不合理、专家个人因素引起评分的系统和随机误差等问题。若不能减小或解决上述问题,将直接影响到最终获奖名单,从而影响竞赛的公平性。本文为,而探究一套科学、合理、有效的竞赛评分机制。该评分机制考虑到了作品科学分配、专家个体打分与整体的一致性关系及评审等因素。

针对问题一,为制定一份专家评分可比性强且不同专家与专家之间评分可比性尽可能一致的作品分配方案,本文以多目标优化的思想为基础,综合考虑专家评阅论文的工作量的均衡量和专家评阅论文的交叉量这两个因素,将论文的分配量和论文的交叉量作为方案指标,建立均匀-交叉多目标作品分配模型。为求解该模型,本文提出一种基于 NSGA-II算法的多目标遗传进化算法( Multi- Objective Genetic algorithm, MO-GA 算法) 。该算法不受模型参数规模的限制,有较强的自适应性,能自主协调各目标函数之间的关系,得到 Pareto 最优前沿上的多样性解集。针对问题一中的参数限制(3000支队伍和125位评委),给出基于MO-GA 算法的均匀-交叉多目标作品分配模型的具体实施步骤。结果表明,基于该模型的最优作品分配量为每位专家120份,最优交叉量为1.92。

针对问题二,首先对每份作品的原始分数和标准分进行描述性统计分析,原始数据的变异系数为0.292,判断存在异常值,经过清洗得到筛选后的数据。然后,利用 Shapiro- Wilk 检验、P-P图和Q-Q图对全体作品的原始分数和标准分进行正态性检验,结果总体上符合正态分布。进一步绘制专家打分箱型图,并通过K- means聚类分析了专家打分习惯,其中打分偏高、平均和偏低的专家比例分别为15.46%、79.38%和5.16%。考虑到专家作品集合的学术水平分布不同,本文选择现有模型(2)并提出了基于一次评审极差的标准分评阅模型。以获奖总人数为基准,采用名次的相对变化量和相对变化率作为评价指标,结果显示基于一次评审的模型较现有模型在提升相对变化量和变化率方面分别高出73.9%和4.6%。此外,本文还通过 Pearson相关性分析证实了名次与标准分均值之间存在显著负相关关系,结果为-0.947。考虑到专家打分习惯和标准分模型对排名的影响,本文从调整标准化分数计

算系数和基于离差改进专家权重两个角度出发,建立了基于离差的权重标准分全局优化的评审模型。并采用重合度和乱序度作为模型评价指标,以第二阶段评审中专家协商一致认定的一等奖排序作为基准。该模型的重合度和乱序度分别为9 和122。在此基础上,本文进一步提出了加权系数改进模型,该模型的重合度和乱序度分别为14和83,改进模型的重合度提高了55.56%,重合度降低了32.97%。结果表明,改进后的模型能有效减小乱序度和提高匹配度,更好地反映专家共识,验证了模型的效果。

针对问题三,分别分析了比较模拟数据2.1和2.2进入和未进入第二阶段评审的两组数据,共得到4组对比数据。在总体打分不变的情况下,两阶段评审方案的数据分布更加集中,评分结果更优。对两阶段的数据中的极差、名次、最终成绩、一阶段平均标准分等指标通过 Kendall 系数进行一致性检验,得协调系数为W=0.802,相关度完全一致。为区别高低分段的极差与创新性差异,选出创新性作品,本文引入作品争议度,以作品创新度为衡量作品是否具备创新性的指标,建立基于极差-争议度的作品创新度评价模型。利用 K- means 并结合附件2.1 和2.2 数据, 对作品创新度进行聚类, 提出基于创新度的二轮分数修正模型,用于对极差中等的作品进行极差修正。

针对问题四,本文构建了一个完整的评审模型,包含以下四个步骤:第一步,建立一个多目标优化的评审专家分组模型,目标是最小化总体出错率和最大化评审速度。第二步,对作品进行密码加密,采用编程随机生成作品序列号,以保障作品评审过程中的公平公正。第三步,在问题一的作品分配模型基础上,增加专家回避本校作品的约束,得到改进的作品分配模型。第四步,采用问题二中改进后的方案三作为作品评审模型。通过这四步得到完整的评审模型和流程。最后,本文从评分机制、作品分配、评委选择等角度分析现有方案的不足,并给出目标化的改进建议,提出未来需要收集具有论文编码的分发方案、论文分发过程中的时间损耗、已有创新类竞赛的创新性打分依据等数据以不断优化评审方案。

关键词:创新类竞赛,交叉分发,标准分计算模型,权重,多目标优化,群组决策评分

一、问题重述

1.1问题背景

1.1.1创新类竞赛发展现状

自党的十八大以来,我国一直坚定不移地实施创新驱动发展战略,把科技自立自强作为国家发展的战略支撑。在现阶段建设国家创新体系和实现社会经济转型的背景下,创新人才的培养成为关乎我国是否能实现民族振兴的有力保障[1]。为了贯彻落实国家的方针和政策,全国各大高校担任了培养创新人才的重要使命[2],主要体现在引入创新类比赛、开设创新类课程和开展创新类实践项目这三个方面。其中,参加创新类竞赛是快速提升学生能的最有效途径[2]。

本文依据《全国普通高校大学生竞赛目录榜单》和中国研究生创新实践系列大赛官网 ++www.csadge.edu.cn++ 和++http://www.cahe.edu.cn++),分析2021年和2022年全国各省参加创新类竞赛的参赛情况,下图1.1分别为2021年和2022年全国各省高校参加创新类竞赛热力气泡图,基于图 1.1全国各省市参加创新类竞赛的高校百分比数量逐年递增,其中江苏省、浙江省、广东省,为全国各省参赛情况排名前三。由图可知,创新类竞赛备受关注,且关注度逐年递增。

1.1.2创新类竞赛的共性问题

创新类竞赛没有标准答案,需要评审专家根据命题人(组) 提出的评审框架(建议)独立评审。所以,对同一份作品,不同评委的评分可能存在较大差异。实际上,当竞赛规模庞大,评委人数众多时,评分存在极大波动的问题更为突出。显然,简单依据多个评委评分的总和进行排名不是一个好的竞赛评审方案。

创新类竞赛评审主要面临以下九个问题:

1、评审方案设计与优化问题。评审方案的设计直接影响竞赛的公平性和科学性。需要考虑作品的合理分配机制、评委组成、评分标准与机制设计等。优化评审流程,提高评审效率也至关重要。

2、评分差异与评审结果可比性问题。不同评委对同一作品可能存在较大的打分偏差。

这将影响评审结果的可比性。需要研究方法来检验评分的一致性,增强不同评委结果的可比性。

3、评分标准化方法问题。传统标准分计算方法在创新类竞赛中存在缺陷。需研究适合创新类竞赛特点的评分标准化方法,降低评分波动。

4、两阶段评审机制有效性问题。许多竞赛采用两阶段评审,但其效果和必要性有待验证。需对比研究两阶段与单阶段评审的优劣。

5、极差问题的合理处理。创新类竞赛中评分极差问题突出。需要研究在不同评审阶段对极差问题的合理处理,提高评审公信力。

6、创新性评估客观性问题。创新性评估主观性大,需要增强评估的客观性。可构建包含多个指标的评估体系,引入更多定量分析。

7、评审数据建模与分析。应用数据挖掘与建模方法,能提高评审的科学性与准确性。需要研究适合的建模方法。

8、专家协商机制的设计。专家协商能有效解决评分分歧。需要设计高效的专家协商流程与机制。

9、评审方案合理性评估。需要构建评估模型,对不同评审方案的优劣进行比较分析,选择最优方案。

因此,探讨大规模创新类竞赛评审方案的公正性、公平性和科学性意义重大。

1.2 问题提出

本文主要研究大规模创新类竞赛评审方案研究。为探索大规模创新类竞赛评审的好方法,本文主要从作品"交叉分发"模型、标准分计算模型、基于极差的论文创新性研究和合理的评审模型进行分析研究。

问题一:"均匀-交叉分发"模型的研究

通常,作品在不同的评审阶段都是随机分发给多位评委进行独立评审。不同专家的评审作品集合的出现作品交集可以增加不同专家所给成绩的可比性。但是需要对作品交集进行合理化控制。依据专家工作量和专家评阅论文交集量,建立作品"均匀-交叉分发"模型。在给定 3000支参赛队、125位评委、每份作品由5 位评委评审的前提要求下,求解最优的"交叉分发"方案,使不同评委之间评分具有最大可比性。

问题二:标准分评审方案及标准分计算模型研究

大规模创新类竞赛中,不同评委评审的作品样本有限,传统标准分评审方案的假设可能不成立。为此,需选择新的评审方案,分析专家原始评分和标准分的分布特征。然后,设计适用于大规模创新类竞赛的新的标准分计算模型。本文从调整标准化分数计算系数和基于离差改进专家权重两个角度出发,建立了整体优化的基于离差权重标准分评审模型。利用第二阶段评审中专家协商一致认定的一等奖样本数据对模型进行验证和改进,采用乱序度和匹配度作为评价指标,使模型结果更具公信力。

问题三:基于"极差"模型的论文创新型挖掘研究

"创新类"竞赛的特点是作品没有标准答案,需要通过创新来解决难题。由于评审专家视角不同,同一作品的评分通常存在较大差异。问题三要求根据所给数据中的所有作品在两个不同阶段的成绩和极差的整体变化,对比分析按照不分阶段的评审方案和分两个阶段的评审方案的参数,来比较两种方案的优劣判断分两个阶段是否有必要。分析极差大和创新性强之间的关系,并建立极差模型,并根据所给数据研究第一阶段非高非低分数段极差较大的作品的程序化处理方法。

问题四:"创新类"竞赛完整评审模型的研究与求解

针对创新类竞赛给出一个完整的评审优化模型,并研究如何利用给定数据求解该模型。也可以基于现有评审方案,给出改进建议,包括未来需要收集的数据。

模型假设与符号说明

3.1模型假设

全局假设

忽略专家在不同领域的专业性差异,默认每位专家在不同领域的专业度一致。

问题一假设

忽略专家来源地区、所在单位、专业领域以及年龄等客观性的个人因素对分发、评审作品的影响。

问题二假设

各位评审专家都是公正、无私的,阅卷时无感情因素,即对于两篇论文A和B,如果该评委认为A较B水平高,则有A得分高于B的得分。

问题三假设

假设作品最终名次越靠前、总分越高,即表示作品的创新性越好。

各位评审专家都是公正、无私的,阅卷时无感情因素,即对于两篇论文A和B,如果该评委认为A较B水平高,则有A的创新性高于B。

问题四假设

每个专家评审的论文尽可能广泛; 每个学校的答卷尽可能平均分给每个专家。

3.2符号说明

|-------------|-----------------------|----------|
| 符号 | 内容说明 | |
| x₁k(i∈(1,m) | 第k篇作品由第i位专家评审 | |
| Qij | 分给i,j两位专家论文的重合数量 | |
| aᵢ | 每位专家评审作品数量最小值 | |
| b₁ | 每位专家评审作品数量最大值 | |
| x₁k | 若评委i评审了k号作品, 则 xik=1, | 否则x₁k=0。 |
| aij | 第j位专家对第i份作品的原始评分 | |
| aij' | 第j位专家对第i份作品的改进标准分 | |
| Δao | 改进后的标准分模型调整后的分数的平均分 | |
| w₅ | 第 js(1≤s≤k) 个专家的权重 | |
| C₁ | 第一阶段的综合总分 | |
| d₁ | 第二阶段得分 | |
| z₁ qij | 总成绩 评委i, j交叉论文的均分 | |

(1) 决策变量的设定

xᵢₖ=1or0, 若评委i评审了k号作品,则 xᵢₖ=1, 否则 xᵢₖ=0;

aᵢ,bᵢ分别表示评委i能够评阅论文数量的上、下界:

Qᵢⱼ表示分给i,j两位专家论文的重合数量, Q ij =∑ k=1 m x ik x jk。

假设本次竞赛共收到n份参赛作品,将参赛作品编号设为1-n; 设参加此次阅卷的评委有m位,评委编号分别为1-m。每份论文由随机的t位评委评阅打分,其中t<n。限定每位专家评审作品数量的阈值区间为 aᵢ bᵢ.

(2) 目标函数的建立

基于上述分析,本文所提出的均匀-交叉多目标优化模型中,存在以下两类目标:第一类目标要求分发给每位评审专家的论文数量尽可能接近,因此每位评审专家评阅的论文数量与平均分发作品数量之间的平方和尽可能地小; 第二类目标要求专家评选作品尽可能交叉,因此任意两位评审专家评阅作品的交叉量的最大值与最小值之差(极差) 的最大值尽可能地小。

第一类目标函数的数学模型为式 (1) :

min*∑* i=1 m k=1 n x ik - t×n m2 (其中, t=5) (1)

第二类目标函数的数学模型为式 (2) :

|----------------------------------------------------------------------------|
| |

其中(1)xᵢk(i∈(1,m)的自然数,k∈(1,n)的自然数)表示为第k篇作品由第i位专家评审。(2) Qij表示分给i,j两位专家论文的重合数量, Q ij =∑ k=1 m x ik x jk . x ik x jk=1or0, xᵢₖ∧xⱼₖ=1, 表示第k篇论文由i和j两个评审专家共同审阅,否则 xᵢₖ∧xⱼₖ=0。

(3) 约束条件的制定

基于上述分析,本文所提出的均匀-交叉分配模型中,存在以下的约束性条件:(1)需要限制每位专家评审作品的数量;(2)每份作品需要由t位评委评阅。此外需要注意xᵢkʌ xⱼₖ=1or0, 制定式 (3) 中

|----------------------------------------------------------------------------|
| |

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 其中 1 a i ≤∑ k=1 n x ik bi ≤b; 文的数量进行限制,通过设置aᵢ和b₁的大小来保证每位评审专家的阅卷数量相对均衡; 2 i=1 m x ik=t 是每份论文由t位评审专家评阅:(3) Qij表示分给i,j两位专家论文的重合数量: 4xᵢₖ=1or0, 若评委i评审了k号作品,则 xᵢₖ=1, 否则 xᵢₖ=0, |

4.3模型的求解

相较于单目标优化问题,多目标优化问题下的子目标之间可能存在互斥关系,导致可能不存在一个绝对最优解可以使得全部的目标都达到最优。因此,只能在所有子目标之间不断进行调试,使目标函数无限逼近理想化的最优解,最终得出一个折中妥协后的综合效

果最优方案[3]。多目标优化算法( Non- dominated Sorting Genetic Algorithm II, NSGA-II算法)是一种求解多目标优化问题的有效算法,在求解过程和迭代过程中不受求解规模限制,且能自主地协调各目标函数之间的关系,得到 Pareto最优前沿上多样性解集[4]。

本文提出一种基于 NSGA-Ⅱ算法的多目标遗传进化算法( Multi- Objective Genetic algorithm, MO-GA)用于求解上述多目标优化模型。该算法融合标准GA 算法和NSGA-III 算法,具备自适应参数优化和决定种群初始化、进化阶段的约束条件。下表 4.1简述改进优化算法与传统算法的区别。

表4.1

|-----|--------------------------|-------------------------------------|
| | | 算法 |
| 不同点 | 标准NSGA-Ⅱ算法 | 多目标遗传进化算法(MO-GA) |
| 1 | 采用0-1二进制形式编码 | 多维矩阵编码 |
| 2 3 | 不存在约束条件算子 种群交叉和变异概率为常数定值 | 支持在种群生成和进化阶段设定约束条件 种群交叉和变异概率迭代自适应调整 |

利用MO-GA 算法求解多目标优化模型,流程主要包括以下几步:

步骤 1:设置和输入初始化参数,参数分为模型参数和算法参数。模型参数在本模型中均取自然数 1。算法参数:重复迭代次数 gag、种群规模ppo、种群交叉和变异概率自适应参数: Pₘ₁=0.1,Pₘ₂=0.01;

步骤2:生成初始化种群,采用二维矩阵0-1编码,随机生成比 ppo规模大的初始种群 Aini:

步骤3:计算初始种群 Amin中所有个体的第一类目标函数值O₁,第二类目标函数值O₂和约束度 Hi。写入多维矩阵 Dini中:

步骤4:以 Dfni中三个参数O₁、O₂、H₁为依据,对初始种群 Aini进行层级划分和 Euclidean 距离计算,并根据每个个体的层级和 Euclidean距离,在对应的多维数组中选出最优的满足种群规模的个体组成初始的父代种群 Afar:

步骤5:通过帝国主义竞争法在种群 Afrar中选择一部分的个体通过遗传,交叉等操作形成种群 Ac,变异操作形成种群 Am,合并 Ac和 Am组成子代种群 Ager,合并种群 Afar和种群 Ager为种群 Amid:

步骤6:计算种群 Amid中所有个体的O₁、O₂和H₂,得到 Dmid,对种群 Amid进行层级划分和 Euclidean距离计算,并根据每个个体的层级和 Euclidean距离,依次选出 ppo个满足种群规模的个体形成新的种群 Afar。

步骤7:进行迭代运算,并判断是否达到最大迭代次数,若达到,则终止运算,输出结果,否则一直重复步骤5。

运用MO-GA 算法求解多目标优化模型流程图如图4.2所示。

5.2.3作品名次与第一阶段分数的关系分析

对 2018 个作品的原始分数进行数据处理,计算出第一阶段原始分数的平均分、标准差、中位数以及极差,并对他们进行相关性分析,得到最终作品名次与第一阶段原始分数的平均分、标准差、中位数以及极差的相关系数如表5.3所示。

表5.3最终作品名次与第一阶段原始分有关参数的相关系数

平均分 标准差 中位数 极差

作品名次 -0.910 0.122 -0.879 0.113

相关系数热力图如图5.10所示。

通过相关性分析可以得到:最终作品名次与第一阶段原始分数的平均分和中位数呈很大程度的负相关,同时与标准差和极差呈较小程度的正相关。

对 2018 个作品的第一阶段标准分数进行数据处理,计算出第一阶段标准分数的平均分、标准差、中位数以及极差,并对他们进行相关性分析,得到最终作品名次与第一阶段标准分的平均分、标准差、中位数以及极差的相关系数如表5.3所示。

模型评估与改进

8.1 模型优点

1、问题一提出的均匀一交叉多目标作品分配模型,综合考虑专家分配的工作量和分配论文的交叉量,是一类适用于智能算法的多目标优化模型。

2、问题二提出的基于离差的权重标准分全局优化的评审模型,考虑专家个人打分习惯和对打分的影响,从两个方面提出该优化模型。

3、问题三提出的基于极差------争议度的作品创新度评价模型,引入争议度作为衡量作品创新度的因素,采用创新度为评价指标, 一定程度上减小低分段极差大作品的影响,并基于创新度提出二轮修正模型,用于修正极差位于中间部分的作品得分。

4、问题四提出的基于多目标优化的评审专家分组模型,考虑到出错率和总评审速度这两个方面,因此考虑对专家进行合理分组使总的出错率达到极小,并且使总的评审速度达到极大; 其次对作品进行编程加密,简单易行不易被破解,而且可以在一定程度保证作品的安全以及竞赛的公正; 提出的作品分配模型也在之前的基础上进行改进,即保证评审专家必须回避本校作品,也可以提高竞赛的公平性; 作品评审模型采用问题二中改进后的方案三即引入改进的标准分模型和专家评审权重,可以在很大程度上减少专家之间评分的系统误差,因此完整的评审模型对降低出错率、提高评审速度、增强作品的安全性和竞赛的公正性这几个方面有一定程度上的作用。

8.2模型改进点

1、问题一中提出均匀一交叉多目标作品分配模型,未考虑到论文分配时间损耗的影响,可继续增加时间最小化目标函数,进行模型改进。

2、问题二中提出的基于离差的权重标准分全局优化的评审模型,虽在一定程度上优化了求解的准确性,但依旧不准确,后续还要进行不断优化。

3、问题三提出的极差一争议度的作品创新度评价模型,由于竞赛时间有限,只考虑了两个因素对创新度的影响,模型的准确性较低,后期将平均值、标准分纳入衡量因素中,进行模型的优化。

4、在理论和实践上仍处于积极探索和有待完善的阶段,尚有一些问题如应用于缺损评分系统仍存在较大误差等问题有待解决。

8.3模型的推广

1、问题一中提出的模型是典型的多目标优化问题,模型不仅适用于本题中创新性竞赛的论文分配中,还可以适用于最优物资分配、生产线任务分配问题中。所提的创新算法,自适应强,可以求解各种优化问题。

2、问题二中提出的模型是多个自变量因素对因变量的影响,适用于回归性分析类、多因素优化类问题。

3、问题三中提出的模型可推广适用于大规模创新型竞赛中极差大,争议度高的文章进行创新性评估问题。

4、问题四中提出的模型根据竞赛的具体要求和实际情况,对一些如标准分模型或专家权重计算等方面进行改进,具有较强的实用性,对其它主观性较强的评分竞赛亦有很强的适用性,但是仍然需要不断对其方法、手段和步骤在理论上进行不断摸索。

相关推荐
NAGNIP7 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab9 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab9 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP12 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年12 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼13 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS13 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区14 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈14 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang15 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx