2023华为杯研究生数学建模C题分析

完整的分析查看文末名片获取！

问题一 在每个评审阶段，作品通常都是随机分发的，每份作品需要多位评委独立评审。为了增加不同评审专家所给成绩之间的可比性，不同专家评审的作品集合之间应有一些交集。但有的交集大了，则必然有交集小了，则可比性变弱。请针对3000支参赛队和125位评审专家，每份作品由5位专家评审的情况，建立数学模型确定最优的"交叉分发"方案，并讨论该方案的有关指标（自己定义）和实施细节。

问题一主要是需要为3000支参赛队和125位评审专家建立一个最优的"交叉分发"方案。这里的关键是要保证每份作品由5位专家评审，并且不同专家评审的作品集合之间有一定的交集。这个问题可以看作是一个组合优化问题，我们可以使用图论模型，将其建模为图的顶点着色问题，并求解得到最优的"交叉分发"方案。

我们的变量为， 定义二进制变量xij ，当第i位专家评审第j份作品时为1，否则为0。

我们的 目标函数 是要 最大化所有专家之间作品交集的大小，即最大化

我们给定 约束条件 ， 每份作品恰好被5位专家评审；每位专家评审的作品数量应均匀分布，防止某位专家评审任务过重或过轻。

这是一个NP-hard问题，我们可以应用遗传算法、模拟退火算法等启发式算法进行求解。这些算法适用于搜索大规模组合优化问题的解空间，能够在合理时间内找到满意解。

问题二 在评审中采用标准分（附件1）为基础的排序方法，其假设是不同评审专家评审的作品集合的学术水平分布相同。但在大规模创新类竞赛评审中，通常任意两位专家评审的作品只有小部分是共同的，绝大多数作品是不同的（见问题一），而且每位专家只看到作品集合的很小部分，因此标准分评审方案的假设可能不成立，需要探索新的评审方案。请选择两种或两种以上现有或自己设计的评审方案和题目附件数据，分析每位专家、每份作品原始成绩、调整之后（如取标准分）成绩的分布特点，按不同方案进行排序，并设法比较这些方案的优劣。进而针对大规模创新类竞赛的评审，设计新的标准分（公式）计算模型。另外，一般认为经多位专家协商一致的获奖论文具有最大的可信度，附件2提供的数据1，其第二评审阶段评选出的一等奖作品排序是经专家协商取得一致的，请利用这批数据，改进你们的标准分计算模型。

问题二涉及到对不同的评审方案进行比较和分析，以及基于给定的数据设计新的标准分计算模型。我们可以对现有的几种评审方案进行分析，利用描述性统计学和假设检验等方法来比较这些方案的优劣。，如均值、中位数、标准差等，来分析每位专家、每份作品原始成绩和调整后成绩的分布特点。对不同方案下的成绩分布 我们做一些 可视化 的 展示， 来 更直观地了解不同方案之间的差异。

为了判断不同方案之间的差异是否显著，我们可以使用假设检验方法。通过ANOVA（方差分析）来比较多个方案下成绩的均值是否存在显著差异。使用卡方检验或Fisher精确检验来比较不同方案下成绩的分布差异。

然后 基于这些分析结果，设计新的标准分计算模型， 这个问题 可以考虑使用回归分析，除了使用回归分析，我们还可以构建一个优化模型来求解最优的标准分计算方法。这个模型的目标函数可以是最小化所有作品标准分的方差，以减少不同方案之间的差异。约束条件可以包括保持评分的公平性、保持一定的差异性。

问题三 "创新类"大赛的特点是"创新性"，即没有标准答案。由于这类竞赛的问题难度较大，一般需要通过创新才能在竞赛期间部分解决。而作品的创新到了什么程度，后续研究的前景如何，很难有一致看法，即使专家面对面的交流，都可能由于各持己见而无法统一。加上研究生的论文表达不到位，评审专家的视角不同，同一份作品的几位专家给出的成绩会有较大的差异（极差）。极差大是大规模创新类竞赛的特点，极差比较大的作品一般处于高分段或低分段。低分段属于淘汰范围，低分段极差大的原因是有专家对违规作品或有重大失误的作品给了很低的分数，或评审专家都认同该作品质量不高，只是其中某位（些）专家更不认同该作品。故这里极差虽大，但属于不获奖范畴，一般不需要调整极差。而高分段作品还要参加权威性较高的第二阶段评审（附件数据表格同一行代表同一个作品在两个阶段的成绩，没有第二阶段评审成绩的作品只参加了第一阶段的评审）。第二阶段评审仍然存在部分极差大的作品，因为是终审，误差可能影响获奖等级，因此对部分极差大的作品，需要复议调整极差（附件的数据中有记录，复议分就是该专家最后给的标准分，用来替换原来的标准分）。第二阶段（注意两个阶段每份作品评审专家人数不同）专家调整"大极差"的规律可以作为建立极差模型的借鉴。

请根据题目所给的模拟数据2.1和2.2，讨论两阶段的成绩整体的变化和两阶段极差整体的变化，分析两阶段评审方案相比不分阶段评审方案的优劣。注意到极差大和创新性强两大特点之间会有一定的关系，为了发掘创新论文，请建立"极差"模型（含分析、分类、调整等），并针对所给数据，尝试给出第一评审阶段程序化（不需要人工干预）处理非高且非低分段作品的 "大极差"的办法。

问题三 我们要 聚焦于两阶段评审方案与不分阶段评审方案的比较，以及"极差"模型的建立。需要 去 分析两阶段的成绩变化、极差变化，并探讨如何处理"大极差"。

比较两阶段评审方案和不分阶段评审方案 ， 可以通过方差分析（ANOVA）来比较两阶段评审方案和不分阶段评审方案的成绩差异 ， 检验不同方案下成绩的均值是否有显著差异，以及这些差异是否可以归因于使用的评审方案

然后去 计算 它们的 均值、标准差、四分位数差等描述性统计量，可以更详细地了解两种方案在成绩分布上的差异。 以及通过 可视化工具如箱线图、直方图等可以 去展现这些差异。

建立极差模型的话，用分类和聚类都可以，先是分类模型，我们来 来预测作品的极差大小。通过输入作品的各种特征（如各位专家的初步评分、作品类型等），分类模型可以预测该作品的极差是否会超过某个阈值。 算法的话，可以用 决策树、随机森林、支持向量机等。 最后 通过交叉验证来选择最佳的模型和参数。

聚类分析的话， 我们可以将具有相似极差特性的作品分为同一类。 可以让 我们了解哪些作品更容易产生大的极差，聚类算法 可以用 K-means聚类 或者 层次聚类。

问题四 对"创新类"竞赛，给出一个完整的评审模型（提示：例如优化模型），并针对所给的数据研究如何求解？也可对现行的评审方案给出改进的具体建议（包括未来还要收集哪些数据）。

更多的思路代码↓↓