2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛—— C 题：竞赛论文的辅助自动评阅完整思路与源代码分享

一、问题背景
近年来我国各领域各层次学科竞赛百花齐放，层出不穷，学生参与度也越来越高。随着参赛队伍的增加，评阅论文的工作量急剧增加，这对评阅论文的人力要求也越来越大。因此引入机器辅助评阅成为竞赛主办方的现实需求。在学术界，建立基于 AI 的学术论文自动评审模型已得到了许多研究者的关注。论文的自动评阅涉及多种传统的自然语言处理技术如文本分类、信息抽取、论辩挖掘等。近年来，随着深度学习和自然语言处理技术的不断发展，特别是以 GPT 为代表的大语言模型的出现，进一步促进了论文自动评阅技术的发展，使得利用 AI 进行文本的自动评阅变得越来越可行，逐步从实验室走向学校和更多组织机构，成为当前的技术热点。但是在特定领域实现论文自动评阅仍然存在很多挑战，需要利用预训练的大语言模型适配具体的应用场景来解决问题。

二、解决问题

1、构造论文质量特征

每个指标的分数范围为 0-10 分。

（1）论文的完整性评价

对照赛题，比对竞赛论文中相关问题的章节或段落，对论文的完整性进行评价。评估竞赛论文是否能完整解答赛题，并给出评价论文完整性的技术手段和评分标准。

（2）论文有无实质性工作

对照赛题评阅要点，查找竞赛论文中相关问题的章节或段落，考察论文是否就赛题问题做出了相关的研究。需给出相关的技术方法和评价标准。

（3）摘要质量

摘要与内容的一致性评价。评价摘要是否如实反映正文的中心思想，即衡量内容摘要与正文的相关性、一致性。需给出摘要质量评价指标及其依据。

（4）写作水平评价

评价文字流畅性、写作规范（图、表、摘要）性和论文逻辑性。在传统论文评分（essay scoring）技术基础上，从文本通顺、立意分析、篇章结构、论证挖掘等维度进行探索，挖掘文本蕴含的论点论据、论证关系、结构信息，结合论证挖掘角度评估论文一致性、逻辑性，综合给出论文写作水平的评分。（完整附件见文末！）

数据预处理：首先，我们需要从PDF文件中提取出每篇论文的文本内容。
建立问题模板：针对每个要评估的指标（完整性、实质性工作、摘要质量、写作水平），我们需要设计适当的问题模板，确保向ChatGPT提出的问题能够得到有意义的回答。问题模板应该具有明确的语义，以便ChatGPT理解并给出相关的回复。
调用ChatGPT接口：利用建立的问题模板，我们向ChatGPT接口发送请求，将论文内容作为输入，并期待ChatGPT生成针对每个问题的回答。我们可以设置合适的参数来确保生成的回答质量和相关性。
解析回答结果：得到ChatGPT生成的回答后，我们需要解析这些结果，并将其转化为数值化的评分。这可能涉及到自然语言处理技术，例如情感分析、语义理解等，以确保对回答的准确解读。
综合评估：在对每个指标进行评估后，我们需要将各个指标的评分综合起来，得到每篇论文的综合评分。这一步可以根据不同指标的重要性进行加权处理，以确保综合评分更加准确地反映论文的整体质量。

结果：

2、竞赛论文辅助评分

根据上面构造的各项评分指标建立论文的整体评分模型，根据提供的论文集，按照十分制给出每篇论文的综合评分，将结果保存到 result.xlsx 文件中。综合评分结果要求满足如下限制条件：8-10 分的不超过 3%；6-7 分的不少于 10%，6-10 分不超过 15%；4-5 分不少于 20%，4-10 分不超过 35%；其他的为 0-3 分。一般而言，在综合评分中论文的完整性和写作水平的分数占比之和不超过 40%。（完整附件见文末！）

1.计算每篇论文的综合评分：

对每篇论文进行完整性、实质性工作、摘要质量和写作水平等方面的评分，可以利用之前构造的评分函数来完成。

根据评分指标的重要性，可以为每个评分指标设置合适的权重，然后对各项评分进行加权求和，得到每篇论文的综合评分。

2.根据评分要求进行限制：

根据给定的评分要求，确定各个评分区间的数量限制，例如8-10分的不超过3%，6-7分的不少于10%，以及4-5分的不少于20%等。

遍历每篇论文的综合评分，根据评分要求对评分进行调整，确保满足数量限制。

3.检查评分结果：

检查所得的评分结果，确保满足了给定的评分要求，并且符合预期的逻辑。