【第十三届"泰迪杯"数据挖掘挑战赛】【2025泰迪杯】A题解题全流程-思路(持续更新)
写在前面:
1、A题、C题将会持续更新,陆续更新发布文章
2、赛题交流咨询Q群:1037590285
3、全家桶依旧包含:
- 代码、
- 数据集、
- 模型、
- 论文、
- 教学视频、
- 服务器镜像分享(无需搭建环境和下载模型)、
- 售后服务
- 赠品成品系统(基于大模型pdf提取系统)可用做毕设
一、解题思路
实现技术 : RapidLayout+Qwen2.5VL-7B+OCR+clip+Qwen2.5-7B-chat
总体思路概述:
- 问题一:版面分析对pdf每一页进行布局分析,结合ocr、多模态大模型进行内容信息提取,处理细节解决问题。保存正文内容、图片、公式入库储存用于后续任务。
- 问题二:本地构建部署Qwen2.5-7B-chat进行调用,对保存的正文内容与赛题要求进行大模型分析,微调模型输出参数,降低模型幻觉,增加消息队列防止同一问题,输出回答错乱。
- 问题三:根据问题一入库保存的图片、公式,进行clip构建图像侧特征矩阵,根据特征相似度进行重复率判断。以及pdf属性为文本的论文文本内容,进行构建文本侧特征矩阵。进行相似度匹配查重。
- 问题四:对于图片占比过高的论文pdf,结合版面分析+ocr,对pdf全提取,提取全文本,对文本特征进行相似度匹配,作为权重1;再将所以pdf页面作为图片,构建图像侧特征矩阵,做相似度匹配,作为权重2。最终根据权重综合得出该类论文的重复率。
二、版面分析结果:
输出数据结构
json
样例:
{
"参赛队号": "T001",
"论文标题": "基于深度学习的文档分析研究",
"总页数": 12,
"总字数": 8500,
"摘要": {"页数": 1, "字数": 300},
"正文": {
"页数": 8,
"字数": 6500,
"图片数": 6,
"图片比例": 0.15,
"表格数": 3,
"公式数": 12
},
"段落统计": {
"数量": 45,
"平均句子": 3.2,
"平均字数": 144
},
"参考文献": {"数量": 28},
"附录": {"页数": 2, "代码行数": 150}
}

三、大模型本地实现处理分析:


主要分享思路,后续做完整体再继续更新全部
"占个坑位。hh"