【第十二届“泰迪杯”数据挖掘挑战赛】【2024泰迪杯】B题基于多模态特征融合的图像文本检索—解题全流程(持续更新)

2024 年(第 12 届)"泰迪杯"数据挖掘挑战赛B题 解题全流程(持续更新)

-----基于多模态特征融合的图像文本检索

一、写在前面:

  1. 本题的全部资料打包为"全家桶", "全家桶"包含:模型数据、全套代码、训练好的模型权重、结果csv、教程、详细实验过程PPT、教学视频、成品论文(还在写作中,后续跟新至文件中)(赠品)基于正式数据的毕设级项目多模态图文互检系统
  2. 达到"以赛促学"的目的,从0到1,从环境配置开始,到模型构建、数据准备、模型训练、模型recall_TOP1、5、10召回验证、文到图预测、图到文预测、预测结果后处理为result.csv。全流程教学,良心制作
  3. 本题基于Chinese Clip 多模态图文互检模型进行微调模型、知识蒸馏,根据赛题示例数据进行模型训练。
  4. 对比A题B题C题,B题C题偏难,相对选择人少,容易获奖,并且论文非常好写出创新和模型对比优化等核心部分。

二、结果展示:

2.1 任务一 构建图文互检多模态大模型以及评价指标展示:


本题模型的验证集就是附件一的全部数据(1k个对图文,分别构成了训练集和验证集),在验证集上的召回验证结果:

2.2 任务二文到图检索结果展示:

展示问题二 利用附件 2 中"word_test.csv"文件的文本信息, 对附件 2 的 ImageData 文件夹的图像进行图像检索,并罗列检索相似度较高的前五张图像,(预测结果的样例展示:)

result2.csv:

任务三 图到文检索结果展示:


result2.csv:

三、解题流程:

3.1 【样例数据】附件一 1k个图文对 数据分析与预处理

1、查看文本数据,句子长度,根据句子长度与句子的特征进行文本处理:

针对短文本 ,可以不用做处理,一般表示的就是这张图片的主体意思,针对长文本 ,需要使用句子特征 (如【】,()、《》)进行提取,再根据命名实体识别、句子"主题式概括"进行罗列该图片的主体意思

再对图id与文本id进行重新id编码

处理结果如下所示:

2、进行模型构建训练的数据,本着样例数据少,1k个图文对,就不划分训练集和验证集数据了,直接训练集是1k个图文对,验证集也是1k个图文对,分别处理为对应的clip模型数据,jsonl,tsv格式:

其中tsv数据格式 : 不是将图片以大量的小文件方式存放,而是将训练/验证/测试图片以base64形式分别存放在${split}_imgs.tsv文件中。文件每行表示一张图片,包含图片id(int型)与图片base64,以tab隔开,

最后经过序列化代码,对模型数据进行序列化,转换为模型训练的输如数据。进行模型训练

3.2 模型训练

1、根据序列化的训练数据,选择模型合适的预训练权重,进行模型训练,(主要的坑在于该Chinese Clip模型的库文件配置不详、环境配置不详,并且训练的方式只能是分布式,就是一个机子没有分布式,都得填入伪分布式配置,就会导致训练失败),模型的训练环境要求、以及所需库文件版本,在教学视频和教程中有详细描述 ,并且整理为clipenv_requirements.txt。

3.3 任务二的结果预测:

1、针对任务二的"文到图检索" ,首先需要对附件二的图数据、文本数据(依旧需要处理,如上3.1的文本数据处理。针对长短文本的处理),进行制作为tsv、jsonl格式

2、送入模型,进行特征提取,输出每个图片的特征矩阵、每个文本的特征矩阵数据

3、根据特征数据,进行预测,对每个文本id进行预测近似的5个图片id

4、根据预测结果,将文本id与图片id,根据前期处理的对照表,进行名称配对,使用pands进行表格处理,得到result1.csv

3.4 任务三的结果预测:

1、针对任务二的"图到文检索",如任务二流程一样,数据准备

2、模型特征提取

3、根据特征数据,进行预测,对每个图片id进行预测近似的5个文本id

4、配对、result2.csv

四、全家桶内容展示

正式数据出来后也会更新全家桶的内容。

五、tips

获取全家桶:

复制代码
"https://afdian.net/item/8cc7f3dae8d111eeb7b05254001e7c00"

历时5天晚上抽空制作,精心打磨,保证物有所值,

后续(时间不定,可能比赛结束后,用时一周时间,全家桶赠品,后续跟新)会基于这个写一个可以做毕设或者课题申请、大创等展示作品,基于streamlit开发展示界面,效果类似于如下:(你完全可以收集一些专业领域的图文对、例如旅游、科研器材等,进行模型训练,然后填入该训练的模型权重,基于你的训练数据,进行图文互检的功能,这不又省了一个毕设了吗2333,创新点就可以是模型迁移、模型知识蒸馏等对比实验提高了一点评价指标。)

相关推荐
卷Java15 小时前
Python面向对象:class类与对象,3个案例讲透封装与继承
开发语言·python
硅谷秋水15 小时前
世界链:潜运动中的世界模型思维
深度学习·计算机视觉·语言模型·机器人
Cosolar15 小时前
AgentScope-Java ReActAgent 代码实现讲解
人工智能·后端·面试
旺仔Sec15 小时前
2026江苏省职业院校技能大赛新一代信息技术赛道大数据应用开发项目样题
大数据·数据挖掘
风吹心凉15 小时前
AI Agent、MCP、Prompt、Function Calling
人工智能·prompt
银月光科技15 小时前
细分市场带动下 UV LED行业发展潜力巨大
人工智能·物联网·uv
晓131315 小时前
【Python篇】——Anaconda安装与使用完全手册
python·conda
龙侠九重天15 小时前
使用 OpenClaw 自动化日常任务的 10 种实用方法
人工智能·ai编程·openclaw
码界筑梦坊15 小时前
354-基于Python的全国水稻数据可视化分析系统
开发语言·python·信息可视化·数据分析·flask·bootstrap·毕业设计
码界筑梦坊15 小时前
336-基于Python的肺癌数据可视化分析预测系统
开发语言·python·信息可视化·数据分析·django·vue·毕业设计