Datawhale+AI夏令营_让AI读懂财报PDF task2深入赛题笔记

dxnb222025-08-10 9:21

1.深入理解baseline方案
1.1 赛题任务
项目背景

本次赛题的核心目标是打造一个能看懂图片、读懂文字、并将两者关联起来思考的AI助手，构建一个先进的智能问答系统，以应对真实世界中复杂的、图文混排的信息环境。

(1)让AI模型能够阅读并理解包含大量图标、图像和文字的pdf文档，基于信息回答用户问题。

(2)能找到答案的同时还需要标注出答案的出处，比如源自于哪一个文件的哪一页。

1.2 相关知识点及参考资料

多模态RAG任务有四大核心要素

此次赛题的核心不仅仅是简单的问答，而是基于给定的pdf知识库的、可溯源的多模态问答。

它定义了我们系统的四个基本支柱，也是我们构建解决方案时必须时刻牢记的四个约束：

数据源：一堆图文混排的PDF，这是我们唯一的数据。

可溯源：必须明确指出答案的出处。

多模态：问题可能需要理解文本，也可能需要理解图表（图像）。

问答：根据检索的信息生成一个回答。

1.3 相关知识点及参考资料

领先的中文文本向量化模型库FlagEmbedding (BGE模型):https://github.com/FlagOpen/FlagEmbedding

经典图文多模态向量化模型CLIP (Hugging Face实现):https://huggingface.co/docs/transformers/model_doc/clip

简单易用的向量数据库ChromaDB快速上手:https://docs.trychroma.com/getting-started

通义千问Qwen大模型官方仓库 (含多模态VL模型):https://github.com/QwenLM/Qwen-VL

Xinference官方仓库（模型推理框架）:

2.任务要求的重点和难点

未完待续...