Datawhale+AI夏令营_让AI读懂财报PDF task2深入赛题笔记

1.深入理解baseline方案
1.1 赛题任务

项目背景

本次赛题的核心目标是打造一个能看懂图片、读懂文字、并将两者关联起来思考的AI助手,构建一个先进的智能问答系统,以应对真实世界中复杂的、图文混排的信息环境。

(1)让AI模型能够阅读并理解包含大量图标、图像和文字的pdf文档,基于信息回答用户问题。

(2)能找到答案的同时还需要标注出答案的出处,比如源自于哪一个文件的哪一页。

1.2 相关知识点及参考资料

多模态RAG任务有四大核心要素

此次赛题的核心不仅仅是简单的问答,而是基于给定的pdf知识库的、可溯源的多模态问答。

它定义了我们系统的四个基本支柱,也是我们构建解决方案时必须时刻牢记的四个约束:

数据源:一堆图文混排的PDF,这是我们唯一的数据。

可溯源:必须明确指出答案的出处。

多模态:问题可能需要理解文本,也可能需要理解图表(图像)。

问答:根据检索的信息生成一个回答。

1.3 相关知识点及参考资料

PDF文档解析库PyMuPDF官方教程:https://pymupdf.readthedocs.io/en/latest/

强大的中文OCR工具PaddleOCR:https://github.com/PaddlePaddle/PaddleOCR

领先的中文文本向量化模型库FlagEmbedding (BGE模型):https://github.com/FlagOpen/FlagEmbedding

经典图文多模态向量化模型CLIP (Hugging Face实现):https://huggingface.co/docs/transformers/model_doc/clip

高性能向量检索引擎FAISS入门指南:https://github.com/facebookresearch/faiss/wiki/Getting-started

简单易用的向量数据库ChromaDB快速上手:https://docs.trychroma.com/getting-started

通义千问Qwen大模型官方仓库 (含多模态VL模型):https://github.com/QwenLM/Qwen-VL

集成化RAG开发框架LlamaIndex五分钟入门:https://docs.llamaindex.ai/en/stable/getting_started/starter_example.html

Xinference官方仓库(模型推理框架):

https://github.com/xorbitsai/inference

2.任务要求的重点和难点

未完待续...

相关推荐
Mintopia13 分钟前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮1 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬1 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia1 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区2 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两4 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪5 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232555 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源
王鑫星5 小时前
SWE-bench 首次突破 80%:Claude Opus 4.5 发布,Anthropic 的野心不止于写代码
人工智能