Datawhale+AI夏令营_让AI读懂财报PDF task2深入赛题笔记

1.深入理解baseline方案
1.1 赛题任务

项目背景

本次赛题的核心目标是打造一个能看懂图片、读懂文字、并将两者关联起来思考的AI助手,构建一个先进的智能问答系统,以应对真实世界中复杂的、图文混排的信息环境。

(1)让AI模型能够阅读并理解包含大量图标、图像和文字的pdf文档,基于信息回答用户问题。

(2)能找到答案的同时还需要标注出答案的出处,比如源自于哪一个文件的哪一页。

1.2 相关知识点及参考资料

多模态RAG任务有四大核心要素

此次赛题的核心不仅仅是简单的问答,而是基于给定的pdf知识库的、可溯源的多模态问答。

它定义了我们系统的四个基本支柱,也是我们构建解决方案时必须时刻牢记的四个约束:

数据源:一堆图文混排的PDF,这是我们唯一的数据。

可溯源:必须明确指出答案的出处。

多模态:问题可能需要理解文本,也可能需要理解图表(图像)。

问答:根据检索的信息生成一个回答。

1.3 相关知识点及参考资料

PDF文档解析库PyMuPDF官方教程:https://pymupdf.readthedocs.io/en/latest/

强大的中文OCR工具PaddleOCR:https://github.com/PaddlePaddle/PaddleOCR

领先的中文文本向量化模型库FlagEmbedding (BGE模型):https://github.com/FlagOpen/FlagEmbedding

经典图文多模态向量化模型CLIP (Hugging Face实现):https://huggingface.co/docs/transformers/model_doc/clip

高性能向量检索引擎FAISS入门指南:https://github.com/facebookresearch/faiss/wiki/Getting-started

简单易用的向量数据库ChromaDB快速上手:https://docs.trychroma.com/getting-started

通义千问Qwen大模型官方仓库 (含多模态VL模型):https://github.com/QwenLM/Qwen-VL

集成化RAG开发框架LlamaIndex五分钟入门:https://docs.llamaindex.ai/en/stable/getting_started/starter_example.html

Xinference官方仓库(模型推理框架):

https://github.com/xorbitsai/inference

2.任务要求的重点和难点

未完待续...

相关推荐
努力写A题的小菜鸡3 小时前
PyTorch 图像预处理 transforms 与 TensorBoard 可视化 (自己学习记录)
人工智能·pytorch·学习
测试仪器廖生135902563853 小时前
罗德与施瓦茨 FSP13频谱分析仪FSP30
网络·人工智能·算法
未来和明天3 小时前
领嵌iLeadE-588边缘计算盒子16路AI视频分析、4路AHD、4路千兆网接口
人工智能·边缘计算
上海锝秉工控3 小时前
省线型增量编码器:用“减法思维“重构工业控制的未来
网络·人工智能·重构
蓝星空20003 小时前
怎么使用 Image 2 高效生成商业级 AI 图像(GPT-Image-2 全流程实操教程)
人工智能·gpt·ai作画
沉下去,苦磨练!3 小时前
张量的形状操作以及拼接
人工智能
小黄人软件3 小时前
Claude和Codex下载离线包 安装遇到问题:windows无法访问指定设备 路径 文件 应用无法打开也无法卸载,解决了
人工智能·microsoft·openai·codex
落叶无情3 小时前
分析:不上传文档给AI上下文窗口,仅让Ai上网搜索icef认知框架的详情,可以获得比较完整的信息,并可直接进行基本推理的具体机制
人工智能
Hector_zh3 小时前
逐浪 · 第十一篇: Vibe Coding 下的效率定义与规范建设
人工智能·vibecoding
147API3 小时前
Claude进入受监管系统前,接入层应该先怎么设计
人工智能