文档智能

【VLM】Format Decoupled Reinforcement Learning for Document OCR【文档智能进展】讲的故事是格式化文本（公式、表格等）比纯文本熵值高一个数量级，导致模型输出不确定性大、解析准确率低，所以搞了个应对思路。工作在：Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR，https://arxiv.org/pdf/2601.08834，

使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案，P2P和Paper2Poster，传统方案如类似ppt生成等思路，基本上采用固定的模版，提取相关的关键元素进行模版填充，因此，海报生成的质量完全依赖于规则模版的丰富程度。下面来看一下这两个团队使用Agent进行海报生成的技术思路，覆盖多种技术链路，如：文档智能解析、LLM、布局生成、Agent等。比如有趣，下面来看看这两个技术方案，供参考。

【文档智能】开源的阅读顺序（Layoutreader）模型使用指南一年前，笔者基于开源了一个阅读顺序模型（《【文档智能】符合人类阅读顺序的文档模型-LayoutReader及非官方权重开源》），

写代码的中青年

DIfy中集成magic-pdf实现文档解析agent与多模态大模型图文问答大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步，扬帆起航。

【文档智能】LACE：帮你自动生成文档布局的方法浅尝往期很多文章都介绍了【文档智能】上布局识别（版式分析）的技术思路，版式分析是通过对文档版式进行布局识别，识别文档中的元素类型的过程。这次来看看一个有趣的思路，通过已有的元素类型，来生成可控的文档的布局。

【文档智能 & RAG】RAG增强之路-智能文档解析关键技术难点及PDF解析工具PDFlux在私域知识问答和企业知识工程领域，结合Retrieval-Augmented Generation（RAG）模型和大型语言模型（LLM）已成为主流方法。然而，企业中存在着大量的PDF文件，PDF解析的低准确性显著影响了基于专业知识的问答效果，因此，这些文件的有效解析对RAG模型的构建至关重要。上篇文章（【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路）主要讨论了开源的PDF解析技术，而本文将先探讨下RAG落地时常见的问题及文档解析在RAG的重要性、智能文档解析关键技术，然后

【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路现阶段，尽管大模型在生成式问答上取得了很大的成功，但由于大部分的数据都是私有数据，大模型的训练及微调成本非常高，RAG的方式逐渐成为落地应用的一种重要的选择方式。然而，如何准确的对文档进行划分chunks，成为一种挑战，在现实中，大部分的专业文档都是以 PDF 格式存储，低精度的 PDF 解析会显著影响专业知识问答的效果。因此，本文将介绍针对pdf，介绍一些pdf结构化技术链路供参考。

【文档智能】符合人类阅读顺序的文档模型-LayoutReader原理及权重开源阅读顺序检测旨在捕获人类读者能够自然理解的单词序列。现有的OCR引擎通常按照从上到下、从左到右的方式排列识别到的文本行，但这并不适用于某些文档类型，如多栏模板、表格等。LayoutReader模型使用seq2seq模型捕获文本和布局信息，用于阅读顺序预测，在实验中表现出色，并显著提高了开源和商业OCR引擎在文本行排序方面的表现。

【文档智能】多模态预训练模型及相关数据集汇总大模型时代，在现实场景中或者企业私域数据中，大多数数据都以文档的形式存在，如何更好的解析获取文档数据显得尤为重要。文档智能也从以前的目标检测（版面分析）阶段转向多模态预训练阶段，本文将介绍目前一些前沿的多模态预训练模型及相关数据集。

我是有底线的