技术栈
阅读顺序
余俊晖
7 个月前
深度学习
·
多模态
·
文档智能
·
阅读顺序
【文档智能】符合人类阅读顺序的文档模型-LayoutReader原理及权重开源
阅读顺序检测旨在捕获人类读者能够自然理解的单词序列。现有的OCR引擎通常按照从上到下、从左到右的方式排列识别到的文本行,但这并不适用于某些文档类型,如多栏模板、表格等。LayoutReader模型使用seq2seq模型捕获文本和布局信息,用于阅读顺序预测,在实验中表现出色,并显著提高了开源和商业OCR引擎在文本行排序方面的表现。