3月上旬,法国一家AI独角兽公司进军OCR(光学字符识别)领域,发布了一个号称"全世界最好的OCR"产品,根据其技术团队的说明,这款OCR产品具备优秀的准确度和认知能力,能够理解文档的每个元素(包括文本、表格、公式等),从图像和PDF中提取内容信息。与当前市场或学术界其他文档解析工具一样,这款产品(下文中简称为"A产品")旨在对AI难以直接识别的复杂文档进行解析处理,提升类似RAG等文档场景下的AI应用性能。
产品文档中介绍了它的几项优势:
-
对复杂文档实现SOTA理解:擅长理解复杂的文档元素,包括交错图像、数学表达式、表格和LaTeX格式等高级布局。该模型可以更深入地理解丰富的文件,如带有图表、图形、公式和数字的科学论文。
-
基准测试成绩第一:在严格的基准测试中始终优于其他领先的 OCR 模型,其在文档分析的多个方面都表现出色。
-
支持原生多语言:能够解析、理解和转录各大洲的数千种脚本、字体和语言,便于服务来自不同语言背景的全球组织以及小众市场的超本地化企业。
A产品发布后,全球众多开发团队进行了试用并发布他们的评价。在多元化的使用场景下,A产品获得的评价也各有不同。如下图中的推文表示,在中文样本测试中,A产品的表现没有显著优势。也有AI团队认为,A产品超越了一些前沿LLM的OCR性能,但尚未完全为企业使用做好准备。
在实际生产环境中,A产品表现是否出色?它的中文文件处理性能与国内产品相较如何?
面对这些问题,TextIn测试团队进行了一次针对性测试,基于丰富的真实样本,全方面评测OCR产品能力。
测评指标
测评指标中分了6个维度,针对标题、段落、文本、阅读顺序、公式、表格进行定量测评。
指标
说明
标题F1
2 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率)
其中:
标题识别率=标题匹配的个数(标题编辑距离小于0.2) / 预测出的总标题数
标题召回率=标题匹配的个数(标题编辑距离小于0.2)/ 总的标题数
段落F1
2 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率)
文本编辑距离
1-文本编辑距离(med)
版面阅读顺序
计算预测值和真值中,所有匹配段落的编辑距离
公式F1
2 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率)
表格文本识别率
文本全对的表格个数(pred)/ 总表格个数(gt)
表格结构TEDS
所有表格树编辑距离分数之和(pred,不包含文字)/ 总表格数量(gt)
表格综合TEDS
所有表格树编辑距离分数之和(pred,包含文字)/ 总表格数量(gt)
测试数据集
本次测试基于实际生产环境中的多类型文件样本,包含PDF扫描文件、图像与电子文件,包含印刷、手写字体,语言以英语、中文为主,文件种类涵盖学术、商业、教育等场景,具体种类及数量如下图所示。
测试文件种类
样本数量
测试文件种类
样本数量
学术论文
20
企业招股招股书
20
金融年报
20
金融研报
20
招投标文件
20
英语手写文件
11
合同文件
20
K12试卷
14
电子书
20
国家标准文件
20
教育题库
20
中文专利文件
20
ESG报告
20
简历
20
少线表格
20
传统表格
20
银行承兑汇票
20
增值税发票
20
测试结论
测试团队对A产品与TextIn文档解析工具开展对比测试,各项指标测试结果如下图所示。
整体而言,TextIn文档解析在各项指标上表现良好,其中表格解析能力较为突出,公式识别相对一般;A产品在英文论文、英文PDF扫描文档等文件类型上识别效果较好,中文以及手写性能一般,整体技术能力在中文环境及商业文件复杂样本下存在薄弱项。
其中:
-
表格识别存在缺陷,不支持合并单元格,对无线表无法正确识别;
-
文本如果带旋转角度,识别错误比较严重,会出现明显幻觉;
-
卡证票据、复杂背景、复杂版式(例如多栏文本)、手写等实际业务中常见场景下的文档识别效果一般。
具体案例
英语科学论文
原文件
A产品识别结果可视化
TextIn识别结果可视化
如图中识别结果可见,对于英语科学论文样本,A产品和TextIn都可以正确识别标题与文本,其中A产品能完全准确解析复杂数学表达式,而TextIn解析的公式存在细微误差。
中文表单
原文件
A产品识别结果可视化
TextIn识别结果可视化
对于中文少线表单,TextIn能够正确解析,A产品则无法识别表格结构。
英语表格
原文件
A产品识别结果可视化
TextIn识别结果可视化
对于英语复杂表格,A产品出现乱码、合并单元格错误等问题,TextIn正确识别特殊符号与合并单元格,但两者都没有准确识别表格中的旋转字体。
中文手写样本
原文件
A产品识别结果可视化
TextIn识别结果可视化
对于试卷样本,A产品和TextIn都能正确解析试卷中的印刷体,但无法保证较为模糊的手写字体完全正确,其中,TextIn能够识别部分手写字体,A产品则缺少手写解析结果。
通过实测对比,我们可以更清晰地评估国内外前沿文档解析产品的技术优劣势,便于用户完成技术选型。
👇欢迎后台私信小助手,免费开通在线测试。
⭐欢迎来交流群领取更多福利与大模型应用技术学习材料,与我们共同探讨技术发展与AI应用的可能性。