从数据提取到管理:TextIn平台的全面解析与产品体验

一、引言

在现代信息时代,文档解析和管理已经成为企业和开发者不可或缺的工具。TextIn是合合信息旗下的一款智能文档处理平台,为开发者和企业提供高效、精准的文档解析工具,帮助用户轻松应对各种复杂的文档处理需求。本文将深入探讨TextIn的主要功能、产品亮点及其广泛的应用场景,带领大家全面体验这款文档处理"百宝箱"。


二、TextIn智能文档处理概述

TextIn平台覆盖文档解析的多个环节,支持批量处理多种文档类型,并适配多语言环境。其核心工具包括:

核心工具 描述
TextIn ParseX 提供复杂文档的可视化解析能力,适合多种格式的文档展示和编辑。
acge-embedding 向量化模型 提升长文本信息抽取的精度,适合大规模信息检索和内容审核。
markdown_tester 文档解析测评工具 帮助开发者定量评估解析效果,降低工具选择和调试成本。

三、可视化文档解析前端TextIn ParseX

TextIn ParseX是TextIn推出的一款通用文档解析工具,支持多种文档格式的高效解析和可视化展示。它不仅可以将PDF、JPG等格式的文档转换为Markdown格式,还可以解析表格、公式等复杂文档元素,确保阅读顺序的准确性,支持多语言识别,并且提供缩放、旋转、编辑等丰富的交互功能。

TextIn ParseX的技术特点包括:

  • 高效的解析速度:100页文档可在2秒内完成解析,适合需要快速处理大量文档的企业需求。
  • 精确的元素识别:支持表格、公式、图片等文档元素的精确识别与还原,特别适用于年报、业务报告等复杂文档的处理。
  • 灵活的可视化功能:用户可以通过目录树、预览图像、标注跳转等方式便捷地查看和编辑解析结果。

在线使用:【免费使用入口】

以下面的票据识别为例子,发票内容被准确识别,而且内容没有错误。

也可以使用通用文档解析,在获取结果后一键输出。

输出为markdown的结果如图:

同时,我们可以通过结合coze,调用textIn的api,使用coze完成图片信息提取,做成问答式的AI文本小助手,实际测试下来,流程比较简单,识别准确率也很高。


四、向量化acge-embedding模型

acge是一个通用的文本编码模型,是一个可变长度的向量化模型,使用了Matryoshka Representation Learning,专为提升长文档检索的精度和速度而设计。它通过将文本数据转换为数值向量,为搜索、聚类、推荐等任务提供坚实基础。acge-embedding模型通过高效的俄罗斯套娃表征学习(MRL)框架,支持多任务混合训练,帮助企业灵活地配置性能和资源,以应对不同应用场景的需求。

acge-embedding模型开源地址:https://huggingface.co/aspire/acge_text_embedding

技术架构上,acge_text_embedding采用了俄罗斯套娃表示学习(Matryoshka Representation Learning,MRL)编码不同粒度的信息,并让一个编码能够适应不同计算资源的下游任务。原理如下面GIF图所示:

acge-embedding的核心亮点:

  • 高精度和高效率:凭借创新的MRL框架,acge模型在文本分类和情感分析等任务中表现优异,支持灵活的嵌入维度,适应多种业务需求。
  • 支持多任务混合训练:模型通过对比学习技术,实现了数据的多场景混合训练,提升了泛化能力和检索效率。

五、文档解析测评工具markdown_tester

文档解析工具种类繁多,但缺乏统一的评估标准。TextIn开发的markdown_tester提供了定量评估机制,帮助用户客观地测评各类文档解析工具的性能。用户可以通过上传样本,查看段落、标题、表格等元素的识别效果,并通过直观的雷达图展示对比结果。

文档解析测评工具markdown _ tester开源地址:https://github.com/intsig-textin/markdown_tester

该测评脚本用于评价markdown文档相似性,从段落、标题、表格和公式四个维度进行评价:

指标 说明
段落识别率 段落匹配的个数(段落编辑距离小于0.2) / 预测出的总段落数
段落召回率 段落匹配的个数(段落编辑距离小于0.2)/ 总的段落数
段落f1 2 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率)
标题识别率 标题匹配的个数(标题编辑距离小于0.2) / 预测出的总标题数
标题召回率 标题匹配的个数(标题编辑距离小于0.2)/ 总的标题数
标题f1 2 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率)
标题树状编辑距离 所有标题树编辑距离分数之和(pred,包含文字)/ 总标题数量(gt)
表格文本全对率 文本全对的表格个数(pred)/ 总表格个数(gt)
表格树状编辑距离 所有表格树编辑距离分数之和(pred,包含文字)/ 总表格数量(gt)
表格结构树状编辑距离 所有表格树编辑距离分数之和(pred,不包含文字)/ 总表格数量(gt)
公式识别率 公式匹配的个数(公式编辑距离小于0.2) / 预测出的总公式数
公式召回率 公式匹配的个数(公式编辑距离小于0.2)/ 总的公式数
公式f1 2 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率)
阅读顺序指标 计算预测值和真值中,所有匹配段落的编辑距离

使用方法

运行install.sh,安装软件包:

bash 复制代码
./install.sh

待测评样本按照下述方式放置:

复制代码
dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

运行命令:

bash 复制代码
python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

其中:
path_to_pred_md:预测值文件所在文件夹。
path_to_gt_md:真值文件所在文件夹。

运行效果

结果表格:

结果雷达图:

markdown_tester工具的优势:

  • 全面性:涵盖了文档解析的多个重要维度,提供细致的评测指标。
  • 可视化结果:通过雷达图等形式直观展示各工具的解析效果,帮助用户快速筛选最合适的文档处理工具。

六、TextIn文档解析应用场景

TextIn平台的应用场景非常广泛,涵盖了从知识库构建到大规模语料处理等多个领域,助力企业实现更高效的信息管理和业务支持。

应用场景 描述
知识库构建 通过ParseX和acge模型配合,TextIn帮助开发者快速将企业内部文档自动解析,提升知识库构建的效率和准确性。
智能文档抽取 支持合同、招投标文件等结构化信息抽取需求,TextIn提供精准的数据解析与复用,适用于企业合同管理、财务报销等场景。
大模型预训练语料处理 TextIn能够批量、高效解析多种版式文档,支持大模型语料的精准提取,提升预训练数据的质量。
多语言文档翻译 TextIn支持多语言文档解析与翻译,帮助企业轻松实现跨语言业务扩展,同时保持原有文档格式。

七、总结

TextIn平台凭借其强大的文档解析和管理能力,为开发者和企业带来了显著的效率提升。TextIn ParseX、acge-embedding模型和markdown_tester工具的组合,构成了一个功能全面、灵活高效的文档处理"百宝箱"。TextIn在处理多种文档格式、语言环境、以及知识库建设和文档翻译等方面为用户提供了高效、便捷的解决方案。通过TextIn,企业能够轻松实现复杂文档解析和大规模信息管理,进而在业务支持和信息管理方面获得显著提升。

最后,小智诚挚地邀请大家一起体验TextIn产品为我们带来的便利之处!点击【免费体验】,即可在线使用,感受TextIn为我们带来的文档解析新体验!

相关推荐
XISHI_TIANLAN7 小时前
【多模态学习】Q&A3:FFN的作用?Embedding生成方法的BERT和Word2Vec?非线性引入的作用?
学习·bert·embedding
程序员鱼皮9 小时前
扒了下 Cursor 的提示词,被狠狠惊艳到了!
计算机·ai·程序员·大模型·互联网·编程
bylander11 小时前
【论文阅读】自我进化的AI智能体综述
人工智能·大模型·智能体
勇往直前plus18 小时前
Milvus快速入门以及用 Java 操作 Milvus
java·spring boot·embedding·milvus
居7然18 小时前
美团大模型“龙猫”登场,能否重塑本地生活新战局?
人工智能·大模型·生活·美团
千桐科技1 天前
qKnow 知识平台【开源版】发布 1.0.0 版本,全面落地知识管理与智能抽取能力
知识图谱·知识库·qknow·开源知识图谱·知识平台·java知识图谱·千知平台
Tadas-Gao2 天前
阿里云通义MoE全局均衡技术:突破专家负载失衡的革新之道
人工智能·架构·大模型·llm·云计算
bboyzqh2 天前
任务型Agent:prompt工程实践
大模型·prompt·上下文工程
love530love2 天前
【保姆级教程】阿里 Wan2.1-T2V-14B 模型本地部署全流程:从环境配置到视频生成(附避坑指南)
人工智能·windows·python·开源·大模型·github·音视频
nju_spy2 天前
Kaggle - LLM Science Exam 大模型做科学选择题
人工智能·机器学习·大模型·rag·南京大学·gpu分布计算·wikipedia 维基百科