谷歌云发布 Document AI Workbench 最新功能:自定义文档拆分器实现复杂文档处理自动化

目录

[1. 自定义文档拆分器(CDS)带来的商业价值](#1. 自定义文档拆分器(CDS)带来的商业价值)

流程简化与验证

降低运营成本

[2. Document AI Workbench 模型的优势与使用流程](#2. Document AI Workbench 模型的优势与使用流程)

如何使用自定义文档拆分器

导入并准备训练数据

准确评估模型

投入生产


这种多文档合一的复杂性使得企业难以进行大规模管理。Google Cloud 致力于通过持续投资 Document AI 解决方案套件来解决这些挑战,该套件提供了一系列用于文档处理和见解的机器学习产品。Document AI Workbench 可帮助用户快速构建具有世界一流精度并针对其特定用例训练的 ML 模型。

此前的创新包括:

2023 年 2 月:推出了自定义文档提取器(CDE)的通用版(GA),帮助用户从文档中提取结构化数据。

2023 年 3 月:在 GA 中推出了自定义文档分类器(CDC),帮助自动分类文档类型。

1. 自定义文档拆分器(CDS)带来的商业价值

CDS 的推出解决了文档处理中最棘手的"文件合并"问题,为企业带来了巨大的效率提升:

流程简化与验证

CDS 帮助客户对文档进行排序和分类,使其能够验证是否拥有申请人提供的所有所需文件。

下游流程自动化:单独分类的文档使企业能够更好地自动化下游流程,如选择适当的存储、分析或处理步骤。

降低运营成本

来自客户的反馈印证了 CDS 的价值。Zencore 客户通过使用 CDS,每年消除了数千个错误,大幅降低了合规报告程序的运营成本。德勤的客户德国商业银行利用 CDS 轻松细分客户提交的内容,极大地减少了额外的手动排序或路由工作。

Frank Neugebauer,Google Cloud 保险解决方案顾问,与一家财富 100 强保险公司合作,使用 CDS 创建的模型对数百万份保险文件进行拆分和分类,准确率高达 98%。

2. Document AI Workbench 模型的优势与使用流程

Document AI Workbench 通过简化模型训练过程,帮助企业节省时间和金钱。

如何使用自定义文档拆分器

用户可以利用 Google Cloud Console 中的简单界面和一组公共 API 来准备训练数据、创建和评估模型、将模型部署到生产中,并调用 API 端点来拆分和分类文档类型。

导入并准备训练数据

快速构建数据集:用户可以通过导入单个文档(每个文件一个文档)并使用相关文档类型进行批量标记来快速构建训练数据集。用户可以一次导入一个或多个文件夹,并在导入时立即为每个文件夹选择正确的文档类型。

数据规模:用户最多可输入 30,000 份文档和 100,000 页进行培训,能够在几分钟内构建一个包含数百个标记文档的训练数据集。

准确评估模型

要准确评估 CDS 模型,需导入同一文件中包含多种文档类型的文件,并将其分配给测试数据集。

使用简单的接口定义文档边界和类型,这些基本事实用于评估 CDS 模型的分割和分类预测。

投入生产

一旦模型满足准确性目标,即可部署到生产中,并通过 API 端点调用模型来拆分和分类文档类型。

相关推荐
TDengine (老段)3 分钟前
人力减 60%:时序数据库 TDengine 助力桂冠电力实现 AI 智能巡检
java·大数据·数据库·人工智能·时序数据库·tdengine·涛思数据
CNRio4 分钟前
智驭天象:人工智能重塑气象科技新纪元
人工智能·科技
python百炼成钢4 分钟前
解决——linux通过网络挂载tftp无法下载
linux·运维·网络
szxinmai主板定制专家5 分钟前
JETSON orin+FPGA+GMSL+AI协作机器人视觉感知
网络·arm开发·人工智能·嵌入式硬件·fpga开发·机器人
无奈笑天下9 分钟前
银河麒麟高级服务器版本【更换bond绑定的网卡】操作方法
linux·运维·服务器·arm开发·经验分享
羊羊小栈10 分钟前
基于「YOLO姿态识别 + AI大模型分析」的智能健身辅助系统(vue+flask+AI算法)
vue.js·人工智能·yolo·毕业设计·创业创新·大作业
秋邱11 分钟前
AR 技术创新与商业化新方向:AI+AR 融合,抢占 2025 高潜力赛道
前端·人工智能·后端·python·html·restful
咚咚王14 分钟前
人工智能之数据分析 Pandas:第八章 数据可视化
人工智能·数据分析·pandas
前端九哥18 分钟前
如何让AI设计出Apple风格的顶级UI?
前端·人工智能