目录
[1. 自定义文档拆分器(CDS)带来的商业价值](#1. 自定义文档拆分器(CDS)带来的商业价值)
[2. Document AI Workbench 模型的优势与使用流程](#2. Document AI Workbench 模型的优势与使用流程)
这种多文档合一的复杂性使得企业难以进行大规模管理。Google Cloud 致力于通过持续投资 Document AI 解决方案套件来解决这些挑战,该套件提供了一系列用于文档处理和见解的机器学习产品。Document AI Workbench 可帮助用户快速构建具有世界一流精度并针对其特定用例训练的 ML 模型。
此前的创新包括:
2023 年 2 月:推出了自定义文档提取器(CDE)的通用版(GA),帮助用户从文档中提取结构化数据。
2023 年 3 月:在 GA 中推出了自定义文档分类器(CDC),帮助自动分类文档类型。
1. 自定义文档拆分器(CDS)带来的商业价值
CDS 的推出解决了文档处理中最棘手的"文件合并"问题,为企业带来了巨大的效率提升:
流程简化与验证
CDS 帮助客户对文档进行排序和分类,使其能够验证是否拥有申请人提供的所有所需文件。
下游流程自动化:单独分类的文档使企业能够更好地自动化下游流程,如选择适当的存储、分析或处理步骤。
降低运营成本
来自客户的反馈印证了 CDS 的价值。Zencore 客户通过使用 CDS,每年消除了数千个错误,大幅降低了合规报告程序的运营成本。德勤的客户德国商业银行利用 CDS 轻松细分客户提交的内容,极大地减少了额外的手动排序或路由工作。
Frank Neugebauer,Google Cloud 保险解决方案顾问,与一家财富 100 强保险公司合作,使用 CDS 创建的模型对数百万份保险文件进行拆分和分类,准确率高达 98%。

2. Document AI Workbench 模型的优势与使用流程
Document AI Workbench 通过简化模型训练过程,帮助企业节省时间和金钱。
如何使用自定义文档拆分器
用户可以利用 Google Cloud Console 中的简单界面和一组公共 API 来准备训练数据、创建和评估模型、将模型部署到生产中,并调用 API 端点来拆分和分类文档类型。

导入并准备训练数据
快速构建数据集:用户可以通过导入单个文档(每个文件一个文档)并使用相关文档类型进行批量标记来快速构建训练数据集。用户可以一次导入一个或多个文件夹,并在导入时立即为每个文件夹选择正确的文档类型。
数据规模:用户最多可输入 30,000 份文档和 100,000 页进行培训,能够在几分钟内构建一个包含数百个标记文档的训练数据集。

准确评估模型
要准确评估 CDS 模型,需导入同一文件中包含多种文档类型的文件,并将其分配给测试数据集。
使用简单的接口定义文档边界和类型,这些基本事实用于评估 CDS 模型的分割和分类预测。
投入生产
一旦模型满足准确性目标,即可部署到生产中,并通过 API 端点调用模型来拆分和分类文档类型。