谷歌云发布 Document AI Workbench 最新功能:自定义文档拆分器实现复杂文档处理自动化

目录

[1. 自定义文档拆分器(CDS)带来的商业价值](#1. 自定义文档拆分器(CDS)带来的商业价值)

流程简化与验证

降低运营成本

[2. Document AI Workbench 模型的优势与使用流程](#2. Document AI Workbench 模型的优势与使用流程)

如何使用自定义文档拆分器

导入并准备训练数据

准确评估模型

投入生产


这种多文档合一的复杂性使得企业难以进行大规模管理。Google Cloud 致力于通过持续投资 Document AI 解决方案套件来解决这些挑战,该套件提供了一系列用于文档处理和见解的机器学习产品。Document AI Workbench 可帮助用户快速构建具有世界一流精度并针对其特定用例训练的 ML 模型。

此前的创新包括:

2023 年 2 月:推出了自定义文档提取器(CDE)的通用版(GA),帮助用户从文档中提取结构化数据。

2023 年 3 月:在 GA 中推出了自定义文档分类器(CDC),帮助自动分类文档类型。

1. 自定义文档拆分器(CDS)带来的商业价值

CDS 的推出解决了文档处理中最棘手的"文件合并"问题,为企业带来了巨大的效率提升:

流程简化与验证

CDS 帮助客户对文档进行排序和分类,使其能够验证是否拥有申请人提供的所有所需文件。

下游流程自动化:单独分类的文档使企业能够更好地自动化下游流程,如选择适当的存储、分析或处理步骤。

降低运营成本

来自客户的反馈印证了 CDS 的价值。Zencore 客户通过使用 CDS,每年消除了数千个错误,大幅降低了合规报告程序的运营成本。德勤的客户德国商业银行利用 CDS 轻松细分客户提交的内容,极大地减少了额外的手动排序或路由工作。

Frank Neugebauer,Google Cloud 保险解决方案顾问,与一家财富 100 强保险公司合作,使用 CDS 创建的模型对数百万份保险文件进行拆分和分类,准确率高达 98%。

2. Document AI Workbench 模型的优势与使用流程

Document AI Workbench 通过简化模型训练过程,帮助企业节省时间和金钱。

如何使用自定义文档拆分器

用户可以利用 Google Cloud Console 中的简单界面和一组公共 API 来准备训练数据、创建和评估模型、将模型部署到生产中,并调用 API 端点来拆分和分类文档类型。

导入并准备训练数据

快速构建数据集:用户可以通过导入单个文档(每个文件一个文档)并使用相关文档类型进行批量标记来快速构建训练数据集。用户可以一次导入一个或多个文件夹,并在导入时立即为每个文件夹选择正确的文档类型。

数据规模:用户最多可输入 30,000 份文档和 100,000 页进行培训,能够在几分钟内构建一个包含数百个标记文档的训练数据集。

准确评估模型

要准确评估 CDS 模型,需导入同一文件中包含多种文档类型的文件,并将其分配给测试数据集。

使用简单的接口定义文档边界和类型,这些基本事实用于评估 CDS 模型的分割和分类预测。

投入生产

一旦模型满足准确性目标,即可部署到生产中,并通过 API 端点调用模型来拆分和分类文档类型。

相关推荐
冬奇Lab14 小时前
Agent 系列(23):Web Agent——让 Agent 真正浏览网页
人工智能·llm·agent
冬奇Lab14 小时前
每日一个开源项目(第135篇):codebase-memory-mcp - 给 AI Agent 一张代码库的知识图谱
人工智能·开源·llm
IT_陈寒16 小时前
JavaScript的闭包把我坑惨了,说好的内存会自动回收呢?
前端·人工智能·后端
jooloo20 小时前
Codex 间歇性 400 之谜:一条对话里,它为什么有时候用 chat/completions,有时候切到 responses?
人工智能
用户51914958484520 小时前
OpenSSL PKCS#12 PBMAC1 堆栈缓冲区溢出漏洞 (CVE-2025-11187) 分析与验证
人工智能·aigc
用户51914958484521 小时前
HP Sound Research SECOMNService 权限提升漏洞利用工具
人工智能·aigc
用户018349301691 天前
给 AI 智能体能力包一层 BFF,前端只调一个接口
人工智能
这token有力气1 天前
Function Calling 格式漂移
人工智能