谷歌云发布 Document AI Workbench 最新功能:自定义文档拆分器实现复杂文档处理自动化

目录

[1. 自定义文档拆分器(CDS)带来的商业价值](#1. 自定义文档拆分器(CDS)带来的商业价值)

流程简化与验证

降低运营成本

[2. Document AI Workbench 模型的优势与使用流程](#2. Document AI Workbench 模型的优势与使用流程)

如何使用自定义文档拆分器

导入并准备训练数据

准确评估模型

投入生产


这种多文档合一的复杂性使得企业难以进行大规模管理。Google Cloud 致力于通过持续投资 Document AI 解决方案套件来解决这些挑战,该套件提供了一系列用于文档处理和见解的机器学习产品。Document AI Workbench 可帮助用户快速构建具有世界一流精度并针对其特定用例训练的 ML 模型。

此前的创新包括:

2023 年 2 月:推出了自定义文档提取器(CDE)的通用版(GA),帮助用户从文档中提取结构化数据。

2023 年 3 月:在 GA 中推出了自定义文档分类器(CDC),帮助自动分类文档类型。

1. 自定义文档拆分器(CDS)带来的商业价值

CDS 的推出解决了文档处理中最棘手的"文件合并"问题,为企业带来了巨大的效率提升:

流程简化与验证

CDS 帮助客户对文档进行排序和分类,使其能够验证是否拥有申请人提供的所有所需文件。

下游流程自动化:单独分类的文档使企业能够更好地自动化下游流程,如选择适当的存储、分析或处理步骤。

降低运营成本

来自客户的反馈印证了 CDS 的价值。Zencore 客户通过使用 CDS,每年消除了数千个错误,大幅降低了合规报告程序的运营成本。德勤的客户德国商业银行利用 CDS 轻松细分客户提交的内容,极大地减少了额外的手动排序或路由工作。

Frank Neugebauer,Google Cloud 保险解决方案顾问,与一家财富 100 强保险公司合作,使用 CDS 创建的模型对数百万份保险文件进行拆分和分类,准确率高达 98%。

2. Document AI Workbench 模型的优势与使用流程

Document AI Workbench 通过简化模型训练过程,帮助企业节省时间和金钱。

如何使用自定义文档拆分器

用户可以利用 Google Cloud Console 中的简单界面和一组公共 API 来准备训练数据、创建和评估模型、将模型部署到生产中,并调用 API 端点来拆分和分类文档类型。

导入并准备训练数据

快速构建数据集:用户可以通过导入单个文档(每个文件一个文档)并使用相关文档类型进行批量标记来快速构建训练数据集。用户可以一次导入一个或多个文件夹,并在导入时立即为每个文件夹选择正确的文档类型。

数据规模:用户最多可输入 30,000 份文档和 100,000 页进行培训,能够在几分钟内构建一个包含数百个标记文档的训练数据集。

准确评估模型

要准确评估 CDS 模型,需导入同一文件中包含多种文档类型的文件,并将其分配给测试数据集。

使用简单的接口定义文档边界和类型,这些基本事实用于评估 CDS 模型的分割和分类预测。

投入生产

一旦模型满足准确性目标,即可部署到生产中,并通过 API 端点调用模型来拆分和分类文档类型。

相关推荐
Ajie'Blog1 分钟前
AI 编程工具怎么选:Claude Code、Cursor、GitHub Copilot 与 Ollama 指南
人工智能·github·copilot
逸A1 分钟前
某里v2反混淆 codec 化路上踩到的两个隐蔽坑:被清零的 salt 与 opaque loop bound
javascript·人工智能·目标跟踪
2601_959986244 分钟前
从移动端看MMarkets(评测类)值得关注吗?
大数据·人工智能
code_pgf4 分钟前
多模态技术在主要 AI 应用领域中的应用分析与工程落地建议
人工智能·stable diffusion
用户6919026813394 分钟前
Claude Code 的快捷指令来了!带你快速上手cc提升效率!!
人工智能
坏孩子的诺亚方舟6 分钟前
FPGA神经网络数学基础0
人工智能·神经网络·线性代数·fpga开发
段一凡-华北理工大学8 分钟前
工业领域的Hadoop架构学习~系列文章02:HDFS架构深度剖析
大数据·人工智能·hadoop·学习·架构·高炉炼铁
humors2218 分钟前
Windows运维与安全场景合集(不定期更新)
大数据·运维·服务器·程序人生·网络安全
SAP上海工博云署9 分钟前
2026年中小企业SAP服务商选型技术解析
大数据·运维·数据库·人工智能·信息可视化·运维开发·信息与通信
涛声依旧-底层原理研究所9 分钟前
Node.js在高并发低延迟场景中的优势
java·人工智能·python·node.js