谷歌云发布 Document AI Workbench 最新功能:自定义文档拆分器实现复杂文档处理自动化

目录

[1. 自定义文档拆分器(CDS)带来的商业价值](#1. 自定义文档拆分器(CDS)带来的商业价值)

流程简化与验证

降低运营成本

[2. Document AI Workbench 模型的优势与使用流程](#2. Document AI Workbench 模型的优势与使用流程)

如何使用自定义文档拆分器

导入并准备训练数据

准确评估模型

投入生产


这种多文档合一的复杂性使得企业难以进行大规模管理。Google Cloud 致力于通过持续投资 Document AI 解决方案套件来解决这些挑战,该套件提供了一系列用于文档处理和见解的机器学习产品。Document AI Workbench 可帮助用户快速构建具有世界一流精度并针对其特定用例训练的 ML 模型。

此前的创新包括:

2023 年 2 月:推出了自定义文档提取器(CDE)的通用版(GA),帮助用户从文档中提取结构化数据。

2023 年 3 月:在 GA 中推出了自定义文档分类器(CDC),帮助自动分类文档类型。

1. 自定义文档拆分器(CDS)带来的商业价值

CDS 的推出解决了文档处理中最棘手的"文件合并"问题,为企业带来了巨大的效率提升:

流程简化与验证

CDS 帮助客户对文档进行排序和分类,使其能够验证是否拥有申请人提供的所有所需文件。

下游流程自动化:单独分类的文档使企业能够更好地自动化下游流程,如选择适当的存储、分析或处理步骤。

降低运营成本

来自客户的反馈印证了 CDS 的价值。Zencore 客户通过使用 CDS,每年消除了数千个错误,大幅降低了合规报告程序的运营成本。德勤的客户德国商业银行利用 CDS 轻松细分客户提交的内容,极大地减少了额外的手动排序或路由工作。

Frank Neugebauer,Google Cloud 保险解决方案顾问,与一家财富 100 强保险公司合作,使用 CDS 创建的模型对数百万份保险文件进行拆分和分类,准确率高达 98%。

2. Document AI Workbench 模型的优势与使用流程

Document AI Workbench 通过简化模型训练过程,帮助企业节省时间和金钱。

如何使用自定义文档拆分器

用户可以利用 Google Cloud Console 中的简单界面和一组公共 API 来准备训练数据、创建和评估模型、将模型部署到生产中,并调用 API 端点来拆分和分类文档类型。

导入并准备训练数据

快速构建数据集:用户可以通过导入单个文档(每个文件一个文档)并使用相关文档类型进行批量标记来快速构建训练数据集。用户可以一次导入一个或多个文件夹,并在导入时立即为每个文件夹选择正确的文档类型。

数据规模:用户最多可输入 30,000 份文档和 100,000 页进行培训,能够在几分钟内构建一个包含数百个标记文档的训练数据集。

准确评估模型

要准确评估 CDS 模型,需导入同一文件中包含多种文档类型的文件,并将其分配给测试数据集。

使用简单的接口定义文档边界和类型,这些基本事实用于评估 CDS 模型的分割和分类预测。

投入生产

一旦模型满足准确性目标,即可部署到生产中,并通过 API 端点调用模型来拆分和分类文档类型。

相关推荐
zhouwy1131 小时前
Linux系统管理命令大全
linux·运维
一水鉴天1 小时前
从“AI内在机制探询”到“三重三九格人本主权智能体架构”的演进 之1 20260503 (腾讯元宝)
人工智能
Hello world.Joey1 小时前
OSTrack
人工智能·算法·目标检测·目标跟踪
AI科技星1 小时前
全域数学·数术本源·第四卷《分析原本》【乖乖数学】
人工智能·机器学习·数学建模·数据挖掘·agi
早日退休!!!1 小时前
PyTorch适配NPU
人工智能·pytorch·python
qcx231 小时前
【AI Agent通识九课】01 · Agent 和 ChatGPT 到底差在哪?
人工智能·ai·chatgpt·agent
小手智联老徐2 小时前
Claude Code CLI + DeepSeek V4:终结 AI 编程高成本时代的王炸组合
人工智能
2zcode2 小时前
基于深度学习的糖尿病眼底图像分类识别系统(含UI界面+多模型对比+数据集+训练代码)
人工智能·深度学习·分类
绛橘色的日落(。・∀・)ノ2 小时前
机器学习 梯度下降
人工智能·机器学习
Empty-Filled2 小时前
AI 测试能力评估与个性化入门指南
人工智能