谷歌云发布 Document AI Workbench 最新功能:自定义文档拆分器实现复杂文档处理自动化

目录

[1. 自定义文档拆分器(CDS)带来的商业价值](#1. 自定义文档拆分器(CDS)带来的商业价值)

流程简化与验证

降低运营成本

[2. Document AI Workbench 模型的优势与使用流程](#2. Document AI Workbench 模型的优势与使用流程)

如何使用自定义文档拆分器

导入并准备训练数据

准确评估模型

投入生产


这种多文档合一的复杂性使得企业难以进行大规模管理。Google Cloud 致力于通过持续投资 Document AI 解决方案套件来解决这些挑战,该套件提供了一系列用于文档处理和见解的机器学习产品。Document AI Workbench 可帮助用户快速构建具有世界一流精度并针对其特定用例训练的 ML 模型。

此前的创新包括:

2023 年 2 月:推出了自定义文档提取器(CDE)的通用版(GA),帮助用户从文档中提取结构化数据。

2023 年 3 月:在 GA 中推出了自定义文档分类器(CDC),帮助自动分类文档类型。

1. 自定义文档拆分器(CDS)带来的商业价值

CDS 的推出解决了文档处理中最棘手的"文件合并"问题,为企业带来了巨大的效率提升:

流程简化与验证

CDS 帮助客户对文档进行排序和分类,使其能够验证是否拥有申请人提供的所有所需文件。

下游流程自动化:单独分类的文档使企业能够更好地自动化下游流程,如选择适当的存储、分析或处理步骤。

降低运营成本

来自客户的反馈印证了 CDS 的价值。Zencore 客户通过使用 CDS,每年消除了数千个错误,大幅降低了合规报告程序的运营成本。德勤的客户德国商业银行利用 CDS 轻松细分客户提交的内容,极大地减少了额外的手动排序或路由工作。

Frank Neugebauer,Google Cloud 保险解决方案顾问,与一家财富 100 强保险公司合作,使用 CDS 创建的模型对数百万份保险文件进行拆分和分类,准确率高达 98%。

2. Document AI Workbench 模型的优势与使用流程

Document AI Workbench 通过简化模型训练过程,帮助企业节省时间和金钱。

如何使用自定义文档拆分器

用户可以利用 Google Cloud Console 中的简单界面和一组公共 API 来准备训练数据、创建和评估模型、将模型部署到生产中,并调用 API 端点来拆分和分类文档类型。

导入并准备训练数据

快速构建数据集:用户可以通过导入单个文档(每个文件一个文档)并使用相关文档类型进行批量标记来快速构建训练数据集。用户可以一次导入一个或多个文件夹,并在导入时立即为每个文件夹选择正确的文档类型。

数据规模:用户最多可输入 30,000 份文档和 100,000 页进行培训,能够在几分钟内构建一个包含数百个标记文档的训练数据集。

准确评估模型

要准确评估 CDS 模型,需导入同一文件中包含多种文档类型的文件,并将其分配给测试数据集。

使用简单的接口定义文档边界和类型,这些基本事实用于评估 CDS 模型的分割和分类预测。

投入生产

一旦模型满足准确性目标,即可部署到生产中,并通过 API 端点调用模型来拆分和分类文档类型。

相关推荐
没事勤琢磨2 小时前
如何让 OpenClaw 控制使用浏览器:让 AI 像真人一样操控你的浏览器
人工智能
用户5191495848452 小时前
CrushFTP 认证绕过漏洞利用工具 (CVE-2024-4040)
人工智能·aigc
牛马摆渡人5282 小时前
OpenClaw实战--Day1: 本地化
人工智能
前端小豆2 小时前
玩转 OpenClaw:打造你的私有 AI 助手网关
人工智能
BugShare2 小时前
写一个你自己的Agent Skills
人工智能·程序员
机器之心3 小时前
英伟达护城河被AI攻破,字节清华CUDA Agent,让人人能搓CUDA内核
人工智能·openai
后端小肥肠4 小时前
公众号躺更神器!OpenClaw+Claude Skill 实现自动读对标 + 写文 + 配图 + 存入草稿箱
人工智能·aigc·agent
爱可生开源社区4 小时前
SCALE | 重构 AI 时代数据库能力的全新评估标准
人工智能
Jahzo4 小时前
openclaw本地化部署体验与踩坑记录--飞书机器人配置
人工智能·开源
Narrastory4 小时前
明日香 - Pytorch 快速入门保姆级教程(一)
人工智能·pytorch·深度学习