亚马逊云科技 re:Invent 2024重磅发布！Amazon Bedrock Data Automation 预览版震撼登场

AWS re:Invent 2024 已圆满落幕！

在本次大会中，隆重推出了一项全新功能：

Amazon Bedrock Data Automation（预览版）震撼登场！

New Amazon Bedrock capabilities enhance data processing and retrieval | AWS News Bloghttps://aws.amazon.com/jp/blogs/aws/new-amazon-bedrock-capabilities-enhance-data-processing-and-retrieval/

简单总结

Amazon Bedrock Data Automation（简称 BDA）是一项全托管服务，能够从文档、图片、音频、视频等非结构化多模态内容中提取有价值的信息。
它支持视频关键时刻摘要、不良图像内容检测、复杂文档自动分析等功能，帮助高效处理多样化内容。
BDA既可独立使用，也可作为解析器应用于RAG工作流中的知识库配置，灵活适配多种场景。

亮点

传统的 RAG 主要依赖文本内容进行信息提取，而 BDA 的推出突破了这一限制。
它能够轻松处理非结构化的多模态内容，提取更多维度的信息。
这为构建基于多样化上下文的 RAG 提供了更丰富的可能性，让应用场景更加广泛！

亚马逊云科技官方文档通

Data automation - Amazon BedrockLearn about how to use Amazon Bedrock to automate processing of images, audio, video, and documentshttps://docs.aws.amazon.com/bedrock/latest/userguide/bda.html

Amazon Bedrock Data Automation（BDA）的综合用户指南

Parsing options for your data source - Amazon BedrockParsing refers to the interpretation of documents and their meaningful components. Amazon Bedrock Knowledge Bases offers the following options for parsing your data source during ingestion:https://docs.aws.amazon.com/bedrock/latest/userguide/kb-advanced-parsing.html

在知识库中使用 BDA 进行数据解析的用户指南

Feature support by AWS Region in Amazon Bedrock - Amazon BedrockFor a list of AWS Regions that support Amazon Bedrock, see Amazon Bedrock endpoints and quotas . Amazon Bedrock features differ in their regional support.https://docs.aws.amazon.com/bedrock/latest/userguide/features-regions.html这是关于 Amazon Bedrock 功能可用区域的相关指南。虽然目前文档中还没有明确提到 BDA 的内容，但未来很有可能会更新包含这部分信息。目前通过管理控制台，我们已经确认 BDA 在俄勒冈区域可以使用。

动手尝试

打开 AWS 管理控制台，在俄勒冈区域的 Amazon Bedrock 服务页面中选择"Data Automation（数据自动化）"。

根据不同的使用场景，提供了两种输出类型，也可以将它们结合使用。

标准输出
自定义输出

来试试这个DEMO吧。

来执行流程如下：

选择/上传文件
查看结果
创建项目/蓝图
使用资源

让我们尝试通过以下设置生成结果：

选择示例演示或上传文件开始：使用示例演示
选择资产文件类型：文档
驾驶执照

作为结果的输出目标，需要创建一个 S3 存储桶。点击确认后，存储桶将自动创建，并开始生成结果。

生成的结果如上。

标准输出

让我们查看结果的标准输出选项卡。其中有一个名为"Configuration（配置）"的部分，显示了生成标准输出结果所使用的设置。例如，可以看到以下设置被使用：

文本格式：带有 Markdown 的文本
输出格式：JSON

向页面下方滚动，可以看到一个名为"Results（结果）"的部分，其中显示了生成的结果。在文档级别的选项卡中，根据驾驶执照的图像，以带有 Markdown 的文本格式生成了结果。

在"Element Level"选项卡中，基于文档的各个元素，结果以带有 Markdown 的文本格式生成。

点击"Results"中的"Download Results"按钮后，会下载一个名为 Results.zip 的文件。解压后可以看到一个名为 StandardOutputDocument.json 的文件。通过该文件，可以以之前在"Output Format"中选择的 JSON 格式查看生成的结果。