亚马逊云科技 re:Invent 2024重磅发布!Amazon Bedrock Data Automation 预览版震撼登场

AWS re:Invent 2024 已圆满落幕!

在本次大会中,隆重推出了一项全新功能:

Amazon Bedrock Data Automation(预览版)震撼登场!

New Amazon Bedrock capabilities enhance data processing and retrieval | AWS News Bloghttps://aws.amazon.com/jp/blogs/aws/new-amazon-bedrock-capabilities-enhance-data-processing-and-retrieval/

简单总结

  1. Amazon Bedrock Data Automation(简称 BDA)是一项全托管服务,能够从文档、图片、音频、视频等非结构化多模态内容中提取有价值的信息。
  2. 它支持视频关键时刻摘要、不良图像内容检测、复杂文档自动分析等功能,帮助高效处理多样化内容。
  3. BDA既可独立使用,也可作为解析器应用于RAG工作流中的知识库配置,灵活适配多种场景。

亮点

  1. 传统的 RAG 主要依赖文本内容进行信息提取,而 BDA 的推出突破了这一限制。
  2. 它能够轻松处理非结构化的多模态内容,提取更多维度的信息。
  3. 这为构建基于多样化上下文的 RAG 提供了更丰富的可能性,让应用场景更加广泛!

亚马逊云科技官方文档通

Data automation - Amazon BedrockLearn about how to use Amazon Bedrock to automate processing of images, audio, video, and documentshttps://docs.aws.amazon.com/bedrock/latest/userguide/bda.html

Amazon Bedrock Data Automation(BDA)的综合用户指南

Parsing options for your data source - Amazon BedrockParsing refers to the interpretation of documents and their meaningful components. Amazon Bedrock Knowledge Bases offers the following options for parsing your data source during ingestion:https://docs.aws.amazon.com/bedrock/latest/userguide/kb-advanced-parsing.html

在知识库中使用 BDA 进行数据解析的用户指南

Feature support by AWS Region in Amazon Bedrock - Amazon BedrockFor a list of AWS Regions that support Amazon Bedrock, see Amazon Bedrock endpoints and quotas . Amazon Bedrock features differ in their regional support.https://docs.aws.amazon.com/bedrock/latest/userguide/features-regions.html这是关于 Amazon Bedrock 功能可用区域的相关指南。虽然目前文档中还没有明确提到 BDA 的内容,但未来很有可能会更新包含这部分信息。目前通过管理控制台,我们已经确认 BDA 在俄勒冈区域可以使用。

动手尝试

打开 AWS 管理控制台,在俄勒冈区域的 Amazon Bedrock 服务页面中选择"Data Automation(数据自动化)"。

根据不同的使用场景,提供了两种输出类型,也可以将它们结合使用。

  • 标准输出
  • 自定义输出

来试试这个DEMO吧。

来执行流程如下:

  1. 选择/上传文件
  2. 查看结果
  3. 创建项目/蓝图
  4. 使用资源

让我们尝试通过以下设置生成结果:

  • 选择示例演示或上传文件开始:使用示例演示
  • 选择资产文件类型:文档
  • 驾驶执照

作为结果的输出目标,需要创建一个 S3 存储桶。点击确认后,存储桶将自动创建,并开始生成结果。

生成的结果如上。

标准输出

让我们查看结果的标准输出选项卡。其中有一个名为"Configuration(配置)"的部分,显示了生成标准输出结果所使用的设置。例如,可以看到以下设置被使用:

  • 文本格式:带有 Markdown 的文本
  • 输出格式:JSON

向页面下方滚动,可以看到一个名为"Results(结果)"的部分,其中显示了生成的结果。在文档级别的选项卡中,根据驾驶执照的图像,以带有 Markdown 的文本格式生成了结果。

在"Element Level"选项卡中,基于文档的各个元素,结果以带有 Markdown 的文本格式生成。

点击"Results"中的"Download Results"按钮后,会下载一个名为 Results.zip 的文件。解压后可以看到一个名为 StandardOutputDocument.json 的文件。通过该文件,可以以之前在"Output Format"中选择的 JSON 格式查看生成的结果。

移动到页面右上角,可以返回到"Configuration(配置)"部分。点击 Regenerate results 按钮,可以重新生成结果。点击 Add to project 按钮,可以将配置添加到新的项目或现有项目中。

尝试创建并添加到新项目中。点击按钮后,会弹出一个对话框,在其中输入项目名称并完成创建。

新的项目已成功创建,Configuration 的内容已被添加到项目中。

Custom output

让我们来查看结果的"自定义输出"选项卡。这是一个通过 BDA 从文档或图像中提取信息时,用于细化输出设置的功能。借助该功能,可以将提取的数据转换为特定的格式或结构。

蓝图(Blueprint)在这里就像一份"指令清单",详细说明了如何从文件中提取信息以及如何转换输出。可以将蓝图比作一份"配方",而 BDA 则根据这份配方处理数据。

在本次操作中,使用的是名为 US-Driver-License 的示例蓝图。由于示例蓝图无法直接编辑,如果需要调整,可以复制蓝图后进行修改。

点击"复制蓝图"按钮后,会弹出如上图所示的对话框。输入蓝图名称后即可完成复制操作。

已跳转到自定义输出设置的目标蓝图页面。在这个页面上,可以通过图形界面(GUI)对刚刚复制的蓝图进行编辑。编辑完成后,可以将蓝图添加到项目中,或者选择保存蓝图以进行版本管理。

我切换回了自定义输出设置的主页面。在这里可以看到示例蓝图以及刚刚复制的蓝图列表,一目了然地管理和选择需要使用的蓝图。

UseCase

提供了三个使用场景,并为每个场景指出了应该选择"标准输出"、"自定义输出"或"两者结合"中的哪种方式:

  • RAG 索引
  • 智能文档处理
  • 媒体分析

API

Using the Bedrock Data Automation API - Amazon BedrockThe Amazon Bedrock Data Automation (BDA) feature provides a streamlined API workflow for processing your data. For all modalities, this workflow consists of three main steps: creating a project, invoking the analysis, and retrieving the results. To retrieve custom output for your processed data, you provide the Blueprint ARN when you invoke the analysis operation.https://docs.aws.amazon.com/bedrock/latest/userguide/bda-using-api.html

以下是关于通过 API 使用 BDA 的用户指南。通过调用已创建的项目 API,可以实现以下功能:

  • 从非结构化多模态内容中提取有价值的信息
  • 作为解析器,用于设置 RAG 工作流的知识库

总结

在实际操作中,我对 BDA 的使用有了以下几点认识:

  • 项目:是标准输出和自定义输出设置的集合
  • 蓝图:相当于自定义输出的"配方"
  • 自定义输出界面:可以查看示例蓝图和自定义蓝图
  • 演示界面:可以查看不同资产类型的标准输出和自定义输出结果,并验证修改设置后的效果
  • API 调用:通过调用创建的项目 API,可从非结构化多模态内容中提取信息,或者在设置 RAG 工作流知识库时作为解析器使用
相关推荐
板面华仔11 分钟前
机器学习入门(三)——决策树(Decision Tree)
人工智能·决策树·机器学习
GAOJ_K24 分钟前
滚珠花键的无预压、间隙调整与过盈配合“场景适配型”
人工智能·科技·机器人·自动化·制造
ai_xiaogui29 分钟前
【开源探索】Panelai:重新定义AI服务器管理面板,助力团队私有化算力部署与模型运维
人工智能·开源·私有化部署·docker容器化·panelai·ai服务器管理面板·comfyui集群管理
源于花海34 分钟前
迁移学习的前沿知识(AI与人类经验结合、传递式、终身、在线、强化、可解释性等)
人工智能·机器学习·迁移学习·迁移学习前沿
king of code porter1 小时前
百宝箱企业版搭建智能体应用-平台概述
人工智能·大模型·智能体
愚公搬代码1 小时前
【愚公系列】《AI短视频创作一本通》004-AI短视频的准备工作(创作AI短视频的基本流程)
人工智能·音视频
物联网软硬件开发-轨物科技1 小时前
【轨物洞见】告别“被动维修”!预测性运维如何重塑老旧电站的资产价值?
运维·人工智能
电商API_180079052471 小时前
第三方淘宝商品详情 API 全维度调用指南:从技术对接到生产落地
java·大数据·前端·数据库·人工智能·网络爬虫
梁辰兴1 小时前
百亿美元赌注变数,AI军备竞赛迎来转折点?
人工智能·ai·大模型·openai·英伟达·梁辰兴·ai军备竞赛
PaperRed ai写作降重助手1 小时前
智能写作ai论文生成软件推荐
人工智能·aigc·ai写作·智能降重·paperred