Azure Machine Learning - Azure AI 搜索中的集成数据分块和嵌入

在基于索引器的索引编制中,Azure AI _集成矢量化_将数据分块和文本到矢量嵌入添加到技能中,它还为查询添加文本到矢量的转换。
关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

一、组件图

下图显示了集成矢量化的组件。

下面是负责集成矢量化的组件清单:

  • 基于索引器的索引编制支持的数据源。
  • 一个用于指定矢量字段的索引,以及一个分配到矢量字段的矢量化器定义。
  • 一个用于为数据分块提供文本拆分技能的技能组,以及一个矢量化技能(AzureOpenAiEmbedding 技能,或指向外部嵌入模型的自定义技能)。
  • (可选)用于将分块数据推送到次要索引的索引投影(也在技能组中定义)
  • 一个嵌入模型,部署在 Azure OpenAI 上或通过 HTTP 终结点提供。
  • 一个用于端到端驱动流程的索引器。 索引器还指定用于进行更改检测的计划、字段映射和属性。

此清单主要与集成矢量化有关,但你的解决方案并不局限于此列表。 可以添加其他 AI 扩充技能、创建知识存储、添加语义排名、添加相关性优化和其他查询功能。

二、可用性和定价

集成矢量化可用性基于嵌入模型。 如果使用的是 Azure OpenAI,请查看区域可用性

如果使用的是自定义技能和 Azure 托管机制(例如 Azure 函数应用、Azure Web 应用和 Azure Kubernetes),请查看各区域上市的产品页以了解功能可用性。

数据分块(文本拆分技能)是免费的,已在所有区域的所有 Azure AI 服务中提供。

三、集成矢量化支持哪些方案?

  • 将大型文档划分为块,这对于矢量和非矢量方案很有用。 对于矢量方案,块可帮助你满足嵌入模型的输入约束。 对于非矢量方案,你可能会使用一个聊天式搜索应用,其中的 GPT 从编制了索引的块中组合响应。 可以使用矢量化块或非矢量化块进行聊天式搜索。

  • 生成一个矢量存储,其中的所有字段都是矢量字段,只有文档 ID(搜索索引所需)是字符串字段。 查询矢量索引以检索文档 ID,然后将文档的矢量字段发送到另一个模型。

  • 组合矢量和文本字段来执行提供或不提供语义排名的混合搜索。 集成矢量化简化了矢量搜索支持的所有方案

四、何时使用集成矢量化

我们建议使用 Azure AI Studio 的内置矢量化支持。 如果此方法不能满足你的需求,你可以创建索引器和技能组,以便使用 Azure AI 搜索的编程接口调用集成矢量化。

五、如何使用集成矢量化

对于仅限查询的矢量化:

  1. 将一个矢量化器添加到索引。 它应该与用于在索引中生成矢量的嵌入模型相同。
  2. 矢量化器分配到矢量字段。
  3. 构建矢量查询,用于指定要矢量化的文本字符串。

更常见的方案 - 在索引编制期间进行数据分块和矢量化:

  1. 与支持的数据源建立数据源连接,以进行基于索引器的索引编制。
  2. 创建一个技能组,用于调用文本拆分技能进行分块,并调用 AzureOpenAIEmbeddingModel或自定义技能来将块矢量化。
  3. 创建一个索引用于指定查询时间的矢量化器,并将其分配到矢量字段。
  4. 创建一个索引器以驱动从数据检索到技能组执行,再到索引编制的整个流程。

六、限制

确保了解嵌入模型的 Azure OpenAI 配额和限制。 Azure AI 搜索具有重试策略,但如果配额耗尽,重试会失败。

Azure OpenAI 每分钟令牌数限制是按模型、按订阅计算的。 如果对查询和索引编制工作负载使用嵌入模型,请记住这一点。 在可能的情况下遵循最佳做法。 为每个工作负载提供一个嵌入模型,并尝试将其部署在不同的订阅中。

请记住,在 Azure AI 搜索中,存在按层和按工作负载规定的服务限制

最后,目前不支持以下功能:

  • 客户托管的加密密钥

  • 与矢量化器的共享专用链接连接
  • 目前,不提供对集成数据分块和矢量化进行批处理的功能

七、集成矢量化的优势

下面是集成矢量化的一些重要优势:

  • 没有单独的数据分块和矢量化管道。 代码更易于编写和维护。

  • 自动进行端到端索引编制。 当源(例如 Azure 存储、Azure SQL 或 Cosmos DB)中的数据发生更改时,索引器可以在整个管道中传递这些更新(从检索到文档破解,再到可选的 AI 扩充、数据分块、矢量化和索引编制)。

  • 将分块的内容投影到次要索引。 次要索引的创建方式与创建任何搜索索引(包含字段和其他构造的架构)一样,但索引器会将它们与主要索引一起填充。 在同一索引编制运行期间,每个源文档的内容都会流向主要和次要索引中的字段。

    次要索引适用于数据分块和检索增强生成 (RAG) 应用。 假设将一个大型 PDF 文件用作源文档,主要索引可能包含基本信息(标题、日期、作者、描述),而次要索引则包含内容块。 借助数据块级别的矢量化,可以更轻松地查找相关信息(每个块均可搜索)并返回相关响应,尤其是在聊天式搜索应用中。

八、分块索引

分块是将内容划分为可独立处理的较小可管理部分(块)的过程。 如果源文档太大,以至超过了嵌入或大型语言模型的最大输入大小,那么就需要进行分块,但你可能发现,分块能够为 RAG 模式和聊天式搜索提供更好的索引结构。

下图显示了分块索引编制的组件。

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

相关推荐
ZhengEnCi20 小时前
09bad-斯坦福CS336作业一-构建优化器
人工智能
ZhengEnCi21 小时前
09bac-斯坦福CS336作业一-实现训练损失计算
人工智能
冬奇Lab21 小时前
Skill 系列(01):Skill 评测体系——如何量化一个 AI Skill 的质量
人工智能
IT_陈寒1 天前
Redis内存爆了,原来我漏掉了这个致命配置
前端·人工智能·后端
用户3521802454751 天前
🎆从 Prompt 到 Skill:让 Spring AI Agent 学会"装新技能"
人工智能·spring boot·ai编程
米小虾1 天前
手把手教你搭建第一个生产级AI Agent:从选型到实战的完整指南
人工智能·agent
任沫1 天前
Agent之Function Call
javascript·人工智能·go
米小虾1 天前
2026年AI Agent全面爆发:从开源生态到企业级应用的进化之路
人工智能·agent
用户6919026813391 天前
Vibe Coding 开发项目的基本范式
人工智能·设计模式·代码规范
To_OC1 天前
别再跟 AI 死磕 prompt 了,我写了个 Loop 让它自己改到满意为止
人工智能·aigc·agent