Azure AI Search 探索总结

Azure AI Search 原名 Azure Cognitive Service,是Azure中用来给AI项目构建知识库的组件。

知识库本质和数据库很像,但是内部的存储结构和检索算法不一样。

比如并不是知识库的每一列都可以用来过滤、检索或group by,而是要根据实际情况配置。

Azure AI Search几个基本概念介绍:

  1. Index就是类似数据库的一张表,里面可以存放被检索的信息集合。
  2. Indexer索引生成器,从数据源读取并生成Index的生成器。
  3. 数据源,可以是Blob,Database
  4. Skillset,这个很有意思叫技能包,默认的索引生成器功能很简单,对于复杂文档,比如有大量图片的文档,视频或音频,在生成index时要动用到一些独特的技能包即Skillset

在Azure Portal里AI Search提供了Index的在线查询,使用的是它自己定义的一套JSON查询语法,这里给到几个经典查询介绍:

javascript 复制代码
// 查询某个可以facet的字段,有哪些distinct值
{
  "search": "*",          // 或空字符串
  "top": 0,               // 不返回具体文档
  "facets": ["category,count:1000"]  // 你想看 distinct 值的字段,默认显示10条,通过count指定数量上限
}


//限制返回字段content的上下文
{
  "search": "机器学习",
  "highlight": "content-40",   // 40=返回前/后各 40 个字符
  "select": "title,url"        // 不返回整段 content
}

//根据某个字段过滤,类似SQL中的where
{
  "filter": "category eq 'Electronics'",
  "select": "id,name,price"
}

最后补充两点:

  1. Azure AI Search Free-tier 只支持16MB以下的文档。

  2. Azure Portal里的操作方式: 不支持自定义index结构,复杂场景还是要写代码导入。

  3. Storage Blob里配置文件的元属性,AI Search也能自动读到。

相关推荐
AI精钢14 小时前
RAG 的 Chunking 有什么好方案?从原理到实战选型
llm·向量检索·rag·ai工程·chunking
AI精钢14 小时前
如何提高 RAG 的检索质量?这才是真正的瓶颈所在
大模型·llm·向量检索·rag·ai工程
庞轩px15 小时前
Embedding与向量语义——大模型是怎样“理解”文字的?
人工智能·自然语言处理·embedding·向量检索·余弦相似度·rag·高维向量空间
Arhero17 小时前
Semantic Chunk 为什么需要 Embedding API
动态规划·embedding·rag·文本切分·语义分块
庞轩px1 天前
大模型为什么会有“幻觉”——从训练方式到推理局限
人工智能·prompt·rag·大模型幻觉·engineering·训练方式
new【一个】对象1 天前
RAG详解
python·llm·agent·rag
Joseph Cooper2 天前
RAG 与 AI Agent:智能体真的需要检索增强生成吗?
数据库·人工智能·ai·agent·rag·上下文工程
给自己做减法2 天前
rag混合检索
人工智能·python·rag
wuxinyan1232 天前
大模型学习之路004:RAG 零基础入门教程(第一篇):基础理论与文档处理流水线
人工智能·学习·rag
编码者卢布2 天前
【Azure App Service】为什么 Web App 上的文件会被“锁死“?
microsoft·azure·web app