对Embedding/RAG祛魅了!

上周在做 「根据描述来找到相关的API」

因为API太长了,有超过10W+的token(主要是出参很多且描述比较详细),导致大模型幻觉严重,具体表现为给出的答案中有很多重复的语句。

所以考虑使用embedding来实现rag相关功能,然后就发现了embedding存在以下问题

一、切分不当导致语义匹配不上

一开始我的设计是,把整个API信息(名字、描述、入参、出参)进行embedding,然后与用户的query进行余弦相似度计算,找出相似度最高的30个API(后来调到80个)。

但有一个case始终匹配不到,我想要查询的「广告投放出价」,预期找到的接口为「获取广告列表」

但即使我把查找范围从30调整到80,也始终没法找到这个接口

原因就是这个接口太长了,他的语义和我输入的「广告投放出价」很难匹配

最后的解决办法就是:我不再对整个API信息进行embedding,而是对每一个入参、出参进行embedding来提高我的匹配度。

不过这导致原来我的向量数据库只有500条数据对应500个API,一下子变成了6000条数据

二、泛化能力太弱导致匹配不上

之后的一个case是,我想要查询「广告的点击率」,预计要找到的接口组合是「获取自定义报表字段」``「查询自定义报表」这两个接口。

但使用余弦相似度始终找不到,原因是这两个接口在描述里面没有提到广告点击率,仅仅靠余弦相似度的语义匹配是找不到的。

最后的解决办法是:我把「apiNameList」和「要查询的字段」扔给大模型来预先选出10个API,之后再考虑embedding出入参选择其他API。

三、现在我对embedding/RAG的看法

1.并非银弹,而是不得已之举,embedding是最粗也是最不得已才应该采用的方法。人工分层,比如将API/文档归类一下直接传给大模型,可能效果更好(类似claude skills的方法)。

2.要理解原理: 如果一定要做embedding,要理解其基于语义的原理,是线上要注意两点「构建时切分规则的选择」「查询时query的改写」,保证语义上能够匹配到

我是三选,阿里3年负责压测平台,目前在字节广告平台做to C 的AI Agent(已上线)。分享AI前沿技术和工程落地实践。原则是「分享真实,solid的AI工程经验」 「观点输出,讲些有用的」,公众号同名。

相关推荐
Miku165 分钟前
使用 Claude Code 的 pptx-skills 技能生成精美 EVA 主题 PPT 完整指南
aigc·agent·claude
且去填词6 小时前
DeepSeek :基于 AST 与 AI 的遗留系统“手术刀”式治理方案
人工智能·自动化·llm·ast·agent·策略模式·deepseek
TaiKuLaHa7 小时前
Agent中的深度思考是什么,有什么区别: ReAct模式 和 Plan-and-Solve模式
agent
roamingcode17 小时前
超越 Context Window:为何文件系统是 AI Agent 的终极记忆体
人工智能·agent·cursor·claude code·上下文工程·skill 技能
大模型真好玩1 天前
LangGraph智能体开发设计模式(四)——LangGraph多智能体设计模式:网络架构
人工智能·langchain·agent
明月(Alioo)1 天前
AIGC入门,在Mac上基于Ollama和phi3:mini的完整Agent/Subagent例子
机器学习·aigc·agent·subagent
视觉&物联智能1 天前
【杂谈】-多智能体系统的效能悖论:协作优势的认知边界
ai·llm·agent·智能体·人工 智能
爱吃泡芙的小白白1 天前
Agent学习——反思模式
学习·agent·学习记录
沈询-阿里2 天前
Skills vs MCP:竞合关系还是互补?深入解析Function Calling、MCP和Skills的本质差异
人工智能·ai·agent·ai编程
且去填词2 天前
DeepSeek API 深度解析:从流式输出、Function Calling 到构建拥有“手脚”的 AI 应用
人工智能·python·语言模型·llm·agent·deepseek