向量检索

梵得儿SHI10 小时前
人工智能·缓存·性能优化·milvus·向量检索·rag·spring ai
(第四篇)Spring AI 架构设计与优化:真实生产环境复盘,从 100ms 到 10ms 的响应提速全流程大家好,我是深耕 Spring AI 落地的后端开发。上个月我们团队接到了一个紧急优化需求:线上跑了 3 个月的智能问答服务,平均响应耗时稳定在 100ms,业务高峰期 P99 延迟直接飙升到 500ms,大量用户反馈 “问个问题要等半天”,老板直接下了死命令:2 周内把平均延迟压到 20ms 以内,同时不能降低问答准确率。
__土块__8 天前
向量检索·embedding微调·rag系统·文档切分·分层召回·相似度阈值·上下文拼装
RAG 检索查不准的工程归因:从向量对齐到分层召回的架构取舍在 2026 年初上线的某金融合规问答系统中,RAG 模块持续出现“用户问 A,系统答 B”的现象。典型场景如用户查询“2025 年反洗钱新规对跨境转账的影响”,系统却返回了“2023 年境内支付结算管理办法”相关内容。初期排查聚焦于 prompt 优化和相似度阈值调整,但效果有限。进一步观察发现,问题并非集中在单一环节,而是贯穿了从文档入库到最终回答生成的全链路。
deephub14 天前
人工智能·大语言模型·向量检索·rag·bm25
BM25 + Vectors:为什么真实 RAG 系统通常两者都需要RAG 是一个先选内容再做生成的系统;retriever 不搜索文档,它搜索 chunks。 chunks 有问题了那么检索还没开始就已经完蛋了,所以我们可以用结构感知切分修这一点,把标题、代码块、警告框保持在一起。
AI精钢15 天前
llm·向量检索·rag·ai工程·chunking
RAG 的 Chunking 有什么好方案?从原理到实战选型Reddit 上有一个观点说得很直接:“Chunking 优化的是 embedding 的便利性,不是文档被使用的方式。”
AI精钢15 天前
大模型·llm·向量检索·rag·ai工程
如何提高 RAG 的检索质量?这才是真正的瓶颈所在有一句在 AI 工程圈流传的话:“RAG 没问题,问题出在你的检索层。”大多数开发者遇到 RAG 效果差时,第一反应是换更大的模型、调 temperature、改 prompt。折腾一圈发现没用——因为根本没对症。
庞轩px15 天前
人工智能·自然语言处理·embedding·向量检索·余弦相似度·rag·高维向量空间
Embedding与向量语义——大模型是怎样“理解”文字的?在面试中,如果你在简历上写了“RAG”、“向量检索”,面试官几乎一定会追问一句:“你用了 Embedding,那你说说它的原理是什么?为什么两个词的向量相似,就代表它们语义相近?”
你好潘先生16 天前
spring boot·向量检索·next.js·pgvector·ai对话·多模型对比·sse流式输出
Next.js + Spring Boot 实现 AI 多模型并行对话系统(架构设计与关键实现)最近在做 AI 对话类项目,核心功能包括多模型并行对话、Git 式对话分支、知识自动沉淀、AI 语义搜索等。本文分享下整体架构设计和一些关键技术实现,供同样在做类似项目的同学参考。
INFINI Labs21 天前
向量检索·knn·easysearch·ai agent·mem0·mcp
用 Easysearch 给 AI Agent 装上长期记忆:Mem0 集成实战你有没有遇到过这样的场景:昨天花了半小时跟 AI 把一个 Bug 的根因讲清楚了,今天新开一个对话,对方又一脸懵地从零问起。每次都要重新交代背景,像是在跟一个永远刚入职的实习生打交道。
deephub1 个月前
人工智能·python·大语言模型·向量检索·rag
从检索到回答:RAG 流水线中三个被忽视的故障点RAG 流水线部署完毕、检索正常运行、LLM 按部就班地生成回答、用户也在持续收到响应,这一切看上去运转良好。但有一个问题大多数工程师从来不问:这些回答真的对吗?
deephub1 个月前
人工智能·python·机器学习·embedding·向量检索
向量相似性搜索详解:Flat Index、IVF 与 HNSW要理解向量搜索先要弄清楚为什么需要向量数据库,关系型数据库处理结构化数据得心应手。所谓结构化数据就是那些具有固定列的表格数据,比如说:姓名、年龄、薪资、日期。这类数据精确匹配查询很简单:"Age > 25"或"Name = Subham"就能拿到想要的结果。
deephub1 个月前
人工智能·python·大语言模型·embedding·向量检索
向量数据库对比:Pinecone、Chroma、Weaviate 的架构与适用场景向量数据库存储 Embedding,也就是文本、图像或音频的数值表示,并在查询时检索语义上最接近的结果。RAG 系统正是基于这一机制运作。本文对比三个主流方案,每个都附有 Python 代码,均来自实际在生产环境中使用三者的经验。 三种选择:Pinecone 用于生产级规模,Chroma 用于本地原型开发,Weaviate 用于混合搜索。
YoanAILab1 个月前
知识库·向量检索·rag·bm25·rerank
RAG 知识库检索参数怎么调?一篇讲清 top_k、BM25、Rerank、各种阈值的区别很多人在刚开始做知识库问答、Dify 工作流、RAG 系统时,最容易遇到的问题不是“模型不够强”,而是:
尽兴-2 个月前
大数据·elasticsearch·jenkins·向量检索·去哪嗯检索·模糊匹配·地理空间查询
Elasticsearch Query DSL 进阶:高频查询范式与实战排坑本文基于 ElasticSearch 8.x 版本,详细总结 Query DSL(Domain Specified Language,领域专用语言)的核心用法、各类查询场景及实操技巧。Query DSL 是 ES 中最强大的检索方式,通过 Rest API 传递 JSON 格式请求体与 ES 交互,支持精确匹配、全文检索、布尔组合等多种复杂查询,兼顾功能性与实操性,同时配套思维导图梳理知识框架,助力开发者快速掌握并灵活运用 Query DSL 完成各类检索需求。
在未来等你2 个月前
langchain·知识库问答·向量检索·rag·ai agent·检索增强生成·技能开发
AI Agent Skill Day 11:RAG Retrieval技能:检索增强生成的技能封装【AI Agent Skill Day 11】RAG Retrieval技能:检索增强生成的技能封装在“AI Agent Skill技能开发实战”系列的第11天,我们聚焦于知识检索技能模块的核心能力——RAG(Retrieval-Augmented Generation)检索增强生成技能的封装。随着大语言模型(LLM)在开放域问答、智能客服、企业知识库等场景中的广泛应用,单纯依赖模型内部参数的知识已难以满足准确性、时效性和领域专业性的要求。RAG通过将外部知识库与生成模型动态结合,显著提升了回答的可靠性与
lihuayong2 个月前
人工智能·全文检索·向量检索·混合检索
混合检索架构:为什么BM25与向量搜索缺一不可实际生产环境中,主流方案是将两者结合:BM25不会消失,就像计算器没有取代算盘在特定场景的价值一样。这两种技术代表了信息检索的两个维度:精确性 vs. 语义性。真正的智能搜索系统需要同时掌握"字面"和"深意"。
Johnny.Cheung3 个月前
llm·向量检索·rag
面试:LLM RAG的三种算法和使用场景RerankingRAG(Retrieval-Augmented Generation)整体分为三个阶段:索引构建 → 检索 → 生成。
猿小羽4 个月前
自然语言处理·知识库·向量检索·rag·ai实战·检索增强生成
RAG 入门与实践指南近几年,生成式 AI 模型的发展速度惊人。然而,生成式 AI 往往受限于其训练数据,容易产生不可靠答案。为此,业界提出了溯源、更精准的生成方案——检索增强生成(Retrieve-augmented generation),简称 RAG。本文将全面解析 RAG 的概念、原理、优势以及如何成功地实践。
递归尽头是星辰4 个月前
人工智能·大模型·向量检索·rag·spring ai·向量库
大模型与向量检索的融合:从核心原理到 Spring AI 落地本文系统梳理大模型与向量检索的完整知识体系,从基础概念、核心技术模块出发,深入剖析二者基于 RAG 的协同融合机制,结合Spring AI实现工业级落地实践,并针对工程化部署、性能优化给出可落地的解决方案。内容覆盖嵌入模型、向量检索算法 / 数据库、RAG 基础 / 进阶流程、多场景应用。
deephub5 个月前
人工智能·大语言模型·向量检索·rag
大规模向量检索优化:Binary Quantization 让 RAG 系统内存占用降低 32 倍当文档库规模扩张时向量数据库肯定会跟着膨胀。百万级甚至千万级的 embedding 存储,float32 格式下的内存开销相当可观。
七夜zippoe5 个月前
架构·大模型·多模态·向量检索·clip
多模态模型实践 - 图文跨模态检索实战教程目录摘要1 引言:多模态检索的时代价值与挑战2 技术原理:跨模态检索的架构设计2.1 核心架构设计理念