AI核心技术体系笔记:大模型、智能体与关键支撑技术
本文系统梳理AI领域核心技术模块------大模型(LLM)、智能体(Agent)、提示词(Prompt)、检索增强生成(RAG)、工具调用(Function Calling)的定义、核心能力、应用场景及内在关联,构建完整的技术认知框架,助力理解AI技术的落地逻辑与价值边界。
一、基础核心:大模型(LLM)------AI能力的"原生引擎"
大模型是整个AI技术体系的基础组件,提供核心的自然语言理解与生成等基础智能能力,是后续技术延伸(如智能体、RAG等)的前提。
1.1 核心定义
基于Transformer架构、海量文本/多模态数据预训练的通用深度学习模型,通常具备数十亿至数万亿级参数,通过自监督学习掌握语言统计规律与语义逻辑,核心优势集中于自然语言理解与生成、代码补全、信息抽取、逻辑推理等基础智能能力,是人工智能的核心基础组件。
- 补充要点:强调Transformer架构与自监督学习的核心地位,明确参数规模与训练范式是大模型能力涌现的关键。
1.2 核心特征
- 无原生长期记忆:仅支持短期上下文记忆,依赖当前会话的上下文窗口(Token数量限制)存储临时信息,会话结束后记忆自动清空,无法跨会话复用数据;仅能通过外部工具(如向量数据库)实现长期记忆模拟。
- 被动响应模式:需依赖外部指令(Prompt)驱动运行,无自主设定目标、规划任务的意识,仅能针对输入指令输出对应结果,不具备主动感知与决策能力。
- 能力涌现特性:参数、数据规模达到阈值后,会涌现出小模型不具备的复杂推理、小样本学习等能力,这是大模型区别于传统AI的核心标志。
1.3 能力边界(核心短板)
- 上下文窗口有限:处理长文本时需分段输入,或结合检索工具辅助补充信息,窗口外信息难以有效关联。
- 实时数据获取受限:训练数据存在时间截止点,无法原生联网获取最新动态数据,需通过插件/API等工具扩展。
- 专业领域深度不足:通用模型在医疗、法律、工业等垂直领域的专业精度不足,需通过微调、RAG等方式提升适配度。
- 私域知识无法原生应答:未纳入训练数据的企业内部文档、专属客户数据等私域信息,模型无法原生应答,需通过知识注入解决。
- 存在"幻觉"风险:生成内容可能与事实不符,核心诱因是依赖参数记忆+短期上下文记忆,缺乏长期事实校验机制,在复杂推理与模糊信息场景中更易出现。
- 缺乏任务闭环能力:无法自主拆解复杂多步任务,也不能根据执行结果调整策略,需外部框架(如智能体)实现任务规划与反馈迭代。
1.4 适用场景
问答互动、文本摘要、内容改写、数据分类、语言翻译、代码草稿生成等单一、短流程任务。
-
场景示例:
-
内容创作:公众号文章初稿、产品文案生成;
-
办公效率:会议纪要自动整理、邮件智能回复;
-
研发辅助:代码片段补全、简单Bug排查;
-
数据处理:结构化数据分类、非结构化信息抽取。
二、能力升级:智能体(Agent)------大模型的"主动执行载体"
智能体以大模型为核心"大脑",通过整合多模块能力,解决大模型的被动响应和任务闭环短板,实现从"工具"到"系统"的升级。
2.1 核心定义
以大模型为核心"大脑",整合感知模块、决策规划模块、工具调用模块、记忆管理模块的完整智能系统,具备自主感知环境、设定目标、拆解任务并执行闭环的能力。
2.2 核心特征
- 具备长期记忆与状态管理:可通过外部数据库/向量库,维护任务全流程的关键信息与执行状态,支持跨步骤、跨场景复用记忆,从源头减少"脑补"需求,弥补大模型长期记忆缺失短板。
- 主动闭环能力:形成"感知→规划→执行→反思优化"的自主循环,无需人类持续干预,解决大模型被动响应与任务闭环缺失问题。
2.3 核心能力
- 任务拆解与规划:将复杂目标拆分为可执行的多步子任务,明确各步骤优先级与执行路径,适配复杂任务需求。
- 工具调用扩展:灵活调用外部工具(API、数据库、浏览器、RAG系统等),弥补大模型原生短板(如实时数据获取、专业领域精度不足等)。
- 动态调整策略:基于工具反馈与执行结果反思优化,应对任务中的变量与突发情况,保障任务推进的稳定性。
2.4 适用场景
自动化工作流搭建、数据采集与分析处理、长链路复杂任务(如项目开发辅助、活动策划)、智能运维、个性化助理等需自主闭环的场景。
-
场景示例:
-
项目开发辅助:自动拆解开发任务、分配模块、调用代码检查工具、生成开发进度报告;
-
智能运维:实时监测系统状态、识别异常、调用修复工具执行应急处理、记录运维日志;
-
个性化助理:根据用户日程规划每日行程、调用票务API预订交通、推送相关行程提醒。
2.5 与大模型的核心关联
- 大模型是智能体的"核心组件":为智能体提供基础的理解、推理能力,是决策规划模块的核心支撑,决定智能体的基础智能上限。
- 智能体是大模型的"落地载体":通过补充记忆管理、工具调用、任务闭环能力,让大模型从"被动响应工具"升级为"主动执行系统",适配复杂实际场景。
- 关键联动:智能体通过优化"记忆机制"(外部长期记忆)和"事实校验机制"(工具调用+RAG),针对性解决大模型的"记忆短板"与"幻觉风险",实现1+1>2的应用效果。
三、交互桥梁:提示词(Prompt)------驱动智能的"精准指令系统"
提示词是用户与大模型/智能体交互的核心媒介,通过结构化指令对齐双方预期,同时弥补大模型的部分原生短板(如幻觉、输出不规范等)。
3.1 核心定义
向大模型输入的结构化指令、问题或上下文信息的集合,用于精准引导模型理解任务目标、约束条件与输出要求,进而生成符合预期的结果。
3.2 核心作用
- 弥补大模型原生短板:明确任务边界与事实约束,减少"幻觉"风险;限定输出范式,降低后续内容加工成本。
- 对齐用户与模型预期:将模糊需求(如"写一篇好的文案")转化为模型可理解的明确指令(如"写一篇面向年轻女性的护肤品推广文案,风格活泼,突出保湿功效,300字以内"),避免生成内容偏离核心目标。
- 适配专业场景需求:通过角色与规则定义,让模型输出贴合特定领域(如前端开发、数据分析、医疗诊断)的专业内容,提升输出精准度。
3.3 核心组成(结构化Prompt六要素)
- 角色定位:明确模型的任务身份(如"资深Vue前端工程师""智能体任务规划师""医疗文案审核专家"),引导模型匹配对应角色的专业用语与思维逻辑。
- 任务描述:清晰阐述核心需求与达成标准,避免模糊表述,例如"生成Vue3商品列表组件代码,需支持下拉刷新与上拉加载,兼容移动端"。
- 工具调用要求(可选):针对智能体专属场景,明确需要调用的外部工具及调用规则,例如"调用浏览器检索Vue官方最新API文档,优先参考Composition API用法"。
- 工作流要求(可选):明确任务执行的步骤顺序与衔接规则,例如"先梳理组件核心功能点,再编写代码,最后添加详细注释",适用于多步骤、有先后顺序的复杂任务。
- 输出格式:指定内容的呈现类型与规范细节,例如"带详细注释的JavaScript代码""Markdown表格""分点式报告",同时明确排版、篇幅、版本兼容等要求。
- 参考示例(可选):提供1-2组输入输出范例,帮助模型快速理解任务标准,适用于复杂或定制化需求(如"按以下示例格式生成数据分类结果:输入:苹果;输出:水果-常见鲜果")。
- 约束条件:划定内容的边界与禁忌,例如"禁止编造未经验证的Vue API用法""回答长度控制在300字以内""避免使用专业术语,采用通俗表达"。
3.4 编写关键原则
- 结构化优先:避免大段无条理文本,采用分段、编号、分点形式明确逻辑关系,降低模型理解成本。
- 指令精准化:减少模糊表述,用具体、量化要求替代抽象描述,例如将"写一个组件"优化为"写一个基于Composition API的Vue3商品列表组件,支持分页功能"。
- 上下文适配性:多轮对话场景下,嵌入历史会话关键信息,利用模型短期上下文记忆提升回答连贯性,例如"基于上一轮生成的组件框架,补充搜索功能模块代码"。
3.5 使用场景
- 系统提示词:会话初始化时注入的全局指令,定义模型基础角色、通用规则与响应范式,贯穿整个对话,适用于长期稳定的交互场景(如企业智能客服的角色定义)。
- 用户提示词:针对具体需求输入的即时指令,补充任务细节、约束与输出偏好,适配单次/单轮任务(如临时生成一份会议纪要)。
四、知识增强:检索增强生成(RAG)------大模型的"开卷考试工具"
RAG通过融合外部知识库检索与大模型生成能力,针对性解决大模型的幻觉、私域知识缺失、知识滞后等核心短板,是大模型知识补充的核心技术框架。
4.1 核心定义
检索增强生成(Retrieval-Augmented Generation,RAG)是融合检索器(获取相关文档)与生成器(大模型)的技术框架,核心是生成答案前先从权威外部知识库(含私域文档、专业资料、实时数据等)检索相关事实信息,将其作为参考补充到提示词中,再驱动大模型生成准确、可追溯的结果,本质是为大模型提供"开卷考试"能力。
4.2 核心价值(精准解决大模型四大痛点)
- 对抗幻觉风险:回答基于检索到的真实权威内容,确保信息有依据且可溯源,显著降低编造错误信息的概率。
- 补充私域知识:通过检索企业内部文档、专属客户数据等私域资源,解决大模型"私域知识无法回答"的问题,无需对大模型进行全量微调。
- 保持知识新鲜:无需重新训练模型,仅更新外部知识库即可纳入最新信息(如行业新规、热点事件),突破训练数据时间局限。
- 提升专业精度:依托垂直领域权威资料(如医疗文献、行业规范、法律条文),让输出更贴合专业场景需求,提升垂直领域应用价值。
4.3 核心工作流程(五阶段闭环)
- 文档分块:将长文本(如PDF、企业手册、学术论文)拆解为语义完整的小块,平衡上下文完整性与检索精准度,避免因文本过长导致的检索偏差。
- 索引构建:通过嵌入模型(如BERT、Sentence-BERT)将文本块转换为高维向量,存入向量数据库(如FAISS、Chroma、Milvus),形成可快速检索的向量索引。
- 目标检索:将用户问题向量化后,在向量数据库中通过语义相似度匹配,召回语义最相关的Top-K文本块(K值可根据场景调整,通常为3-5),精准筛选有用信息。
- 提示增强:将检索到的文本片段与用户问题、任务要求、约束条件整合,构建结构化提示词,为大模型提供明确的事实参考。
- 生成输出:大模型基于增强提示词,整合参考信息生成流畅、准确的回答,同时可关联原始文档来源(如文档名称、页码),方便验证信息真实性。
4.4 关键技术细节
- 分块策略:常用固定尺寸分块(按Token数量拆分,设10%-20%重叠部分,保障语义连贯性)和递归分块(按段落、句子自适应拆分,适配结构化文档)。
- 检索核心:由嵌入模型(负责语义转换,决定向量表征的精准度)和向量数据库(负责快速近似匹配,决定检索效率)组成,二者共同影响检索质量。
- 溯源能力:生成结果时关联原始文档来源,实现"答案-依据"的一一对应,便于后续事实校验与责任追溯,适用于医疗、法律等严谨场景。
- 优化技巧:通过重排序模型(如Cross-BERT)过滤低相关度文本;通过上下文压缩减少Token占用,适配大模型上下文窗口限制;采用多轮检索补充遗漏信息,提升检索全面性。
4.5 主流应用场景
- 企业知识管理:如银泰商业通过RAG构建内部知识库,实现员工手册、业务流程、产品资料的快速查询,提升内部协作效率。
- 智能客服/问答:如伯俊科技"AI通识小助手",通过检索企业商品数据库,实现商品标签映射、库存调度等场景的秒级响应,提升客户服务体验。
- 专业领域支持:医疗诊断建议(检索临床指南、病例文献)、法律条文解读(检索法律法规、判例资料)、金融风险评估(检索行业政策、市场报告)。
- 长文本处理:论文辅助写作(检索参考文献、学术观点)、合同审核(检索法律条款、行业标准)、书籍摘要(检索核心章节内容)。
- 事实校验:对大模型生成内容的关键数据(如统计数据、政策条款)进行检索验证,修正过时或错误信息,保障内容准确性。
4.6 局限性与优化方向
- 现存局限:检索精度受嵌入模型性能与分块策略影响,易出现"漏检""误检";长知识库场景下(如百万级文档)存在检索效率瓶颈;无法直接处理非文本数据(如图片、音频、表格)。
- 优化方向:结合多模态嵌入模型支持跨媒体检索(如图片+文本混合检索);引入知识图谱提升结构化知识检索能力,解决文本检索的歧义问题;通过强化学习优化检索-生成联动逻辑,提升整体效果。
4.7 与其他技术的关联
- 与大模型:RAG是大模型的"能力延伸工具",无需改变大模型参数,通过外部知识补充的方式,低成本弥补其私域知识缺失、幻觉、知识滞后等短板。
- 与智能体:RAG是智能体的核心组成部分,为智能体提供稳定的外部知识检索能力,配合工具调用模块支撑复杂任务闭环(如智能体规划任务时,通过RAG检索相关流程规范)。
- 与提示词:RAG检索到的事实信息是提示词的重要组成部分,通过"问题+事实参考"的增强提示词,让大模型生成的内容更精准、有依据。
五、交互延伸:工具调用(Function Calling)------智能体的"现实交互接口"
Function Calling是大模型/智能体与外部系统交互的核心技术,让模型突破"纯文本生成"的局限,具备获取实时数据、执行专业操作的能力,是连接AI与现实世界的关键桥梁。
5.1 核心定义
Function Calling是大模型/智能体与外部系统、工具、API交互的核心技术,指模型根据任务需求自主识别并调用预设函数/接口,获取外部数据或执行特定操作,再将结果整合到生成内容中,本质是让模型具备与现实世界交互的能力。
5.2 核心价值(弥补大模型三大核心短板)
- 获取实时动态数据:调用浏览器、股票行情API、天气API等,解决大模型训练数据"时间截止点"问题,支持查询最新新闻、实时股价、当日天气等动态信息。
- 执行专业计算/操作:调用代码编译器、数据库查询接口、Excel工具等,完成复杂运算(如数学建模、统计分析)、数据读写(如查询企业销售数据库、修改表格数据)等任务。
- 联动第三方工具链:对接行业专属工具(如CAD设计接口、医疗影像分析工具、财务报销系统)、自动化工作流(如钉钉消息推送、邮件发送),拓展垂直领域落地场景。
5.3 核心工作流程(四步执行闭环)
- 任务解析与函数匹配:大模型接收指令后,分析任务所需的外部能力,从预设函数列表中匹配最合适的函数(明确函数名、入参格式、功能描述),判断是否需要调用工具。
- 参数生成与格式校验:模型根据任务需求生成函数所需的标准化入参(如调用"天气查询"函数时生成
city: 上海, date: 2025-12-19),并严格遵循预设格式(如JSON、XML),避免调用失败。 - 函数执行与结果返回:外部执行环境(如LangChain、AgentBuilder)调用目标函数/API,执行具体操作并获取结果(如返回上海当日天气"晴,10-18℃"),同时处理调用异常(如参数错误、接口超时)。
- 结果整合与生成输出:模型将外部工具执行结果与自身推理能力结合,生成自然语言回答,可标注数据来源(如"数据来源:XX天气API"),提升结果可信度。
5.4 关键技术细节
- 函数定义规范:需提供清晰的函数描述文档,包含功能说明、入参要求(名称、类型、必填项、取值范围)、出参格式、错误码说明,帮助模型准确理解函数功能。
- 格式约束与容错机制:通过Prompt强制模型输出标准化调用格式(如"所有函数调用必须采用JSON格式,示例:{"name":"get_weather","parameters":{"city":"上海","date":"2025-12-19"}}");设置容错逻辑,当参数缺失或格式错误时,主动追问用户补充信息,或重新生成参数。
- 安全管控策略:对调用权限分级管理(区分"只读接口"如数据查询、"读写接口"如数据修改、"执行接口"如系统操作),避免误操作风险;设置操作超时与异常处理机制(如接口调用超时后重试3次,失败则提示用户),避免任务中断。
5.5 与RAG的区别与协同
| 特性 | Function Calling(工具调用) | RAG(检索增强生成) |
|---|---|---|
| 核心目标 | 与外部工具交互,执行动态操作、获取实时数据 | 从静态知识库检索事实信息,补充模型知识 |
| 数据类型 | 实时动态数据、可执行操作结果 | 静态结构化/非结构化文档知识 |
| 核心优势 | 动态交互、实时性强、可执行操作 | 知识补充成本低、可溯源、稳定性高 |
| 应用场景 | 实时查询、专业计算、工具联动、自动化操作 | 私域知识问答、文档解读、事实校验、专业资料查询 |
协同模式:在智能体架构中,Function Calling与RAG形成互补------当RAG检索的静态知识不足以完成任务时,模型可调用工具获取实时数据;当工具调用需要专业知识支撑时,可通过RAG检索相关规范。例如"先从企业知识库(RAG)检索产品基础参数,再调用电商平台API(Function Calling)获取最新销量数据,最终生成销售分析报告",实现静态知识与动态数据的深度融合。
5.6 与大模型/智能体的关联
- 与大模型:Function Calling是大模型从"被动生成"转向"主动交互"的关键能力,但单独大模型的工具调用需依赖人工定义函数列表和格式约束,无法自主规划调用逻辑。
- 与智能体:Function Calling是智能体工具模块的核心技术,与任务规划模块、记忆模块深度联动------智能体可自主决定"何时调用工具、调用哪种工具、如何处理调用结果",并将执行结果存入长期记忆,用于后续决策优化,实现端到端的任务闭环。
5.7 典型应用场景
- 智能数据分析:调用企业数据库接口提取销售数据→调用Python编译器进行趋势建模→生成可视化分析报告→推送至管理层邮箱。
- 自动化办公助手:识别用户需求"整理本周会议纪要"→调用企业邮箱API获取会议邮件→调用语音转文字工具处理会议录音→生成纪要并推送至钉钉群。
- 实时信息查询助手:回答用户问题"今日上证指数收盘情况"→调用股票行情API获取实时数据→整合数据生成自然语言回答,标注数据来源与查询时间。
- 垂直领域工具联动:医疗智能体调用影像分析API处理CT影像→通过RAG检索相关病例文献→结合两者结果生成诊断建议;工业智能体调用设备传感器API获取运行数据→调用故障诊断工具识别异常→生成运维方案。
六、工作流------AI技术落地的"流程化载体"
工作流是AI技术从"零散能力"走向"规模化落地"的关键支撑,通过定义标准化的任务执行步骤、角色分工与衔接规则,将大模型、智能体、RAG、工具调用等技术模块串联起来,实现复杂业务需求的端到端闭环处理。其核心价值在于降低技术落地的复杂度,提升任务执行的稳定性与可复用性。
6.1 核心定义
AI领域的工作流是指为完成特定业务目标,对多步任务进行结构化拆解,明确各步骤的执行主体(大模型/智能体)、依赖资源(外部工具/知识库)、输入输出标准及衔接条件的流程框架。它并非独立技术,而是整合各类AI技术的"串联器",让分散的技术能力形成协同效应。
6.2 与核心技术模块的关联
- 与智能体:工作流是智能体任务规划的具象化呈现,智能体的"任务拆解与规划"能力需依托工作流定义的步骤逻辑,确保任务推进的有序性;同时,智能体的动态调整策略可反哺工作流优化,实现流程的柔性适配。
- 与提示词:提示词中的"工作流要求"是工作流在交互层的具体体现,通过向大模型/智能体传递步骤规则,引导其按预设流程执行任务;而工作流则为提示词提供了标准化的流程框架,避免步骤描述的模糊性。
- 与RAG+工具调用:工作流明确了RAG(静态知识补充)与工具调用(动态操作执行)的触发时机与衔接逻辑,例如"先通过RAG检索业务规范→再调用数据查询工具获取实操数据→最后由大模型生成分析报告",确保两类技术精准配合。
- 与大模型:大模型是工作流各步骤的核心执行单元,负责理解任务需求、处理文本信息、生成中间结果;工作流则为大模型限定了执行边界,避免其因缺乏流程约束而偏离任务目标。
6.3 核心类型与应用场景
- 固定流程型工作流:适用于步骤明确、规则固定的标准化任务,核心是通过流程固化提升效率。 - 场景示例:企业发票审核(步骤:调用OCR工具识别发票信息→通过RAG检索报销规范→调用财务系统校验金额→生成审核结果并推送)、客户咨询应答(步骤:接收用户问题→RAG检索知识库→大模型生成标准化回答→人工复核(可选)→推送结果)。
- 柔性适配型工作流:适用于需求多变、步骤存在不确定性的复杂任务,核心是结合智能体的动态调整能力实现流程适配。 - 场景示例:项目方案策划(步骤:明确策划目标→智能体拆解子任务(市场调研、需求分析、方案撰写等)→调用浏览器获取行业数据(工具调用)→RAG检索同类方案参考→大模型生成初稿→智能体反思优化→输出终稿)、个性化诊疗辅助(步骤:获取患者病历→调用影像分析工具处理检查结果→RAG检索临床指南→大模型生成初步诊疗建议→智能体结合医生反馈调整→形成最终方案)。
6.4 落地关键要点
- 步骤拆解颗粒度:平衡"精细化"与"高效性",过细的步骤会增加交互成本,过粗的步骤则会降低可控性;建议按"单一职责原则"拆解,确保每个步骤仅完成一项核心任务。
- 输入输出标准化:为每个步骤定义清晰的输入格式(如数据类型、参数要求)与输出标准(如结果格式、错误码规范),避免因数据不兼容导致流程中断。
- 异常处理机制:预设流程中断的应对策略,例如工具调用失败时的重试逻辑、RAG检索无结果时的兜底方案(如转人工处理)、大模型生成内容不符合要求时的重新生成规则。
- 可追溯性设计:记录工作流各步骤的执行日志(如执行时间、调用工具、生成结果、操作主体),便于后续问题排查、流程优化与责任追溯。
6.5 主流实现工具
落地工作流需依托专门的框架工具,实现流程的可视化搭建、执行与管理: - 通用框架:LangChain(支持与大模型、工具、RAG的深度集成,适合快速搭建简单工作流)、Airflow(侧重任务调度与监控,适合复杂定时工作流); - 低代码平台:Make(原Integromat)、Zapier(支持无代码拖拽搭建工作流,适配非技术人员使用); - 垂直领域工具:医疗领域的DrChrono(集成诊疗工作流与AI辅助能力)、企业办公领域的飞书多维表格(通过AI插件联动工作流)。
七、数据双引擎:数据库------智能体的业务操作与语义记忆载体
智能体的运行依赖两类数据库的协同支撑,二者分工明确,分别承载"业务数据操作"和"语义记忆检索"两大核心需求,是智能体实现"业务落地+记忆进化"的基础。其中,结构化数据库的功能提供了一种简单、高效的方式来管理和处理结构化数据,开发者和用户可通过自然语言插入、查询、修改或删除数据库中的数据。
7.1 核心分类与定位
| 数据库类型 | 核心定位 | 关联技术 | 操作方式 | 典型工具 |
|---|---|---|---|---|
| 结构化数据库 | 智能体操作真实业务数据的核心载体 | 工具调用(Function Calling) | 大模型生成SQL语句,直接增删改查;支持自然语言驱动的数操作 | MySQL、PostgreSQL、MongoDB(半结构化) |
| 向量数据库 | 智能体RAG与长期记忆的专属语义载体 | RAG、智能体长期记忆 | 嵌入模型生成向量+语义相似度检索,无SQL操作 | FAISS、Chroma、Milvus、Pinecone |
7.2 结构化数据库:智能体的"业务操作中枢"
7.2.1 核心定义
存储企业结构化业务数据(客户信息、销售订单、库存台账、任务日志等)的载体,其功能提供了一种简单、高效的方式来管理和处理结构化数据。智能体可通过大模型将用户自然语言指令转换为标准化SQL语句,直接对数据进行插入、查询、修改或删除,无需用户手动编写SQL,是连接AI与现实业务系统的唯一接口。
7.2.2 智能体操作流程(SQL驱动闭环)
- 需求解析:智能体接收自然语言指令(如"查询2025年12月北京地区的空调销量"),依托大模型提取核心条件(时间、地区、品类)。
- SQL生成与校验:大模型根据指令生成符合数据库语法的SQL语句,同时校验字段合法性与权限范围,示例:
SELECT product_model, sales_volume `` FROM sales_data ``WHERE sale_month = '2025-12' AND region = '北京' AND product_type = '空调'; - 权限管控与执行:智能体通过工具调用接口执行SQL,仅赋予"最小必要权限"(如查询类任务仅开放
SELECT权限,禁止DROP/ALTER等高危操作),避免误操作风险。 - 结果转化与反馈:将数据库返回的结构化结果,通过大模型转换为自然语言回答,同时可生成可视化图表(如柱状图)辅助呈现。
7.2.3 典型应用场景
- 销售业务:生成SQL查询客户历史订单、录入新订单数据、更新客户回款状态;
- 仓储管理:生成SQL扣减已发货商品库存、查询库存预警商品、新增入库记录;
- 任务日志:生成SQL记录智能体执行任务的时间、步骤、结果,用于后续流程追溯。
7.3 向量数据库:智能体的"语义记忆中枢"
7.3.1 核心定义
存储非结构化数据向量表征(用户对话历史、私域文档片段、任务经验总结等)的载体,不支持SQL操作,仅通过"嵌入模型+语义检索"为RAG和长期记忆提供支撑,是智能体实现"语义级记忆"的核心工具。
7.3.2 核心工作流程(语义检索闭环)
- 向量生成:通过嵌入模型(如Sentence-BERT、text-embedding-ada-002)将非结构化数据转换为高维向量,向量距离越近,代表语义相似度越高;
- 向量存储:将生成的向量存入向量数据库,通过近似最近邻(ANN)算法构建索引,提升检索效率;
- 语义检索:将用户新指令转为向量,在数据库中检索相似度最高的Top-K向量,映射回原始文本数据(如用户上周提到的"偏好简洁报告");
- 结果应用:将检索到的语义信息整合到提示词中,指导智能体生成个性化、上下文连贯的输出。
7.3.3 典型应用场景
- RAG知识检索:检索企业产品手册、技术文档的向量片段,为大模型提供精准事实参考,对抗幻觉;
- 用户记忆检索:检索用户历史对话向量,记住用户偏好(如"不喜欢专业术语")、需求(如"需要每周生成销售报告");
- 任务经验检索:检索同类任务的执行经验向量,复用成功策略(如"某类数据分析需调用特定API")。
7.4 两类数据库的协同逻辑(智能体视角)
以"生成客户个性化跟进报告"为例,看两类数据库的联动流程:
- 智能体接收指令:"生成客户李总的跟进报告,包含他的历史订单和上次提到的需求";
- 调用结构化数据库:大模型生成SQL,查询
customer_order表中李总的历史订单数据(订单号、金额、产品类型); - 调用向量数据库:将指令转为向量,检索与"李总上次需求"相关的对话向量,获取"需要定制化售后方案"的语义信息;
- 整合生成报告:大模型结合结构化订单数据和向量检索的需求信息,生成个性化跟进报告;
- 数据存储闭环:将报告内容转为向量存入向量数据库(更新长期记忆),同时将报告生成记录存入结构化数据库(更新任务日志)。
八、能力沉淀:长期记忆------智能体的"语义经验库"
智能体的长期记忆是基于向量数据库构建的语义级记忆系统,专注存储非结构化的交互经验与知识,支持跨会话复用,是智能体从"单次执行者"升级为"可进化伙伴"的核心能力。
8.1 核心定义
智能体依托向量数据库,对用户交互历史、任务执行经验、RAG检索知识进行语义化存储与复用的能力,核心特征是"语义关联检索",而非结构化数据的增删改查。
8.2 核心分类与存储载体
长期记忆的所有内容均以向量形式存储在向量数据库中,按用途分为三类:
| 记忆类型 | 存储内容 | 核心作用 | 检索触发条件 |
|---|---|---|---|
| 用户记忆 | 用户身份信息、沟通偏好(如"喜欢简洁表达")、历史需求(如"需要月度库存报告") | 实现个性化交互,避免重复提问,提升用户体验 | 接收到同一用户的新指令时 |
| 任务记忆 | 任务拆解步骤、工具调用策略、执行成功/失败经验(如"某API调用需传入region参数") | 复用同类任务经验,优化执行效率,减少试错成本 | 接收到同类任务指令时 |
| 知识记忆 | RAG检索到的权威知识(如产品参数、行业规范)、外部工具获取的关键信息 | 补充智能体专业知识储备,提升复杂任务的决策精度 | 接收到涉及专业领域的指令时 |
8.3 核心工作流程(向量驱动的记忆闭环)
8.3.1 记忆存储
智能体在任务执行过程中,将三类非结构化数据转换为向量,存入向量数据库:
- 用户交互数据:将用户对话内容(如"报告不要超过3页")通过嵌入模型转为向量;
- 任务执行数据:将任务拆解步骤、工具调用结果(如"调用天气API失败,因参数格式错误")转为向量;
- 知识数据:将RAG检索到的文档片段(如"产品A的保修期为2年")转为向量。
8.3.2 记忆检索
智能体接收新指令后,通过"语义匹配"检索相关记忆:
- 将新指令转为向量,在向量数据库中检索相似度最高的Top-K向量;
- 过滤冗余信息(如已失效的任务经验),优先检索高价值记忆(如用户长期偏好);
- 将检索到的记忆内容整合到提示词中,指导任务执行。
8.3.3 记忆更新与进化
任务完成后,智能体根据执行反馈更新记忆:
- 新增有效记忆:将成功的任务策略(如"查询销量需同时筛选时间和地区")转为向量存入;
- 标记无效记忆:将失败经验(如"某API已停用")标注为低优先级,避免后续复用;
- 记忆压缩:定期清理重复、过时的向量数据,提升检索效率。
8.4 关键技术挑战与优化方向
8.4.1 核心挑战
- 记忆冗余:长期积累的海量向量数据可能包含无效信息,导致检索效率下降;
- 语义歧义:相似表述可能被误判为不同语义(如"简洁报告"和"简短报告");
- 隐私风险:用户记忆包含敏感信息(如联系方式、业务需求),存在泄露风险。
8.4.2 优化方向
- 记忆清洗:基于使用频率和有效性,自动清理低价值向量数据;
- 语义增强:采用更先进的嵌入模型(如多模态嵌入),提升语义检索的精准度;
- 隐私保护:对用户敏感信息向量进行加密存储,设置检索权限分级。
8.5 与核心技术的关联
- 与向量数据库:向量数据库是长期记忆的唯一存储载体,没有向量数据库,智能体无法实现语义级的记忆与检索;
- 与RAG:RAG检索的知识是长期记忆的重要来源,而长期记忆中的知识可反哺RAG,提升后续检索的精准度;
- 与智能体:长期记忆是智能体"自主进化"的核心支撑,让智能体能够从历史经验中学习,而非每次从零开始。
九、技术体系核心逻辑总结
整个AI核心技术体系围绕"大模型能力延伸+智能体闭环落地"展开,形成"基础层-交互层-增强层-数据层-应用层"的五层协同架构,各模块分工明确、相互支撑,共同推动AI从"基础智能工具"走向"复杂业务系统"。
- 基础层:大模型(LLM)------ 原生智能引擎提供自然语言理解、生成、逻辑推理的核心能力,是整个技术体系的底层基础。其原生短板(被动响应、无长期记忆、易幻觉)是所有上层技术需要解决的核心目标,决定了体系的基础智能上限。
- 交互层:提示词(Prompt)------ 精准指令桥梁作为用户与AI系统的交互媒介,通过结构化指令对齐用户需求与模型能力,约束输出边界、减少幻觉风险。同时为智能体的任务规划、RAG的检索增强、工具调用的参数生成提供明确指引,是提升AI输出精准度的"低成本杠杆"。
- 增强层:RAG + 工具调用(Function Calling)------ 能力延伸双抓手从两个维度弥补大模型的核心短板,实现"静态知识+动态操作"的双重增强: