第四篇 Agent智能体开发专项
本篇定位:AI应用开发面试第二核心考点,占比约30%,覆盖从单Agent到多Agent、从框架原理到生产落地的全链路能力。中高级岗考察深度逐年提升,重点掌握核心原理、工程落地、问题排查与架构设计能力。
4.1 Agent核心原理与经典范式
核心题1:什么是AI Agent?和普通对话、RAG系统的核心区别是什么?
背诵要点
- 定义:目标驱动、能自主规划、调用外部工具、迭代反馈的智能系统,核心是「自主决策+外部行动」
- 普通大模型对话:被动问答,仅依赖模型内置知识,无外部执行能力,输出不产生真实业务动作
- RAG系统:增强知识库问答,本质仍是固定流水线的问答模式,无自主规划和执行能力
- Agent:目标驱动,自主拆解任务、调用工具、修正错误,可产生真实业务副作用,能力边界远超单纯问答
核心题2:ReAct框架的核心思想是什么?和思维链(CoT)有什么区别?
背诵要点
- ReAct = Reasoning(推理) + Acting(行动),推理与工具调用交替循环
- 标准流程:思考下一步动作 → 调用工具获取结果 → 基于结果继续推理 → 循环至任务完成
- 和CoT的区别:
- CoT是纯内部逻辑推理,仅在模型内部思考,无法获取外部信息,解决不了知识过时和事实性问题
- ReAct结合外部工具,能获取实时信息、执行真实操作,可落地性更强,是生产级Agent的基础范式
核心题3:Plan-and-Execute规划模式是什么?和ReAct相比有什么差异?
背诵要点
- 核心思想:先做全局规划,拆解为多份子任务,再逐个执行,执行过程中可动态调整计划
- 标准流程:理解目标 → 生成多步执行计划 → 按计划执行子任务 → 复盘调整计划 → 最终输出
- 和ReAct的差异:
- ReAct:走一步想一步,灵活度高,适合简单、开放、路径不确定的任务,容易跑偏和死循环
- Plan-and-Execute:先规划后执行,可控性强,适合复杂长流程任务,任务完成度更高
- 生产级趋势:两者结合,先做顶层规划,具体子任务用ReAct模式执行
核心题4:一个标准Agent由哪些核心模块组成?
背诵要点
六大核心模块,各司其职:
- 大模型推理层:Agent的大脑,负责规划、决策、推理、反思
- 记忆模块:保存会话历史、中间状态、长期知识与经验
- 工具集:外部能力入口,包括搜索、数据库、API、文件操作等
- 规划模块:任务拆解、路径规划、异常修正、动态调优
- 执行层:工具调用调度、结果回传、状态更新
- 评估反思模块:校验结果正确性、自我修正、沉淀经验
高频追问
-
Agent必须用大模型吗?小模型能不能做Agent?
- 不一定。固定流程、简单工具调用的规则化Agent,小模型加规则就能实现
- 复杂开放场景、自主规划、灵活推理、异常处理,必须用大模型
- 生产主流架构:大模型做规划调度,小模型做具体执行,分层降本提效
-
AutoGPT为什么生产落地很少用?
- 无边界规划,容易死循环、任务跑偏,可控性极差
- Token消耗极高,单任务成本不可控
- 任务成功率低,稳定性差,无法满足生产要求
- 生产级Agent都是限定场景、明确边界、可控流程,不会做无限制的通用Agent
-
Agent规划失败常见原因有哪些?怎么优化?
- 原因:任务理解偏差、工具边界描述不清晰、缺乏领域知识、异常场景未覆盖
- 优化:完善工具描述、加入少样本示例、引入自我反思机制、预设常见异常分支、通过人工反馈持续调优
4.2 Agent开发框架与选型
核心题1:主流Agent开发框架有哪些?各自适用场景是什么?
背诵要点
四大类框架,按需选型:
- LangChain / LangGraph :代码级框架,全球生态最完善
- LangChain:封装工具调用、RAG、记忆等基础能力,适合快速搭建简单Agent
- LangGraph:基于状态机架构,支持循环、条件分支、持久化状态,生产级复杂Agent首选
- Dify :国产企业级可视化平台
- 自带可视化工作流、RAG管线、Agent配置,低代码可快速落地
- 适合企业内部工具、非技术团队快速验证业务场景
- Coze(扣子) :字节跳动出品,零代码可视化平台
- 插件生态丰富,上手极快,适合个人开发者、小团队快速验证Demo
- AutoGen / CrewAI :专攻多Agent协作
- 内置成熟的分工协作模式,不用自研调度逻辑
- 适合多角色协同、流水线式的复杂任务场景
核心题2:LangGraph和LangChain的核心区别是什么?解决了什么痛点?
背诵要点
- LangChain:线性链式执行,状态管理弱,无法优雅处理循环、条件分支,适合简单单轮任务
- LangGraph:基于状态机的架构,是LangChain生态的进阶方案
- 原生支持循环推理、条件分支、人工介入,天然适配Agent思考-行动循环
- 内置持久化状态,支持断点续跑、任务中断恢复
- 执行步骤可控,可观测性更强
- 解决的核心痛点:LangChain链式结构无法满足Agent多轮迭代、状态持久化、复杂流程编排的需求
核心题3:什么时候选低代码可视化框架,什么时候选手写代码框架?
背诵要点
- 选低代码框架(Dify/Coze)的场景:
- 快速验证业务想法、做MVP原型
- 内部工具、简单业务场景,无深度定制需求
- 产品/运营等非技术团队主导的场景
- 选代码级框架(LangGraph等)的场景:
- 生产级复杂系统,需要深度定制逻辑
- 复杂工作流、多系统深度集成
- 对性能、可控性、可扩展性要求高
- 需要融入现有技术栈和工程体系
- 选型原则:简单场景优先低代码提效,复杂核心场景用代码级框架保障可控性
高频追问
-
从零手写Agent和用框架比有什么优劣?
- 手写优势:灵活度最高、完全可控、无框架依赖、无冗余逻辑
- 手写劣势:开发成本高、重复造轮子、需要自己踩所有坑
- 框架优势:开发快、生态完善、内置最佳实践、社区问题多易排查
- 框架劣势:有学习成本、API变动频繁、深度定制有约束
- 生产建议:绝大多数场景用成熟框架,极端定制化场景才考虑自研核心
-
框架更新太快、API经常变怎么办?
- 锁定稳定版本,不盲目追新
- 封装一层业务抽象层,框架只做底层实现,业务代码不直接依赖框架API
- 重点吃透底层原理,框架只是工具,原理是通用的
- 核心逻辑尽量轻量化,不重度依赖框架高级特性
4.3 工具调用工程与MCP协议
核心题1:Function Calling完整执行闭环是什么?
背诵要点
标准四步闭环,缺一不可:
- 定义:预先定义工具Schema,包括功能描述、参数结构、返回值说明
- 决策:大模型根据当前任务,判断是否需要调用工具、调用哪个工具、传入什么参数
- 执行:业务代码解析模型的调用指令,执行真实工具逻辑,获取执行结果
- 回传:将工具执行结果返回给大模型,模型基于新信息继续推理,直至任务完成
核心题2:工具Schema设计有哪些最佳实践?
背诵要点
- 单一职责:一个工具只做一件事,避免大而全的万能工具,降低模型理解成本
- 描述清晰:功能描述准确,写明适用场景和边界,减少模型误用
- 参数强类型:明确参数类型、必填/选填、枚举值范围,减少参数错误
- 结构化拆分:复杂参数拆分为多个明确字段,避免模糊的字符串参数
- 返回值规范:明确返回格式和字段含义,错误信息也要结构化返回,方便模型处理
核心题3:工具调用有哪些常见异常?怎么处理?
背诵要点
五大常见异常与对应方案:
- 参数格式错误 :参数缺失、类型错误、取值非法
- 处理:前置参数校验,不合法则返回错误信息,让模型重新生成参数
- 工具执行失败 :网络错误、下游服务异常、业务逻辑报错
- 处理:结构化返回错误信息和原因,让模型决定重试或更换方案
- 循环重复调用 :相同工具相同参数反复调用,陷入死循环
- 处理:设置最大执行步数,重复调用检测,触发后引导反思换方法
- 幻觉调用 :模型调用不存在的工具
- 处理:工具白名单校验,不存在则返回提示,引导使用已有工具
- 返回结果过长 :工具返回内容太多,上下文溢出
- 处理:工具侧做摘要、分页,或让模型指定需要的字段,二次查询
核心题4:什么是MCP协议?和传统工具接入比有什么核心优势?
背诵要点
- 定义:模型上下文协议(Model Context Protocol),是Agent对接外部工具与数据源的行业标准接口
- 核心优势:
- 一次实现,处处调用:工具端只需实现一次MCP接口,所有支持MCP的Agent都能直接调用,告别重复适配开发
- 标准化企业级能力:内置权限控制、异步任务、UI交互渲染等标准能力,不用每个工具重复开发
- 解耦架构:Agent和工具完全解耦,工具升级、更换不影响Agent逻辑
- 生态爆发:已成行业事实标准,主流大模型厂商全量适配,社区成熟工具丰富
高频追问
-
多个无依赖的工具可以并行调用吗?怎么实现?
- 可以,能大幅缩短总任务耗时
- 实现:模型一次性返回多个独立的工具调用指令,业务层并行执行所有工具,全部完成后统一回传给模型
- 注意:先判断工具间是否有依赖关系,有依赖的必须串行执行
- 适用场景:多份信息检索、多个独立数据查询
-
工具调用的幂等性怎么保证?
- 每个工具调用生成唯一请求ID,工具侧做去重校验
- 查询类工具天然幂等,写入类工具加幂等键
- 断点续跑时,已执行成功的步骤标记状态,不再重复执行
- 有副作用的操作,必须设计幂等机制,避免重复执行产生业务损失
-
工具返回结果太长,上下文塞不下怎么办?
- 工具侧支持分页、字段筛选,只返回核心信息
- 对返回结果做摘要压缩,提取关键内容
- 让模型明确指定需要的信息,工具做二次精准查询
- 分多次调用,分批处理结果,逐步推理
4.4 状态管理与分层记忆系统
核心题1:Agent的三层记忆架构是什么?各自的作用和存储方式?
背诵要点
经典三级记忆体系,模拟人类记忆机制:
- 工作记忆
- 作用:当前任务的上下文、中间推理结果、临时状态
- 存储:程序内存、滑动窗口,随任务结束释放
- 时长:分钟级,容量有限
- 短期记忆
- 作用:单轮会话的完整交互历史、执行轨迹
- 存储:Redis、内存数据库
- 时长:小时到天级,会话结束后可保留一段时间
- 长期记忆
- 作用:用户偏好、领域知识、成功经验、行为习惯
- 存储:向量数据库 + 关系型数据库
- 时长:永久存储,按需召回
- 核心原则:分层存储、按需召回,控制上下文体积,避免信息过载
核心题2:长对话上下文溢出怎么解决?
背诵要点
五种主流方案,可组合使用:
- 滑动窗口:只保留最近N轮对话,丢弃最早的内容,实现最简单
- 摘要压缩:对历史对话做总结摘要,用压缩后的摘要替代完整原文,保留全局信息
- 记忆召回:把历史记忆向量化,只召回和当前任务相关的片段,不全量塞入上下文
- 状态外移:工具执行结果、中间状态等数据存在外部存储,上下文只保留核心推理信息
- 长上下文模型:更换更大窗口的模型,作为兜底方案,成本更高
核心题3:Agent任务中断后,怎么实现断点续跑?
背诵要点
- 核心依赖:持久化的状态存储
- 完整实现流程:
- 每执行完一个步骤,就将当前状态(已完成步骤、中间结果、待执行任务、错误信息)持久化到Redis或数据库
- 任务中断重启后,读取历史状态,定位中断节点
- 从断点处继续执行,已完成步骤不重复调用
- 配套要求:
- 工具调用支持幂等,避免重复执行产生副作用
- 状态包含完整的上下文信息,保证恢复后推理不中断
- 异常节点记录错误信息,恢复后可重试或跳过
核心题4:记忆的召回和遗忘机制怎么设计?
背诵要点
召回机制:
- 相关性召回:基于向量相似度,召回和当前任务最相关的记忆
- 时效性加权:近期记忆权重更高,远期记忆权重降低
- 重要性加权:关键决策、成功经验、用户偏好优先级更高
- 混合召回:关键词匹配 + 语义相似度结合,提升召回准确率
遗忘机制:
- TTL过期:短期记忆设置过期时间,自动清理
- 低频淘汰:长期不访问、不重要的记忆自动归档或淘汰
- 冲突更新:新的正确记忆覆盖旧的错误记忆
- 摘要合并:相似的记忆合并摘要,减少冗余
高频追问
-
滑动窗口和摘要压缩各有什么优劣?怎么选?
- 滑动窗口:实现简单、信息无损失;长对话会丢失早期关键信息
- 摘要压缩:保留全局信息,上下文体积小;有细节损失,实现复杂
- 选型:短对话用滑动窗口,长对话用「早期摘要 + 近期滑动窗口」结合的方案
-
会话记忆为什么不建议参与检索?
- 历史话题会干扰当前检索,导致召回偏移
- 指代、省略语会让检索Query不完整,降低召回准确率
- 最佳实践:检索只基于当前问题(可做指代消解),记忆只辅助生成环节
-
长期记忆和RAG知识库有什么区别?
- RAG知识库:公共知识、文档资料,面向所有用户,结构化程度高
- 长期记忆:个性化信息、用户偏好、历史交互经验,面向单个用户/会话
- 技术上都可以用向量数据库存储,但数据来源、使用场景、更新频率不同
4.5 多Agent协作架构
核心题1:多Agent系统相比单Agent有什么优势?适用哪些场景?
背诵要点
核心优势:
- 专业分工:每个Agent专注一个领域,专业度更高,输出质量更好
- 效率提升:无依赖的子任务可并行处理,缩短整体耗时
- 降低幻觉:多Agent交叉验证、互相评审,提升结果准确性
- 拆解复杂任务:把复杂大任务拆分为小任务,降低单Agent难度,提升成功率
典型适用场景:
- 长流程流水线任务:调研→分析→写作→校对
- 多领域专业任务:需要不同领域知识协同完成
- 高准确率要求场景:多Agent辩论评审、交叉校验
- 大规模并行任务:批量处理多份同类任务
核心题2:常见的多Agent协作模式有哪些?
背诵要点
四种经典模式,适配不同场景:
- 流水线模式
- 按任务阶段分工,顺序执行,前一个Agent的输出是后一个的输入
- 适合:标准化、流程固定的任务,如内容生产流水线
- 主从调度模式
- 一个总管Agent统筹调度多个专业子Agent,负责分配任务、整合结果、把控全局
- 适合:复杂开放任务,场景多变,需要动态分配工作
- 辩论评审模式
- 多个Agent分别输出方案,互相评审、质疑、迭代优化,最后输出最优结果
- 适合:高决策质量、低容错的场景,如方案评审、风险评估
- 自由协作模式
- Agent之间平等通信,自主协商分工,自发协作
- 适合:科研探索、创意类场景,灵活性最高但可控性最差
核心题3:多Agent之间怎么通信?怎么解决信息同步问题?
背诵要点
主流通信方式:
- 共享状态模式:通过统一的全局状态存储共享信息,所有Agent读写同一份状态
- 消息传递模式:通过消息队列或直接调用传递信息,Agent间点对点通信
- 协调者中转模式:由调度Agent统一收发信息,所有子Agent只和调度者交互,避免点对点混乱
信息同步方案:
- 全局状态唯一数据源,所有变更都通过统一入口更新
- 版本号机制,防止并发写冲突,乐观锁控制
- 关键资源操作加分布式锁,避免并发修改
- 事件广播机制,状态变更后主动通知相关Agent
高频追问
-
怎么避免多Agent沟通成本过高、效率反而下降?
- 明确职责边界,避免职责重叠和重复劳动
- 统一调度器,避免点对点的混乱通信
- 标准化信息格式,减少理解和对齐成本
- 控制Agent数量,不是越多越好,简单任务单Agent更高效
- 减少不必要的交互次数,一次传递完整信息
-
多个Agent意见不一致时怎么裁决?
- 设置主Agent做最终决策,负责制衡和拍板
- 投票制,多数意见胜出,适合评审类场景
- 引入专门的评审Agent,独立做最终裁决
- 高风险、高重要性场景,最终提交人工决策
-
多Agent系统的常见坑有哪些?
- 通信开销大,交互轮次多,成本和耗时飙升
- 职责不清,互相推诿或重复工作
- 错误传导,一个Agent出错,后续全部跑偏
- 调试难度大,链路长问题难定位
- 过度设计,简单问题用多Agent,反而更复杂
4.6 Agent工程化落地与性能优化
核心题1:生产级Agent为什么需要消息队列?解决什么核心痛点?
背诵要点
- 核心解决:同步执行用户等待久、长耗时任务阻塞线程、系统耦合度高的问题
- 具体价值:
- 异步解耦:用户提交任务立即返回处理中,后台异步执行,彻底告别无效等待
- 削峰填谷:突发流量缓冲排队,避免瞬间打垮大模型和下游服务
- 可靠重试:任务失败自动重试,提升任务成功率
- 组件解耦:Agent和下游工具通过队列解耦,可独立迭代扩容
核心题2:工作流编排工具和Agent框架是什么关系?什么时候需要?
背诵要点
- 关系:互补而非替代。Agent框架负责智能决策、推理逻辑;工作流编排负责任务的可靠执行
- 工作流核心能力:自动重试、超时控制、断点恢复、分布式调度、持久化执行
- 需要引入工作流的场景:
- 长耗时、多步骤的生产级任务,需要高可靠性
- 需要断点续跑、中断恢复的任务
- 跨系统、多服务协同的复杂流程
- 需要定时触发、延迟执行的任务
- 典型选型:Temporal、XXL-JOB、PowerJob,轻量场景也可用LangGraph替代部分能力
核心题3:Agent全链路耗时怎么优化?
背诵要点
分层优化,从用户感知到系统吞吐全面提升:
- 模型层
- 分级模型路由,简单任务用小模型
- 流式输出(SSE),首字快速返回,降低用户感知等待
- 推理加速框架提升吞吐
- 工具层
- 工具结果缓存,高频调用直接返回
- 无依赖工具并行调用,缩短总耗时
- 优化第三方接口超时,就近部署
- 架构层
- 异步化非关键步骤,先返回再处理
- 进度实时推送,降低用户等待焦虑
- 减少网络传输,服务同可用区部署
- 产品层
- 执行过程可视化,展示当前步骤,提升体验
核心题4:Agent的容灾降级体系怎么设计?
背诵要点
五层兜底,保障服务高可用:
- 模型降级:主模型不可用、超时、限流时,自动切换备用模型
- 工具降级:核心工具故障时,切换备用工具或降级为纯模型回答
- 流量削峰:高并发时限流排队,非核心功能临时关闭
- 熔断机制:连续失败触发熔断,快速返回失败,避免雪崩效应
- 兜底回复:极端故障场景,返回预设兜底话术,引导用户稍后重试
高频追问
-
Agent任务执行超时怎么处理?
- 设置单步超时和总任务超时双重阈值
- 超时后触发重试,重试失败转降级方案
- 记录超时异常,用于后续优化
- 主动通知用户任务状态,避免无响应的体验
- 长耗时任务用异步+回调模式,不阻塞用户
-
生产环境监控Agent的核心指标有哪些?
- 效果类:任务成功率、工具调用准确率、异常率、死循环发生率
- 性能类:平均任务耗时、首响应时间、Token消耗速度
- 资源类:模型QPS、线程池水位、消息队列堆积量
- 成本类:单次任务成本、日总Token消耗、工具调用费用
- 安全类:风险操作拦截率、越权尝试次数
-
大模型API限流时怎么应对?
- 消息队列削峰,任务排队异步执行
- 降级策略:简单任务切换为小模型处理
- 触发限流时返回排队状态给用户,告知预计等待时间
- 配置多厂商备用模型池,分摊流量
- 配额预警,快达上限时提前降级
4.7 安全合规与人在回路
核心题1:Agent调用工具有哪些安全风险?怎么分层防控?
背诵要点
四大核心风险:越权操作、恶意代码执行、数据泄露、误操作产生业务损失
五层防控架构:
- 权限层:最小权限原则
- Agent只分配完成任务必需的最小权限,杜绝过度授权
- 不同业务线、不同角色的Agent权限隔离
- 执行层:沙箱隔离
- 代码执行类工具放在Docker/Wasm沙箱中运行,限制资源、禁止网络访问
- 敏感操作环境隔离,不触碰生产核心数据
- 校验层:参数与行为校验
- 工具执行前校验参数合法性,过滤恶意内容
- 高危操作自动识别拦截
- 审计层:全链路留痕
- 所有工具调用全量日志记录,支持完整回溯审计
- 操作人、操作时间、入参出参完整记录
- 人工层:高危操作人在回路
- 高风险操作必须人工确认后才能执行
核心题2:什么是人在回路(Human-in-the-Loop)?哪些场景必须加?
背诵要点
- 定义:高风险环节暂停Agent执行,等待人工确认通过后再继续执行
- 核心价值:平衡自动化效率与风险,降低Agent误操作带来的损失
必须加人在回路的场景:
- 产生真实业务副作用:发送正式邮件、修改生产数据、删除资源、执行支付
- 高风险决策:合规审批、客户投诉回复、对外正式公告发布
- 低置信度场景:Agent判断不确定、首次执行的新类型任务
- 涉及敏感数据、用户隐私的操作
核心题3:怎么防御Prompt注入攻击,诱导Agent执行恶意工具?
背诵要点
分层防御,多重兜底:
- 系统Prompt加固
- 明确指令优先级,禁止用户指令覆盖系统规则
- 强调安全边界和禁止行为
- 输入检测
- 用户输入做注入检测,过滤恶意指令、越狱话术
- 对外部工具返回的内容也做安全校验,防止间接注入
- 工具白名单
- Agent只能调用预定义的白名单工具,禁止执行未知操作
- 工具本身有权限边界,就算被调用也无法越权
- 输出校验
- 工具调用前做二次校验,判断是否符合当前任务目标
- 异常调用自动拦截,不执行
- 权限兜底
- 工具侧严格的权限控制,是最后一道防线
核心题4:代码执行沙箱有哪些方案?怎么选型?
背诵要点
三种主流方案,各有适用场景:
- Docker容器沙箱
- 优势:隔离彻底,可限制CPU、内存、网络、磁盘
- 劣势:启动慢、资源占用高
- 适合:重任务、长时间运行、对隔离要求高的场景
- Wasm沙箱
- 优势:启动极快、资源占用低、安全性好
- 劣势:支持的语言和能力有限
- 适合:轻量代码执行、短任务、高并发场景
- Serverless函数
- 优势:天然隔离、免运维、弹性扩容
- 劣势:冷启动、成本较高
- 适合:波动大、调用频率不固定的场景
高频追问
-
Agent生成的SQL怎么防止删库、拖库?
- 数据库账号只给只读权限,禁止写操作
- SQL语法白名单校验,禁止DROP、DELETE、UPDATE等危险语句
- 限制查询行数和执行超时,防止全表扫描拖库
- 高危查询执行前必须人工确认
- 走专用只读从库,不碰主库,避免影响业务
-
只靠Prompt做安全约束为什么不行?
- 大模型存在指令逃逸风险,Prompt注入可以绕过约束
- 非确定性输出,无法100%保证遵守规则
- 工具侧如果没有权限限制,一旦被调用就会造成损失
- 核心结论:Prompt安全只能做辅助,系统层权限和校验才是底线
-
数据合规方面需要注意什么?
- 国内落地遵守《数据安全法》《个人信息保护法》
- 涉及个人信息的场景,做好脱敏和授权
- 调用海外大模型要注意数据出境合规风险
- 敏感数据优先用私有化部署的国产模型
- 全链路数据加密,访问留痕可审计
4.8 Agent评估体系
核心题1:Agent评估和传统软件、RAG评估有什么区别?
背诵要点
- 传统软件:输出确定,用单元测试、断言校验,标准明确
- RAG评估:评估召回准确率、答案相关性,输出相对固定,链路短
- Agent评估:输出非确定性、过程多步可变、路径不唯一,核心评估端到端任务完成度和过程合理性
- Agent评估的难点:成功路径不唯一、多步误差传导、任务成功标准难量化、成本更高
核心题2:Agent评估的核心指标有哪些?
背诵要点
五大维度全面衡量:
- 效果指标
- 端到端任务成功率、答案准确率、幻觉率
- 工具调用准确率、规划合理性
- 过程指标
- 平均执行步数、无效调用占比
- 异常发生率、死循环发生率
- 自我修正成功率
- 性能指标
- 任务平均耗时、首响应延迟
- 系统吞吐量、并发能力
- 成本指标
- 单次任务Token消耗、平均成本
- 工具调用成本、基础设施成本
- 安全指标
- 越权操作率、风险操作拦截率
- 注入攻击防御成功率
核心题3:怎么自动化评估Agent的任务效果?
背诵要点
「规则校验 + LLM-as-Judge」结合的方案:
- 构建标准化测试用例集
- 覆盖正常场景、异常场景、边界场景、对抗场景
- 每个用例明确任务目标和成功标准
- 自动化执行
- 批量运行所有测试用例,记录完整执行轨迹
- 每次代码、Prompt、模型变更后自动跑回归
- 规则层校验
- 校验工具调用是否正确、参数是否合法
- 校验是否越权、是否超出任务边界
- 校验输出格式、关键信息是否符合要求
- 大模型评委
- 用更强的大模型做评委,从任务完成度、逻辑合理性、信息准确性等维度打分
- 结果分析
- 统计各项指标,生成版本对比报告
- 定位失败case,归因分类,指导优化
高频追问
-
LLM-as-Judge本身有偏见、不稳定怎么办?
- 用更强的模型做评委,提升可靠性
- 多模型交叉评测,取综合结果
- 制定详细的打分标准和参考示例,减少主观偏差
- 人工抽检校准,定期调整打分Prompt
- 关键指标用规则校验兜底,不完全依赖大模型
-
任务成功率一直上不去,一般从哪些方向排查?
- 先看工具描述:工具描述是否清晰,模型是否理解能力和边界
- 再看规划能力:任务拆解是否合理,有没有明显的规划错误
- 再看异常处理:遇到错误是否能自我修正,还是直接卡死
- 再看记忆和上下文:信息是否完整,有没有关键信息丢失
- 最后看模型能力:是不是模型能力不足以支撑复杂任务
-
评估成本太高怎么办?
- 分级测试:核心场景全量跑,边缘场景抽样跑
- 小模型初筛:先用小模型快速初评,有问题的再用大模型复评
- 缓存结果:相同用例相同版本不重复评测
- 重点回归:只跑变更影响到的相关用例,不全量跑
4.9 实战场景设计题
核心题1:Agent执行任务陷入死循环,怎么检测和处理?
背诵要点
检测手段:
- 硬限制:设置最大执行步数,超过强制终止,是最后一道防线
- 重复检测:相同工具+相同参数连续调用N次,判定为死循环
- 无进展检测:连续多轮任务状态无推进、结果无新信息
- 超时检测:总任务超时、单步骤超时
处理方案:
- 触发自我反思:注入提示,让Agent复盘问题,重新规划路径
- 引导干预:主动提示更换工具、更换方法,跳出循环
- 强制终止:多次尝试无效后,强制终止任务,返回失败原因
- 转人工处理:复杂场景提交人工介入
- 沉淀bad case:记录循环原因,用于后续优化Prompt、工具描述
核心题2:设计一个自动数据分析Agent,核心架构是什么?
背诵要点
五层标准架构:
- 交互层:接收用户自然语言需求,流式返回执行过程和最终结果,支持图表、文件导出
- 规划层:理解分析需求,拆解为数据提取、数据清洗、分析计算、可视化等子步骤
- 工具层:SQL查询工具、Python代码执行沙箱、图表生成工具、文件导出工具
- 记忆层:保存分析上下文、历史分析经验、数据元信息
- 安全层:数据权限过滤、代码沙箱隔离、高危操作人工确认
- 关键设计点:代码执行必须沙箱化,数据访问严格权限控制,分析过程可追溯
核心题3:设计一个智能客服Agent,怎么平衡自动化和人工介入?
背诵要点
分层处理机制,逐级升级:
- 第一层:简单问题全自动
- FAQ匹配、知识库问答,Agent直接回答
- 常见业务查询,调用系统工具自主处理
- 第二层:复杂问题辅助处理
- 复杂业务问题,Agent调用业务工具查询信息,自主处理
- 低置信度时主动确认信息
- 第三层:自动转人工
- 触发条件:用户明确要求人工、连续2轮未解决、用户负面情绪强烈、超出处理权限
- 转人工时附带完整上下文和历史记录,减少人工重复询问
- 第四层:人工反馈沉淀
- 人工处理的问题,自动沉淀到知识库,优化Agent能力
- 持续迭代,逐步提升自动化率
高频追问
-
从零搭建企业级Agent平台,整体架构怎么设计?
- 接入层:API网关、鉴权、限流、SSE流式输出、前端交互
- 编排层:Agent运行时、状态管理、工具调度、工作流引擎
- 能力层:模型网关、向量检索、工具市场、记忆服务、权限控制
- 基建层:消息队列、缓存、数据库、可观测性、日志监控
- 运营层:评估体系、反馈闭环、Prompt管理、数据分析
-
Agent怎么和现有业务系统集成?有哪些难点?
- 集成方式:API对接、数据库对接、前端嵌入、MCP标准协议接入
- 核心难点:权限体系打通、数据安全、业务系统稳定性影响、旧系统无API
- 落地原则:低侵入、可降级、可审计、不影响主业务流程
- 优先从读操作、查询类场景切入,再逐步扩展到写操作
4.10 前沿趋势
核心题1:什么是端云协同Agent?有什么优势?
背诵要点
- 核心架构:端侧Agent + 云端Agent混合协作
- 端侧:处理日常交互、简单任务、敏感数据计算、系统级工具调用
- 云端:负责复杂推理、大规模知识检索、模型微调、长期记忆同步
- 核心优势:
- 极低延迟:本地推理响应快,无需等待网络传输
- 隐私安全:敏感数据完全不出设备,合规性强
- 离线可用:无网络环境也能完成基础任务
- 成本最优:简单任务本地处理,复杂任务上云,降低云端成本
- 适用场景:消费级产品、移动端、IoT、车载等端设备场景
核心题2:多模态原生Agent和传统Agent有什么区别?
背诵要点
- 传统Agent:文本大脑 + 多模态插件,先把图片/音频转文本再推理,信息损失大
- 多模态原生Agent:在统一特征空间中同时处理文本、图像、音频、视频,多模态平等参与推理
- 核心能力升级:
- 视觉思维链:像人类一样逐步分析视觉内容,推理更准确
- GUI原生操作:直接看懂软件界面,通过模拟键鼠完成跨应用操作,不需要对方提供API
- 多模态输出:同时生成文字、图片、语音等多类型结果
- 落地场景:工业质检、UI自动化测试、智能办公、视频内容理解等
核心题3:自主进化Agent的核心特征是什么?
背诵要点
从被动执行者向主动思考者演进,四大核心特征:
- 自主任务拆解:用户只给高层目标,自动拆分子步骤、选择工具、规划路径
- 自我反思修正:执行中自动校验结果,发现错误自主回溯修正,不需要人工干预
- 经验沉淀复用:成功完成的任务自动沉淀为经验,同类任务直接复用最优路径,越用越高效
- 自适应规划:根据环境变化、工具返回结果,动态调整执行计划,不死板执行初始方案
高频追问
-
未来1-2年Agent技术的核心演进方向是什么?
- 标准化:MCP等协议普及,工具生态标准化,适配成本大幅降低
- 工程化:可观测性、评估体系、安全体系逐步成熟,生产落地门槛降低
- 端侧化:端侧模型能力提升,端云协同成为主流部署形态
- 多模态:从文本Agent走向原生多模态Agent,能力边界大幅拓展
- 专业化:从通用Agent走向垂直领域深度优化的行业Agent
-
多Agent协作未来的发展趋势是什么?
- 协作协议标准化:跨框架、跨厂商的Agent可以直接互相协作
- 角色动态化:按需动态生成Agent,任务完成后释放,资源利用率更高
- 托管化:云厂商提供多Agent即服务,开发者只需要实现业务逻辑
- 人机协同:人和多Agent无缝协作,各自发挥优势