Agent
1. 任务规划与拆解 (Reasoning & Decomposition)
- 递归深度失控:任务拆得太细导致逻辑迷失,或拆得太粗无法执行。
- 目标漂移 (Goal Drift):长流程中 Agent 忘记了最初的最终目标。
- 不可逆决策风险:在缺乏"回滚"机制的现实环境中误操作(如误删数据)。
- 动态重规划:环境变化(如 API 报错)时,Agent 无法实时修正后续步骤。
2. 状态管理与上下文 (State & Context)
- Token 损耗陷阱:为了保持记忆,频繁携带大量历史记录导致成本飙升。
- 信息检索噪声 (RAG Noise):从向量库中搜到了无关信息,干扰了 Agent 判断。
- 写时冲突 (Write-Write Conflict):多个 Agent 同时修改同一文件或数据库。
- 长期偏好对齐:Agent 无法准确区分用户的"临时指令"与"长期习惯"。
3. 环境感知与执行 (Perception & Actuation)
- DOM 结构爆炸:网页节点过多导致模型无法定位点击按钮。
- 低频极端情况 (Edge Cases):如弹窗遮挡、网络波动、登录失效等异常处理。
- 工具描述失真:API 文档写得不清楚,模型猜不到参数的具体含义。
- 视觉空间误判:在 Computer Use 任务中,模型分不清坐标和实际像素位置。
4. 评价与可靠性 (Evaluation & Reliability)
- 非确定性测试:代码完全没变,但 Agent 两次运行的结果天差地别。
- 黑盒排查难:难以追踪 Agent 在几十步操作中,哪一步开始产生了逻辑偏差。
- 安全沙箱逃逸:防止 Agent 通过生成的脚本攻击底层宿主机。
- 幻觉注入执行:模型"一本正经"地生成了一个不存在的 API 参数并成功调用。
5. 多体通信与协议 (Communication & Protocols)
- 消息格式碎裂:不同模型、不同 Agent 之间 JSON/XML 协议不统一。
- 死锁与循环调用:Agent A 等 Agent B,B 也在等 A,导致系统卡死。
- 信息衰减:指令在多层 Agent 传递过程中,关键信息逐层丢失。
- 协同资源竞争:多个 Agent 争抢有限的任务配额或计算资源。
6. 工程效率 (Efficiency)
- 端到端延迟 (E2E Latency):思考 + 调工具 + 二次思考过程太慢,用户无法等待。
- 冷启动成本:每个新任务都需要人工编写冗长的提示词(Prompt Engineering)。
- 版本碎片化:底层大模型升级后,原有的 Agent 提示词和逻辑全部失效。
7. 工具调用
8.权限隔离管理
9.并发执行
10. 浏览器操作search
11. 错误回馈机制
RAG
1. 数据清洗与分块 (Data Processing & Chunking)
- 语义断裂:分块(Chunking)时截断了关键上下文,导致检索片段无意义。
- 非结构化解析:PDF 中的复杂表格、多栏排版、图片嵌套识别失败。
- 噪声干扰:页眉页脚、广告内容进入索引,稀释了关键信息的权重。
- 多格式统一:Word, Markdown, HTML 等不同格式转换为标准向量时的特征损失。
2. 索引与检索优化 (Indexing & Retrieval)
- 检索漂移 (Retrieval Drift):Query 与文档语义匹配,但事实内容完全无关。
- 向量维度灾难:大规模数据下,向量检索的精度下降与查询延迟增加。
- 多路召回失衡:向量检索(语义)与传统 BM25(关键词)权重分配不当。
- 元数据缺失:缺乏时间、类别等属性标签,无法进行精确的预过滤(Pre-filtering)。
3. 精排与重排序 (Re-ranking)
- 窗口挤占:Top-K 召回片段过多,超过模型上下文长度或导致关键点被覆盖。
- 精排模型成本:使用 Cross-Encoder 进行重排序时,计算开销过大导致响应慢。
- 多样性缺失:召回的内容高度重复(Semantic Redundancy),缺乏互补信息。
4. 生成与增强 (Generation & Augmentation)
- 中间失落 (Lost in the Middle):模型只关注上下文开头和结尾,忽略了中间的检索证据。
- 归因幻觉:模型回答了问题,但引用的参考文献编号与实际内容对不上。
- 指令冲突:检索内容与模型预训练知识库冲突时,模型产生"认知失调"。
- 引用粒度模糊:无法精确指明答案具体出自文档的哪一行或哪一页。
5. 动态交互与演进 (Dynamic & Advanced RAG)
- 查询改写失效 (Query Transformation):用户意图模糊,重写后的 Query 反而偏离原意。
- 多跳推理失败 (Multi-hop Reasoning):答案散落在多个文档中,无法通过一次检索完成。
- 知识更新延迟:向量数据库更新频率跟不上源数据变化,产生时效性偏差。
- 反馈闭环缺失:用户点击或纠错行为无法直接反馈并优化检索模型。
6. 评测与可观测性 (Evaluation & Observability)
- 缺乏标准答案 (Gold Dataset):私有领域缺乏高质量的测试集来衡量准确率。
- 三元评价难题:难以界定是"检索没搜到"、"搜到了但没写对"还是"本身就没答案"。
- 端到端归因:在复杂的 RAG 工作流中,难以定位性能瓶颈究竟在哪一个环节。