Agent & RAG 底层核心难点

摸鱼仙人~2026-04-05 21:32

Agent

1. 任务规划与拆解 (Reasoning & Decomposition)

递归深度失控：任务拆得太细导致逻辑迷失，或拆得太粗无法执行。
目标漂移 (Goal Drift)：长流程中 Agent 忘记了最初的最终目标。
不可逆决策风险：在缺乏"回滚"机制的现实环境中误操作（如误删数据）。
动态重规划：环境变化（如 API 报错）时，Agent 无法实时修正后续步骤。

2. 状态管理与上下文 (State & Context)

Token 损耗陷阱：为了保持记忆，频繁携带大量历史记录导致成本飙升。
信息检索噪声 (RAG Noise)：从向量库中搜到了无关信息，干扰了 Agent 判断。
写时冲突 (Write-Write Conflict)：多个 Agent 同时修改同一文件或数据库。
长期偏好对齐：Agent 无法准确区分用户的"临时指令"与"长期习惯"。

3. 环境感知与执行 (Perception & Actuation)

DOM 结构爆炸：网页节点过多导致模型无法定位点击按钮。
低频极端情况 (Edge Cases)：如弹窗遮挡、网络波动、登录失效等异常处理。
工具描述失真：API 文档写得不清楚，模型猜不到参数的具体含义。
视觉空间误判：在 Computer Use 任务中，模型分不清坐标和实际像素位置。

4. 评价与可靠性 (Evaluation & Reliability)

非确定性测试：代码完全没变，但 Agent 两次运行的结果天差地别。
黑盒排查难：难以追踪 Agent 在几十步操作中，哪一步开始产生了逻辑偏差。
安全沙箱逃逸：防止 Agent 通过生成的脚本攻击底层宿主机。
幻觉注入执行：模型"一本正经"地生成了一个不存在的 API 参数并成功调用。

5. 多体通信与协议 (Communication & Protocols)

消息格式碎裂：不同模型、不同 Agent 之间 JSON/XML 协议不统一。
死锁与循环调用：Agent A 等 Agent B，B 也在等 A，导致系统卡死。
信息衰减：指令在多层 Agent 传递过程中，关键信息逐层丢失。
协同资源竞争：多个 Agent 争抢有限的任务配额或计算资源。

6. 工程效率 (Efficiency)

端到端延迟 (E2E Latency)：思考 + 调工具 + 二次思考过程太慢，用户无法等待。
冷启动成本：每个新任务都需要人工编写冗长的提示词（Prompt Engineering）。
版本碎片化：底层大模型升级后，原有的 Agent 提示词和逻辑全部失效。

7. 工具调用

8.权限隔离管理

9.并发执行

10. 浏览器操作search

11. 错误回馈机制

RAG

1. 数据清洗与分块 (Data Processing & Chunking)

语义断裂：分块（Chunking）时截断了关键上下文，导致检索片段无意义。
非结构化解析：PDF 中的复杂表格、多栏排版、图片嵌套识别失败。
噪声干扰：页眉页脚、广告内容进入索引，稀释了关键信息的权重。
多格式统一：Word, Markdown, HTML 等不同格式转换为标准向量时的特征损失。

2. 索引与检索优化 (Indexing & Retrieval)

检索漂移 (Retrieval Drift)：Query 与文档语义匹配，但事实内容完全无关。
向量维度灾难：大规模数据下，向量检索的精度下降与查询延迟增加。
多路召回失衡：向量检索（语义）与传统 BM25（关键词）权重分配不当。
元数据缺失：缺乏时间、类别等属性标签，无法进行精确的预过滤（Pre-filtering）。

3. 精排与重排序 (Re-ranking)

窗口挤占：Top-K 召回片段过多，超过模型上下文长度或导致关键点被覆盖。
精排模型成本：使用 Cross-Encoder 进行重排序时，计算开销过大导致响应慢。
多样性缺失：召回的内容高度重复（Semantic Redundancy），缺乏互补信息。

4. 生成与增强 (Generation & Augmentation)

中间失落 (Lost in the Middle)：模型只关注上下文开头和结尾，忽略了中间的检索证据。
归因幻觉：模型回答了问题，但引用的参考文献编号与实际内容对不上。
指令冲突：检索内容与模型预训练知识库冲突时，模型产生"认知失调"。
引用粒度模糊：无法精确指明答案具体出自文档的哪一行或哪一页。

5. 动态交互与演进 (Dynamic & Advanced RAG)

查询改写失效 (Query Transformation)：用户意图模糊，重写后的 Query 反而偏离原意。
多跳推理失败 (Multi-hop Reasoning)：答案散落在多个文档中，无法通过一次检索完成。
知识更新延迟：向量数据库更新频率跟不上源数据变化，产生时效性偏差。
反馈闭环缺失：用户点击或纠错行为无法直接反馈并优化检索模型。

6. 评测与可观测性 (Evaluation & Observability)

缺乏标准答案 (Gold Dataset)：私有领域缺乏高质量的测试集来衡量准确率。
三元评价难题：难以界定是"检索没搜到"、"搜到了但没写对"还是"本身就没答案"。
端到端归因：在复杂的 RAG 工作流中，难以定位性能瓶颈究竟在哪一个环节。

上一篇：harmonyOS开发基础之标题栏（HdsNavigation）

下一篇：企业网站设计建设搭建服务专业分析：自研平台+团队服务能力+全场景功能覆盖+多知名企业合作背书

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 10Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚