Agent应用开发面试：2026年核心考点全解析

Agent 应用开发面试通常不只考"会不会调用大模型 API"，而是重点考察：能否把不稳定的模型能力，封装成可评估、可恢复、可观测、可上线的工程系统。

截至 2026 年，常见技术重点包括工具调用、RAG、状态与记忆、工作流编排、MCP、人工审批、评测、链路追踪和安全防护。OpenAI Agents SDK 将 Agent 抽象为模型、指令、工具、交接、护栏和会话；LangGraph 更强调持久化执行、状态恢复和 Human-in-the-loop。(OpenAI GitHub)

一、面试题知识地图

一般分为六部分：

模块	高频内容
大模型基础	Token、上下文窗口、Temperature、结构化输出
Agent 原理	Agent Loop、ReAct、Planning、工具调用、多 Agent
RAG	文档解析、切块、Embedding、召回、重排、引用
工程开发	Python、FastAPI、异步、数据库、缓存、消息队列
可靠性	幻觉、超时、重试、幂等、评测、Tracing
系统设计	企业知识库、客服 Agent、数据分析 Agent、代码 Agent

面试回答最好遵循：

定义是什么 → 怎么实现 → 为什么这样设计 → 有什么风险 → 如何评估

二、Agent 基础高频题

1. 什么是 Agent？和普通大模型聊天有什么区别？

容易被追问

是不是用了工具调用就是 Agent？

不一定。只调用一次固定工具，更像增强型 LLM 应用。真正的 Agent 通常具有动态决策、多步执行和环境反馈闭环。但在生产环境中，不应盲目追求高度自治，很多场景更适合"确定性工作流 + 局部 Agent 决策"。

2. Agent 的运行循环是怎样的？

加分回答

Agent 循环不能只依赖模型判断什么时候停止，否则可能死循环。应同时设置：

复制代码

模型终止条件
最大轮数
最大费用
最大执行时间
重复状态检测
业务状态终止条件

3. Function Calling / Tool Calling 是什么？

面试代码题

复制代码

from typing import Any
import json


TOOLS = {
    "query_order": lambda order_id: {
        "order_id": order_id,
        "status": "shipped"
    }
}


def execute_tool(tool_name: str, arguments: str) -> dict[str, Any]:
    if tool_name not in TOOLS:
        raise ValueError(f"Unknown tool: {tool_name}")

    try:
        args = json.loads(arguments)
    except json.JSONDecodeError as exc:
        raise ValueError("Invalid tool arguments") from exc

    # 实际项目中还需要使用 Pydantic 做字段类型、长度和权限校验
    return TOOLS[tool_name](**args)

面试官关注点

不要只说"模型调用函数"，要强调：

模型只提出调用请求，应用掌握真正的执行权。

4. 如何设计一个好用的工具？

5. 为什么工具调用会失败？

常见原因：

问题	解决方法
工具描述模糊	增加使用条件和反例
参数格式错误	JSON Schema、Pydantic 校验
选错工具	缩小工具集合、路由分类
重复调用	保存调用指纹，检测重复状态
工具超时	超时、重试、熔断、降级
写操作重复执行	幂等键、业务状态检查
工具结果太长	摘要、分页、字段裁剪
工具权限越界	用户身份与资源权限校验

高质量回答要强调：工具失败不能只靠重新提示模型解决，必须在应用层建立可靠性机制。

三、RAG 高频题

6. 什么是 RAG？为什么需要 RAG？

注意

不要回答"RAG 可以彻底消除幻觉"。更准确的说法是：

RAG 能降低知识缺失造成的幻觉，但无法解决错误召回、错误理解和无证据推断等问题。

7. 文档应该如何切块？

加分回答

可以采用"父子块"：

复制代码

小块用于向量检索
大块用于最终提供上下文

这样兼顾召回精度和上下文完整性。

8. 向量检索和关键词检索有什么区别？

9. Rerank 是什么？为什么需要重排？

10. RAG 没有召回正确内容怎么办？

高分表达

首先要区分是 Retrieval Failure 还是 Generation Failure。没有召回证据属于检索问题；证据正确但回答错误属于生成或提示构造问题。

11. 如何减少 RAG 幻觉？

四、状态、记忆与上下文

12. Agent 的 Memory 有哪些类型？

短期记忆

当前会话状态，例如：

复制代码

对话消息
当前任务步骤
工具调用结果
已收集参数

长期记忆

跨会话保存的信息，例如：

复制代码

用户偏好
历史任务
常用配置
业务实体关系

工作记忆

Agent 当前执行任务时维护的中间状态，例如：

复制代码

计划
已完成步骤
待处理步骤
失败原因
预算使用情况

不能简单地把所有历史消息全部塞进上下文。需要：

摘要压缩；
相关记忆检索；
时效性控制；
用户级隔离；
删除和更正机制。

LangGraph 当前区分会话状态持久化与长期记忆，并通过 Checkpoint 支持会话恢复、人工介入和容错执行。(LangChain 文档)

13. 上下文窗口满了怎么办？

五、Agent 编排与多 Agent

14. ReAct、Planning 和 Workflow 有什么区别？

15. 什么情况下使用多 Agent？

常见编排方式

Manager 模式

主管 Agent 保持控制权，把任务作为工具交给子 Agent。

Handoff 模式

当前 Agent 把控制权交给专业 Agent，后者接管后续对话。OpenAI Agents SDK 中，Handoff 被表示为模型可选择的特殊工具。(OpenAI GitHub)

16. 如何避免多 Agent 互相循环？

六、MCP 高频题

17. MCP 是什么？和 Function Calling 有什么区别？

加分点

MCP Server 不代表天然安全。仍需要处理：

身份认证；
OAuth；
权限隔离；
参数验证；
敏感资源控制；
工具副作用；
Prompt Injection；
用户授权与审计。

七、安全与可靠性

18. 什么是 Prompt Injection？如何防御？

19. Human-in-the-loop 应该放在哪里？

20. 工具调用如何实现幂等？

八、Agent 评测高频题

21. 如何评估一个 Agent？

任务层

Task Success Rate；
完成率；
正确率；
拒答准确率。

检索层

Recall@K；
Precision@K；
MRR；
NDCG；
Context Relevance。

工具层

工具选择正确率；
参数正确率；
工具执行成功率；
重复调用率；
非法工具调用率。

工程层

P50/P95 延迟；
平均 Token；
单任务成本；
平均执行步数；
超时率；
人工介入率。

OpenAI 当前提供 Agent Evals、Datasets 和 Graders，用于对 Agent 行为进行重复、可量化评测。(OpenAI 平台)

高分回答

建议将测试集分为：

复制代码

正常任务
边界任务
无答案任务
工具失败任务
权限不足任务
Prompt Injection
长上下文任务
并发任务

并在模型、Prompt、工具或检索配置更新后进行回归测试。

22. LLM-as-a-Judge 有什么问题？

九、可观测性与性能

23. Agent 应该记录哪些日志？

24. 如何降低 Agent 的延迟和成本？

模型层

简单任务使用小模型；
复杂任务才升级大模型；
分类与抽取使用结构化输出；
控制输出长度。

上下文层

减少无关历史；
检索后重排；
工具结果裁剪；
对固定前缀使用缓存。

工作流层

并行执行独立工具；
减少无意义 Agent 回合；
简单逻辑用代码实现；
设定最大步数。

系统层

异步 I/O；
Redis 缓存；
数据库连接池；
流式输出；
批量 Embedding；
消息队列处理长任务。

高分表达：

优化目标不是单纯减少 Token，而是在任务成功率约束下，降低延迟和成本。

十、系统设计必考题

25. 设计一个企业知识库 Agent

可以按照下面的顺序回答。

1. 明确需求

先问或主动说明假设：

复制代码

数据来源是什么？
是否需要权限隔离？
是否需要实时更新？
是否要求引用来源？
是否允许执行写操作？
准确率、延迟和并发要求是什么？

2. 总体架构

复制代码

                    ┌──────────────┐
用户 → API Gateway → 会话与身份认证 │
                    └──────┬───────┘
                           ↓
                     Agent Orchestrator
                    /        |          \
                 RAG       业务工具      Memory
                  ↓           ↓           ↓
        Hybrid Retrieval   内部 API   Redis/PostgreSQL
          ↓
        Reranker
          ↓
      Context Builder
          ↓
          LLM
          ↓
     引用检查/Guardrail
          ↓
        用户回答

3. 离线知识处理

复制代码

文件上传
  ↓
病毒与类型检查
  ↓
PDF/OCR/表格解析
  ↓
结构化切块
  ↓
Embedding
  ↓
向量库 + 文档库 + 元数据

元数据至少包括：

复制代码

document_id
chunk_id
department
permission
version
effective_date
source_url

4. 在线问答

复制代码

身份认证
  ↓
查询理解
  ↓
权限过滤
  ↓
混合检索
  ↓
重排
  ↓
生成带引用回答
  ↓
引用一致性检查

5. 可靠性

检索不足时拒答；
工具超时重试；
写操作人工审批；
Session 状态持久化；
模型不可用时降级；
所有调用链路可追踪；
Prompt 和模型升级前跑回归测试。

6. 安全

最重要的一句话：

权限过滤必须在检索或数据访问层完成，不能依赖模型自己遵守权限提示。

十一、现场编码常考题

题目一：实现带重试和超时的工具执行器

复制代码

import asyncio
from collections.abc import Awaitable, Callable
from typing import TypeVar

T = TypeVar("T")


async def execute_with_retry(
    func: Callable[[], Awaitable[T]],
    *,
    timeout_seconds: float = 5.0,
    max_retries: int = 2,
) -> T:
    """执行异步工具，支持超时和指数退避重试。"""

    last_error: Exception | None = None

    for attempt in range(max_retries + 1):
        try:
            return await asyncio.wait_for(
                func(),
                timeout=timeout_seconds,
            )
        except (TimeoutError, ConnectionError) as exc:
            last_error = exc

            if attempt >= max_retries:
                break

            await asyncio.sleep(2**attempt)

    raise RuntimeError("Tool execution failed") from last_error

面试时补充：

不是所有错误都应该重试；
参数错误、权限错误不重试；
写操作必须配合幂等键；
生产环境增加熔断、指标和 Trace ID。

题目二：实现简单 Agent 状态机

复制代码

from enum import Enum
from pydantic import BaseModel, Field


class Stage(str, Enum):
    COLLECTING = "collecting"
    CONFIRMING = "confirming"
    EXECUTING = "executing"
    COMPLETED = "completed"
    FAILED = "failed"


class RefundState(BaseModel):
    stage: Stage = Stage.COLLECTING
    order_id: str | None = None
    reason: str | None = None
    approved: bool = False
    retry_count: int = Field(default=0, ge=0, le=3)


def next_stage(state: RefundState) -> Stage:
    if state.stage == Stage.COLLECTING:
        if state.order_id and state.reason:
            return Stage.CONFIRMING
        return Stage.COLLECTING

    if state.stage == Stage.CONFIRMING:
        return Stage.EXECUTING if state.approved else Stage.CONFIRMING

    if state.stage == Stage.EXECUTING:
        return Stage.COMPLETED

    return state.stage

这道题的核心不是代码量，而是体现：

复制代码

状态显式化
状态转移可控
高风险动作需审批
失败可恢复
不完全依赖自然语言历史

十二、项目经历应该怎么讲

不要只说：

我使用 LangChain 调用大模型，接入向量数据库，实现了智能问答。

推荐使用以下模板：

项目背景

我们开发了一个面向内部技术文档的知识库 Agent，文档包含 PDF、Word 和系统接口文档，要求回答带引用，并按照部门进行权限隔离。

个人职责

我负责文档解析、混合检索、工具调用编排以及评测体系搭建。

技术方案

离线使用标题感知切块，并保存文档版本和部门权限；在线采用 BM25 与向量混合召回，随后重排。Agent 只能访问通过用户权限过滤后的文档，并在证据不足时拒答。

遇到的问题

最初系统经常召回相似但无答案的文档。排查后发现主要是固定长度切块破坏了章节结构，同时错误码类查询不适合纯向量召回。

解决办法

改成结构化切块，引入关键词与向量混合检索，并增加无答案阈值和引用一致性评测。

量化结果

必须尽量给出数字，例如：

复制代码

Recall@5 从 72% 提高到 88%
端到端正确率从 61% 提高到 79%
P95 延迟从 8.2 秒降低到 4.9 秒
平均单次成本降低 35%

没有做过真实统计时不要编造，应该说：

当时没有建立完整离线评测集，这是项目的不足；后续我会优先补充标准测试集和回归评测流程。

这反而比虚构结果更可信。

十三、面试前最应该准备的内容

至少准备三个能够完整讲清楚的案例：

一个 RAG 项目：重点讲切块、召回、重排和评测。
一个工具型 Agent：重点讲工具选择、状态、幂等和失败恢复。
一个系统设计案例：重点讲安全、权限、观测、成本和上线。

同时确保能现场写出：

复制代码

FastAPI 接口
异步工具调用
Pydantic 数据模型
简单 Agent Loop
向量检索流程
重试和超时
状态机
日志与异常处理

面试最忌讳只会背框架 API。优秀答案通常会主动说出：

哪部分应该交给模型，哪部分必须由确定性代码控制。

Agent应用开发面试：2026年核心考点全解析

一、面试题知识地图

二、Agent 基础高频题

1. 什么是 Agent？和普通大模型聊天有什么区别？

推荐回答

容易被追问

2. Agent 的运行循环是怎样的？

推荐回答

加分回答

3. Function Calling / Tool Calling 是什么？

推荐回答

面试代码题

面试官关注点

4. 如何设计一个好用的工具？

推荐回答

5. 为什么工具调用会失败？

三、RAG 高频题

6. 什么是 RAG？为什么需要 RAG？

推荐回答

注意

7. 文档应该如何切块？

推荐回答

加分回答

8. 向量检索和关键词检索有什么区别？

推荐回答

9. Rerank 是什么？为什么需要重排？

推荐回答

10. RAG 没有召回正确内容怎么办？

推荐回答

高分表达

11. 如何减少 RAG 幻觉？

推荐回答

四、状态、记忆与上下文

12. Agent 的 Memory 有哪些类型？

推荐回答

短期记忆

长期记忆

工作记忆

13. 上下文窗口满了怎么办？

推荐回答

五、Agent 编排与多 Agent

14. ReAct、Planning 和 Workflow 有什么区别？

推荐回答

15. 什么情况下使用多 Agent？

推荐回答

常见编排方式

16. 如何避免多 Agent 互相循环？

推荐回答

六、MCP 高频题

17. MCP 是什么？和 Function Calling 有什么区别？

推荐回答

加分点

七、安全与可靠性

18. 什么是 Prompt Injection？如何防御？

推荐回答

19. Human-in-the-loop 应该放在哪里？

推荐回答

20. 工具调用如何实现幂等？

推荐回答

八、Agent 评测高频题

21. 如何评估一个 Agent？

推荐回答

任务层

检索层

工具层

工程层

高分回答

22. LLM-as-a-Judge 有什么问题？

推荐回答

九、可观测性与性能

23. Agent 应该记录哪些日志？

推荐回答

24. 如何降低 Agent 的延迟和成本？

推荐回答

模型层

上下文层

工作流层

系统层

十、系统设计必考题

25. 设计一个企业知识库 Agent