AI 面试全景图：从 Prompt、RAG 到 Agent 工程化

第一阶段：LLM 基础认知

1. 什么是 LLM？

大语言模型

我会把他看成一个概率推理引擎，通过海量文本去推测下一段可能出现的内容是什么，从而：

聊天
写代码
总结
翻译

2.Transformer 是什么

Transformer 是现在大语言模型最核心的模型架构

它能够动态理解上下文之间的关系

3.Token 是什么？

LLM 处理文本时的最小语义单位。模型会先把文本拆成 Token，再进行理解和生成。

Token 会直接影响模型调用成本、响应速度和上下文长度。

4.Embedding 是什么

Embedding是将文本转换成高维向量的过程

因为模型本身无法直接理解文字语义，所以需要先把文本映射成数字向量

语义越接近的文本，对应的向量距离通常也越接近。

大模型处理流程

复制代码

文本
→ Token
→ 向量（Embedding）
→ Transformer 计算
→ 输出下一个 Token
→ 再转文字

Transformer 会基于这些向量进行上下文计算，最终预测下一个 Token

5.向量相似度是什么

向量相似度本质上是：

用来衡量两段文本语义是否接近。

在 RAG 系统里，

用户问题会先转换成向量，再去和知识库中的向量进行相似度计算。

6.Context Window 是什么

Context Window 可以理解成：

模型一次能够看到和处理的最大上下文范围。

它通常由 Token 数量决定

如果上下文过长，超出窗口限制，模型前面的内容可能会被截断或遗忘。

7.Temperature/ TopP 是什么

Temperature 和 TopP 本质上都是：

控制模型生成随机性的参数。

Temperature 越低：

回答越稳定
越偏确定性

Temperature 越高：

回答越发散

创造性越强

@GetMapping("/ask")
public String ask(@RequestParam String question) {

复制代码

  return chatClient.prompt()
          .user(question)
          .options(DashScopeChatOptions.builder()
                  .model("qwen-plus")
                  .temperature(0.2)
                  .topP(0.8)
                  .build())
          .call()
          .content();

}

8.什么是 LLM 幻觉

LLM 幻觉指的是：

模型生成了看似合理，但实际上错误或不存在的信息。

因为 LLM 本质上是概率生成模型，并不是事实数据库。

所以它有可能生成错误内容。

9.Tool Calling / Function Calling 是什么

Tool Calling 可以理解成：

让模型具备调用外部工具的能力。

模型本身负责：

理解用户意图
决定调用什么工具

系统则负责：

真正执行工具
返回结果

10.MCP 是什么

MCP可以理解成：

AI 模型与外部工具之间的统一协议

MCP 通过标准化协议，让 Tool 能被模型统一发现、理解和调用。

11.多模态是什么

多模态指的是：

模型不仅能够处理文本，还能够处理多种类型的数据。

例如：

图片

音频

视频

PDF

Word

Excel

12.你用过哪些大模型，有什么区别

1. GPT（OpenAI）

我感觉 GPT ：

识别图片/文档的能力更强
复杂推理和 Agent 场景表现比较稳定
Prompt 理解能力很好

2.Qwen

中文能力比较强
国内接入方便
成本相对低

3.DeepSeek

文字推理能力不错
图片识别能力较差

4.豆包

中文能力比较强
回答问题更加幽默
面对复杂问题推理能力较差

第二阶段：Prompt / Context / Constraint Engineering ------ 如何真正"驾驭"大模型

1. 什么是 Prompt Engineering？

Prompt Engineering 我会理解成：

通过设计 Prompt 结构，稳定控制模型输出效果。

例如：

System Prompt
Few-shot（给模型几个示例，让它模仿）
输出格式约束（强制模型按固定格式输出）
角色设定（告诉模型"你是谁"）

这些本质上都是：

在引导模型按照预期方式生成内容。

在实际工程里，

Prompt 会直接影响：

回答质量
幻觉
稳定性
Tool Calling 效果。

2. System Prompt 和 User Prompt 有什么区别？

System Prompt 更偏：

对模型的全局行为约束

例如：

身份设定
回答规则
输出风格
安全限制

User Prompt 则是：

用户当前的具体问题

3. 什么是 Few-shot？

推荐回答

Few-shot 可以理解成：

通过给模型少量示例，引导模型学习输出格式和行为。

给模型几个：

问题
标准答案

模型会更容易理解：

应该如何回答。

4. 什么是 Chain-of-Thought（CoT）？

Chain-of-Thought 本质上是：

让模型按照步骤进行推理。

而不是直接生成最终答案。

例如：

复制代码

请一步一步分析

模型会：

先推理
再得出结果

5. 什么是 Structured Output？

Structured Output 指的是：

让模型按固定结构输出结果。

例如：

复制代码

{
  "name": "张三",
  "department": "技术部"
}

在 AI 工程里，

Structured Output 非常重要。

因为系统通常需要：

稳定解析模型结果。

6. 什么是 Prompt Injection？

Prompt Injection 可以理解成：

用户通过恶意输入，干扰模型原本的 Prompt 规则。

例如：

复制代码

忽略之前所有规则

试图绕过系统约束。

7. 什么是 Constraint Engineering？

Constraint Engineering 我会理解成：

通过规则和限制条件，降低模型随机性和幻觉。

例如：

禁止编造
限制回答来源
指定输出格式
限制回答语言

8. 什么是 Guardrail？

Guardrail 本质上是：

对模型输入输出进行安全和质量控制。

例如：

幻觉检测
敏感内容过滤
输出校验

9. 什么是 Token Budget？

Token Budget 可以理解成：

在有限上下文窗口里，合理分配 Token 资源。

因为：

Prompt
Retrieval
Memory
历史对话

都会占用 Token。

如果上下文过长，

会导致：

成本增加
响应变慢
上下文被截断

所以需要做：

Context Trim
Summary
Compression

10. 什么是 Context Engineering？

Context Engineering 本质上是：

如何给模型提供正确且有效的上下文。

因为：

模型最终效果，很多时候取决于：

给了它什么上下文。

11. 什么是 Memory 设计？

12. 什么是上下文压缩？

上下文压缩本质上是：

在有限 Token 窗口内，尽可能保留有效信息。

因为长对话无法无限增长，所以通常会对历史内容进行压缩

13. 什么是 Summary Memory？

Summary Memory 可以理解成：

通过总结历史对话，减少 Token 消耗

第三阶段：RAG 工程化核心 ------ 从"接入知识库"到"企业级检索增强系统"

1. 什么是 RAG？

RAG（Retrieval-Augmented Generation）本质上是：

先从外部知识库检索相关内容，再把检索结果作为上下文交给大模型生成答案。

它解决的问题是：

LLM 无法实时掌握企业私有知识，并且容易产生幻觉

2. RAG 完整链路是什么？

文档解析

↓

Chunk 切分

↓

Embedding 生成

↓

写入向量库

↓

用户提问

↓

Query Rewrite

↓

Recall

↓

Rerank

↓

Context Build

↓

LLM 生成

↓

Guardrail

3. 什么是 Chunk 切分？

Chunk 切分本质上是：

将长文档拆分成适合检索的小片段。

因为：Embedding 和 Retrieval 都不适合直接处理超长文本

Chunk 太小：

上下文断裂

Chunk 太大：

检索不精准
Token 浪费

所以工程里通常会：

段落切分
标题感知切分
overlap 重叠
表格结构保留

4. 什么是 Embedding 生成？

Embedding 生成本质上是：

将 Chunk 转换成语义向量。

这样系统才能通过向量相似度进行语义检索。

语义越接近，向量距离通常越接近。

5. 什么是向量数据库？

向量数据库本质上是：

专门用于存储和检索向量数据的数据库

例如：

Elasticsearch
Milvus

6. 什么是 Hybrid Recall？

Hybrid Recall 本质上是：

向量召回和关键词召回结合。

向量检索：

语义能力强
但精确匹配弱

关键词检索：

精确匹配强
但语义泛化弱

7. 什么是 Rerank？

Rerank 本质上是：

对 Recall 阶段召回的结果进行二次排序。

Recall 阶段目标是：

尽量别漏。

所以会召回很多内容，但真正交给模型的上下文不能太多

8.什么是 Context Builder？

Context Builder 本质上是：

将最终检索结果组织成适合模型理解的上下文。

例如：

去重
相邻 Chunk 合并
Token 控制

10. 什么是 RAG Eval？

RAG Eval 本质上是：

对 RAG 系统效果进行评估。

企业里通常会：

构建测试集
批量跑评测
统计命中率和准确率

11.企业级 RAG 最大难点是什么？

企业级RAG最大的难点并不是接入大模型，而是对文档对的解析切分，只有拥有干净完整的chuck,才能进行一个合理的召回，而不是一个bad 召回

第四阶段：Agent 工程化核心 ------ 让 AI 从"会回答"进化到"会行动"

1. 什么是 Agent？

Agent 我会理解成：

不只是生成文本，而是能够基于目标进行推理、调用工具并完成任务的 AI 系统。

传统 LLM 更像：

复制代码

输入
↓
输出

而 Agent 更像：

复制代码

目标
↓
分析
↓
调用工具
↓
获取结果
↓
继续推理
↓
完成任务

2. Agent 和 RAG 有什么区别？

RAG即检索增强生成，更偏向于一个tool工具，是模型基于知识库进行回答问题，而Agent更偏向于任务执行，会先对问题进行思考，然后调用合适的工具（类似rag这样），然后基于获取到的结构继续推理，如果没有结束，则不断进行循环

3. Workflow 和 Agent 有什么区别？

Workflow 更偏：

固定流程执行。

例如：

复制代码

A → B → C

流程提前定义好。

而 Agent 更偏：

动态决策。

它会根据当前状态：

动态决定：

下一步做什么
调哪个 Tool
是否继续推理

4.什么是 ReAct？

ReAct 本质上是：

Reason + Act。

也就是：

一边推理，一边行动。

5. 什么是 Agent Loop？

Agent Loop 本质上是：

Agent 的循环推理执行过程。

通常包括：

复制代码

Thinking
↓
Action
↓
Observation
↓
State Update
↓
Next Action

6. 什么是 Observation？

Observation 可以理解成：

Tool 执行后的结果。

Observation 会作为：

下一轮推理输入。

7. 什么是 Multi-Agent？

Multi-Agent 本质上是：

多个 Agent 协同完成任务。

例如：

Planner Agent
Retrieval Agent
Coding Agent
Review Agent

分别负责不同能力。

最终通过：

协作
消息传递
状态同步

完成复杂任务。

8.如何解决Agent无限loop的问题

我会从几层解决 Agent 无限 Loop 问题。

第一，设置最大循环次数，比如最多执行 5 到 8 轮，超过直接触发 fallback。

第二，设计明确的 Finish Judge，也就是判断当前信息是否已经足够回答用户问题。如果已经满足目标，就立即结束。

第三，做 No Progress 检测。如果连续几轮没有新增有效事实，或者重复调用同一个 Tool，就终止循环

9.了解Harness Engineering吗

我了解一些 Harness Engineering，我理解它本质上是：除了大模型本身之外，让 AI 系统真正稳定运行的一整套工程体系。因为 LLM 只负责生成内容，但企业落地时，还需要 Prompt、RAG、Memory、Tool Calling、Guardrail、Agent State、Monitoring 等能力去约束、管理和增强模型。它更关注的不是模型本身有多强，而是 AI 系统是否稳定、可控、可观测、可扩展。

10.spring ai alibaba在spring ai上的改变

我理解 Spring AI Alibaba 本质上是在 Spring AI 基础上，对很多企业 AI 场景中的通用能力做了工程化封装。

以前很多能力需要自己手写：

Agent Loop
State 管理
Workflow 编排
Tool Calling
Graph 跳转
Memory
Multi-Agent
Context 管理