AI 面试全景图:从 Prompt、RAG 到 Agent 工程化

第一阶段:LLM 基础认知

1. 什么是 LLM?

大语言模型

我会把他看成一个概率推理引擎,通过海量文本去推测下一段可能出现的内容是什么,从而:

  • 聊天
  • 写代码
  • 总结
  • 翻译

2.Transformer 是什么

Transformer 是现在大语言模型最核心的模型架构

它能够动态理解上下文之间的关系

3.Token 是什么?

LLM 处理文本时的最小语义单位。模型会先把文本拆成 Token,再进行理解和生成。

Token 会直接影响模型调用成本、响应速度和上下文长度。

4.Embedding 是什么

Embedding是将文本转换成高维向量的过程

因为模型本身无法直接理解文字语义,所以需要先把文本映射成数字向量

语义越接近的文本,对应的向量距离通常也越接近。

大模型处理流程

复制代码
文本
→ Token
→ 向量(Embedding)
→ Transformer 计算
→ 输出下一个 Token
→ 再转文字

Transformer 会基于这些向量进行上下文计算,最终预测下一个 Token

5.向量相似度是什么

向量相似度本质上是:

用来衡量两段文本语义是否接近。

在 RAG 系统里,

用户问题会先转换成向量,再去和知识库中的向量进行相似度计算。

6.Context Window 是什么

Context Window 可以理解成:

模型一次能够看到和处理的最大上下文范围。

它通常由 Token 数量决定

如果上下文过长,超出窗口限制,模型前面的内容可能会被截断或遗忘。

7.Temperature/ TopP 是什么

Temperature 和 TopP 本质上都是:

控制模型生成随机性的参数。

Temperature 越低:

  • 回答越稳定
  • 越偏确定性

Temperature 越高:

  • 回答越发散

  • 创造性越强

    @GetMapping("/ask")
    public String ask(@RequestParam String question) {

    复制代码
      return chatClient.prompt()
              .user(question)
              .options(DashScopeChatOptions.builder()
                      .model("qwen-plus")
                      .temperature(0.2)
                      .topP(0.8)
                      .build())
              .call()
              .content();

    }

8.什么是 LLM 幻觉

LLM 幻觉指的是:

模型生成了看似合理,但实际上错误或不存在的信息。

因为 LLM 本质上是概率生成模型,并不是事实数据库。

所以它有可能生成错误内容。

9.Tool Calling / Function Calling 是什么

Tool Calling 可以理解成:

让模型具备调用外部工具的能力。

模型本身负责:

  • 理解用户意图
  • 决定调用什么工具

系统则负责:

  • 真正执行工具
  • 返回结果

10.MCP 是什么

MCP可以理解成:

AI 模型与外部工具之间的统一协议

MCP 通过标准化协议,让 Tool 能被模型统一发现、理解和调用。

11.多模态是什么

多模态指的是:

模型不仅能够处理文本,还能够处理多种类型的数据。

例如:

  • 图片
  • 音频
  • 视频
  • PDF
  • Word
  • Excel

12.你用过哪些大模型,有什么区别

1. GPT(OpenAI)

我感觉 GPT :

  • 识别图片/文档的能力更强
  • 复杂推理和 Agent 场景表现比较稳定
  • Prompt 理解能力很好

2.Qwen

  • 中文能力比较强
  • 国内接入方便
  • 成本相对低

3.DeepSeek

  • 文字推理能力不错
  • 图片识别能力较差

4.豆包

  • 中文能力比较强
  • 回答问题更加幽默
  • 面对复杂问题推理能力较差

第二阶段:Prompt / Context / Constraint Engineering ------ 如何真正"驾驭"大模型

1. 什么是 Prompt Engineering?

Prompt Engineering 我会理解成:

通过设计 Prompt 结构,稳定控制模型输出效果。

例如:

  • System Prompt
  • Few-shot(给模型几个示例,让它模仿)
  • 输出格式约束(强制模型按固定格式输出)
  • 角色设定(告诉模型"你是谁")

这些本质上都是:

在引导模型按照预期方式生成内容。

在实际工程里,

Prompt 会直接影响:

  • 回答质量
  • 幻觉
  • 稳定性
  • Tool Calling 效果。

2. System Prompt 和 User Prompt 有什么区别?

System Prompt 更偏:

对模型的全局行为约束

例如:

  • 身份设定
  • 回答规则
  • 输出风格
  • 安全限制

User Prompt 则是:

用户当前的具体问题

3. 什么是 Few-shot?

推荐回答

Few-shot 可以理解成:

通过给模型少量示例,引导模型学习输出格式和行为。

给模型几个:

  • 问题
  • 标准答案

模型会更容易理解:

应该如何回答。

4. 什么是 Chain-of-Thought(CoT)?

Chain-of-Thought 本质上是:

让模型按照步骤进行推理。

而不是直接生成最终答案。

例如:

复制代码
请一步一步分析

模型会:

  • 先推理
  • 再得出结果

5. 什么是 Structured Output?

Structured Output 指的是:

让模型按固定结构输出结果。

例如:

复制代码
{
  "name": "张三",
  "department": "技术部"
}

在 AI 工程里,

Structured Output 非常重要。

因为系统通常需要:

稳定解析模型结果。

6. 什么是 Prompt Injection?

Prompt Injection 可以理解成:

用户通过恶意输入,干扰模型原本的 Prompt 规则。

例如:

复制代码
忽略之前所有规则

试图绕过系统约束。

7. 什么是 Constraint Engineering?

Constraint Engineering 我会理解成:

通过规则和限制条件,降低模型随机性和幻觉。

例如:

  • 禁止编造
  • 限制回答来源
  • 指定输出格式
  • 限制回答语言

8. 什么是 Guardrail?

Guardrail 本质上是:

对模型输入输出进行安全和质量控制。

例如:

  • 幻觉检测
  • 敏感内容过滤
  • 输出校验

9. 什么是 Token Budget?

Token Budget 可以理解成:

在有限上下文窗口里,合理分配 Token 资源。

因为:

  • Prompt
  • Retrieval
  • Memory
  • 历史对话

都会占用 Token。


如果上下文过长,

会导致:

  • 成本增加
  • 响应变慢
  • 上下文被截断

所以需要做:

  • Context Trim
  • Summary
  • Compression

10. 什么是 Context Engineering?

Context Engineering 本质上是:

如何给模型提供正确且有效的上下文。

因为:

模型最终效果,很多时候取决于:

给了它什么上下文。

11. 什么是 Memory 设计?

推荐回答

Memory 设计本质上是:

让模型具备稳定的多轮上下文能力。

例如:

  • Window Memory
  • Summary Memory
  • Redis Memory

12. 什么是上下文压缩?

上下文压缩本质上是:

在有限 Token 窗口内,尽可能保留有效信息。

因为长对话无法无限增长,所以通常会对历史内容进行压缩

13. 什么是 Summary Memory?

Summary Memory 可以理解成:

通过总结历史对话,减少 Token 消耗

第三阶段:RAG 工程化核心 ------ 从"接入知识库"到"企业级检索增强系统"

1. 什么是 RAG?

RAG(Retrieval-Augmented Generation)本质上是:

先从外部知识库检索相关内容,再把检索结果作为上下文交给大模型生成答案。

它解决的问题是:

LLM 无法实时掌握企业私有知识,并且容易产生幻觉

2. RAG 完整链路是什么?

文档解析

Chunk 切分

Embedding 生成

写入向量库

用户提问

Query Rewrite

Recall

Rerank

Context Build

LLM 生成

Guardrail

3. 什么是 Chunk 切分?

Chunk 切分本质上是:

将长文档拆分成适合检索的小片段。

因为:Embedding 和 Retrieval 都不适合直接处理超长文本

Chunk 太小:

  • 上下文断裂

Chunk 太大:

  • 检索不精准
  • Token 浪费

所以工程里通常会:

  • 段落切分
  • 标题感知切分
  • overlap 重叠
  • 表格结构保留

4. 什么是 Embedding 生成?

Embedding 生成本质上是:

将 Chunk 转换成语义向量。

这样系统才能通过向量相似度进行语义检索。

语义越接近,向量距离通常越接近。

5. 什么是向量数据库?

向量数据库本质上是:

专门用于存储和检索向量数据的数据库

例如:

  • Elasticsearch
  • Milvus

6. 什么是 Hybrid Recall?

Hybrid Recall 本质上是:

向量召回和关键词召回结合。

向量检索:

  • 语义能力强
  • 但精确匹配弱

关键词检索:

  • 精确匹配强
  • 但语义泛化弱

7. 什么是 Rerank?

Rerank 本质上是:

对 Recall 阶段召回的结果进行二次排序。

Recall 阶段目标是:

尽量别漏。

所以会召回很多内容,但真正交给模型的上下文不能太多

8.什么是 Context Builder?

Context Builder 本质上是:

将最终检索结果组织成适合模型理解的上下文。

例如:

  • 去重
  • 相邻 Chunk 合并
  • Token 控制

10. 什么是 RAG Eval?

RAG Eval 本质上是:

对 RAG 系统效果进行评估。

企业里通常会:

  • 构建测试集
  • 批量跑评测
  • 统计命中率和准确率

11.企业级 RAG 最大难点是什么?

企业级RAG最大的难点并不是接入大模型,而是对文档对的解析切分,只有拥有干净完整的chuck,才能进行一个合理的召回,而不是一个bad 召回

第四阶段:Agent 工程化核心 ------ 让 AI 从"会回答"进化到"会行动"

1. 什么是 Agent?

Agent 我会理解成:

不只是生成文本,而是能够基于目标进行推理、调用工具并完成任务的 AI 系统。

传统 LLM 更像:

复制代码
输入
↓
输出

而 Agent 更像:

复制代码
目标
↓
分析
↓
调用工具
↓
获取结果
↓
继续推理
↓
完成任务

2. Agent 和 RAG 有什么区别?

RAG即检索增强生成,更偏向于一个tool工具,是模型基于知识库进行回答问题,而Agent更偏向于任务执行,会先对问题进行思考,然后调用合适的工具(类似rag这样),然后基于获取到的结构继续推理,如果没有结束,则不断进行循环

3. Workflow 和 Agent 有什么区别?

Workflow 更偏:

固定流程执行。

例如:

复制代码
A → B → C

流程提前定义好。


而 Agent 更偏:

动态决策。

它会根据当前状态:

动态决定:

  • 下一步做什么
  • 调哪个 Tool
  • 是否继续推理

4.什么是 ReAct?

ReAct 本质上是:

Reason + Act。

也就是:

一边推理,一边行动。

5. 什么是 Agent Loop?

Agent Loop 本质上是:

Agent 的循环推理执行过程。

通常包括:

复制代码
Thinking
↓
Action
↓
Observation
↓
State Update
↓
Next Action

6. 什么是 Observation?

Observation 可以理解成:

Tool 执行后的结果。

Observation 会作为:

下一轮推理输入。

7. 什么是 Multi-Agent?

Multi-Agent 本质上是:

多个 Agent 协同完成任务。

例如:

  • Planner Agent
  • Retrieval Agent
  • Coding Agent
  • Review Agent

分别负责不同能力。

最终通过:

  • 协作
  • 消息传递
  • 状态同步

完成复杂任务。

8.如何解决Agent无限loop的问题

我会从几层解决 Agent 无限 Loop 问题。

第一,设置最大循环次数,比如最多执行 5 到 8 轮,超过直接触发 fallback。

第二,设计明确的 Finish Judge,也就是判断当前信息是否已经足够回答用户问题。如果已经满足目标,就立即结束。

第三,做 No Progress 检测。如果连续几轮没有新增有效事实,或者重复调用同一个 Tool,就终止循环

9.了解Harness Engineering吗

我了解一些 Harness Engineering,我理解它本质上是:除了大模型本身之外,让 AI 系统真正稳定运行的一整套工程体系。因为 LLM 只负责生成内容,但企业落地时,还需要 Prompt、RAG、Memory、Tool Calling、Guardrail、Agent State、Monitoring 等能力去约束、管理和增强模型。它更关注的不是模型本身有多强,而是 AI 系统是否稳定、可控、可观测、可扩展。

10.spring ai alibaba在spring ai上的改变

我理解 Spring AI Alibaba 本质上是在 Spring AI 基础上,对很多企业 AI 场景中的通用能力做了工程化封装。

以前很多能力需要自己手写:

  • Agent Loop
  • State 管理
  • Workflow 编排
  • Tool Calling
  • Graph 跳转
  • Memory
  • Multi-Agent
  • Context 管理
相关推荐
XLYcmy2 小时前
GameGPT 初赛方案设计 训练入口+主入口
windows·python·ai·llm·prompt·agent·游戏安全
闵孚龙13 小时前
Claude Code API通信层全解析:重试、流式、降级、Fast Mode、Prompt Cache 与 Files API 的底层工程
人工智能·架构·prompt
Aision_18 小时前
OpenClaw和Hermes的记忆有什么区别
人工智能·gpt·langchain·prompt·aigc·agi
厚国兄20 小时前
Agent 工程化系列 · 第 08 篇_Skills是什么和Prompt有什么区别
人工智能·prompt·agent
CODE2022031821 小时前
promptfoo自定义prompt生成器
java·前端·prompt
大连好光景1 天前
论文润色/降重的热门skills+Prompt
prompt
老毛肚1 天前
Prompt-Tuning方法入门
prompt
闵孚龙1 天前
Claude Code系统提示词架构全解析:Prompt Caching、多级缓存、Agent指令设计与System Prompt工程化
人工智能·缓存·架构·prompt
测试_AI_一辰1 天前
AI产品测试框架:从官方规范反向推导测试用例
人工智能·功能测试·自动化·prompt·测试用例·ai编程