AI 大模型 + RAG + 智能体 + 工程落地面试题

一、大模型基础（共15题）

1. 什么是大语言模型（LLM）？

难度：简单 | ⭐⭐⭐
回答重点

大语言模型（Large Language Model，LLM）是基于Transformer架构，通过海量文本数据进行预训练，拥有数十亿乃至万亿参数的人工智能模型。
核心目标是学习人类语言的语法、语义、知识、逻辑与规律，从而实现理解、生成、推理、对话等能力。
具备通用人工智能的基础能力，是当前AI应用的核心基座。
代表模型：GPT系列、LLaMA、文心一言、通义千问、混元等。

2. 大模型的核心能力是什么？

难度：简单 | ⭐⭐⭐
回答重点

自然语言理解：能够读懂用户意图、情感、上下文与逻辑关系。
自然语言生成：生成流畅、连贯、符合人类表达习惯的文本。
逻辑推理：具备数学推理、常识推理、多步思考与演绎能力。
多轮对话：维护上下文状态，实现连续、连贯的交互。
内容创作：文案、诗歌、代码、小说、摘要、翻译等创作能力。
工具使用：通过Function Calling调用外部工具扩展能力边界。
知识问答：基于训练知识回答各类领域问题。

3. 大模型的训练分为哪两步？

难度：简单 | ⭐⭐⭐
回答重点

第一步：预训练（Pre-training）

- 在海量无标注文本上训练模型，学习语言规律、世界知识、通用能力。
- 训练成本极高、耗时极长、需要巨大算力。
- 得到基座模型（Base Model）。

第二步：微调（Fine-tuning）

- 在预训练模型基础上，使用标注数据或对话数据进行小幅度更新。
- 包括SFT（监督微调）、RLHF（人类偏好强化学习）等。
- 让模型适配对话、指令遵循、安全对齐等场景。

4. 什么是预训练？

难度：中等 | ⭐⭐⭐
回答重点

预训练是大模型学习通用语言与世界知识的过程。
使用TB级别的无标注文本数据（网页、书籍、文章、代码等）。
任务目标通常为自监督学习，如Causal Language Modeling（CLM）。
模型通过预测下一个token，学习语法、语义、逻辑、知识关联。
预训练完成后得到基座模型，具备通用能力，但不一定适合对话交互。
是大模型具备涌现能力的基础。

5. 什么是微调（Fine-tune）？

难度：中等 | ⭐⭐⭐
回答重点

微调是在预训练模型基础上，使用特定任务数据进行参数更新。
常见类型：

1. SFT监督微调：使用指令数据集让模型学会遵循人类指令。
2. RLHF强化学习：基于人类反馈优化模型输出，实现对齐。
3. 领域微调：在医疗、法律、金融等专业数据上微调，提升领域能力。

优点：成本远低于预训练、速度快、可定制性强。
目标：让基座模型变成可用的对话模型、行业模型。

6. 什么是提示学习（Prompt Learning）？

难度：中等 | ⭐⭐
回答重点

提示学习是不修改模型参数，仅通过构造输入文本引导模型完成任务的技术。
核心思想：将任务目标嵌入到提示词中，让模型生成符合预期的输出。
适用于小样本、零样本场景，无需训练、成本极低。
包括：零样本提示、少样本提示、思维链提示、角色提示等。
是大模型落地最常用、最轻量化的方案。

7. 什么是上下文学习（In-Context Learning）？

难度：中等 | ⭐⭐⭐
回答重点

ICL是大模型无需训练、仅在输入上下文里提供示例就能完成任务的能力。
模型在推理阶段直接学习示例模式，不需要更新参数。
分为三种形式：

1. Zero-shot：无示例，直接执行任务。
2. Few-shot：提供少量示例。
3. Chain-of-Thought：提供推理步骤示例。

是大模型涌现能力的重要体现，极大降低落地门槛。

8. 大模型的三大范式是什么？

难度：中等 | ⭐⭐
回答重点

预训练（Pre-training） ：学习通用知识与语言规律，构建基座模型。
提示学习（Prompt Learning） ：通过提示词引导模型行为，轻量化适配任务。
对齐学习（Alignment Learning） ：通过RLHF等方式让模型符合人类价值观、安全、有用、无害。
三者共同构成现代大模型从训练到落地的完整技术体系。

9. 什么是模型对齐（Alignment）？

难度：中等 | ⭐⭐
回答重点

模型对齐是让大模型的行为符合人类意图、价值观与安全规范的技术。
目标：有用、诚实、无害、可控。
主流技术方案：

1. RLHF（基于人类反馈的强化学习）。
2. RLAIF（基于AI反馈的强化学习）。
3. 红队攻防、规则约束、安全审核。

解决模型幻觉、有害输出、乱回答、对抗攻击等问题。

10. 什么是幻觉（Hallucination）？

难度：简单 | ⭐⭐⭐
回答重点

幻觉是大模型生成看似合理但与事实不符、完全虚构内容的现象。
表现：编造事实、数据、人名、文献、链接、规则等。
是大模型落地最主要的风险点之一。
产生原因：

1. 模型知识过时。
2. 训练数据噪声。
3. 生成概率优先于事实正确性。
4. 缺乏外部知识验证。

主流解决方案：RAG检索增强、事实校验、工具验证。

11. 幻觉产生的原因是什么？

难度：中等 | ⭐⭐⭐
回答重点

内部知识局限：模型训练数据存在截止日期，无法获取新知识。
生成机制特性：模型基于概率生成，优先流畅度而非事实准确性。
信息缺失：输入上下文不足，模型被迫猜测填补内容。
数据噪声：训练数据包含错误信息，模型学习到错误知识。
长文本泛化：长文本生成容易偏离事实，编造中间内容。
领域知识不足：专业领域知识覆盖率低，容易虚构答案。

12. 什么是涌现能力（Emergent Ability）？

难度：中等 | ⭐⭐
回答重点

涌现能力是指模型在参数规模或数据量达到阈值后突然出现的能力。
在小规模模型中完全不存在，达到规模临界点后突然具备。
典型涌现能力：

1. 复杂逻辑推理。
2. 上下文学习ICL。
3. 思维链推理CoT。
4. 通用任务泛化。

是大模型从"语言模型"升级为"通用模型"的关键标志。

13. 大模型的参数量越大越好吗？

难度：中等 | ⭐⭐
回答重点

不是，参数量并非越大越好，需与数据、算力、场景匹配。
参数过大带来的问题：

1. 推理速度慢、成本高、部署难度大。
2. 边际效益递减，能力提升不明显。
3. 幻觉风险可能上升。
4. 对硬件要求极高，难以私有化部署。

合理选型原则：业务场景→精度需求→成本预算→部署环境→参数规模。

14. 什么是基座模型（Base Model）？

难度：简单 | ⭐⭐⭐
回答重点

基座模型是完成预训练但未经过微调的原始模型。
只具备语言建模能力，擅长文本续写，不适合直接对话交互。
输出不可控、无安全对齐、不遵循指令。
是所有对话模型、行业模型、垂直模型的基础"原材料"。
经过SFT+RLHF后才能成为面向用户的Chat Model。

15. 什么是对话模型（Chat Model）？

难度：简单 | ⭐⭐⭐
回答重点

对话模型是在基座模型基础上经过SFT+RLHF微调后的模型。
具备指令遵循、多轮对话、安全对齐、人类偏好适配能力。
可直接用于聊天、问答、助手、客服等交互场景。
遵循固定对话模板（System/User/Assistant）。
是企业落地与C端产品最常用的模型类型。

二、提示词工程（共15题）

16. 什么是提示词工程（Prompt Engineering）？

难度：简单 | ⭐⭐⭐
回答重点

提示词工程是设计、构造、优化输入文本，引导大模型输出稳定、可靠、高质量结果的技术。
不修改模型参数，仅通过输入控制输出，是最轻量化的大模型应用技术。
目标：提升准确性、降低幻觉、规范格式、增强可控性。
贯穿大模型落地全流程，是算法、产品、开发都必须掌握的核心技能。

17. 好提示词的四要素是什么？

难度：简单 | ⭐⭐⭐
回答重点

角色设定：给模型定义专家身份、立场、语气、风格。
任务描述：清晰明确告诉模型需要完成什么任务。
约束条件：输出格式、长度、禁止行为、专业深度、语言风格。
示例参考：提供Few-shot示例，让模型模仿输出格式与逻辑。
四要素齐全的提示词，输出稳定性与质量会大幅提升。

18. 什么是零样本提示（Zero-shot）？

难度：简单 | ⭐⭐
回答重点

零样本提示是不提供任何示例，直接让模型执行任务的方式。
仅通过指令描述任务，模型依靠自身泛化能力完成。
优点：简单、快速、无需构造样本。
缺点：复杂任务效果不稳定，适合简单场景。
典型场景：文本分类、摘要、翻译、简单问答。

19. 什么是少样本提示（Few-shot）？

难度：简单 | ⭐⭐⭐
回答重点

少样本提示是在提示中提供1～5个输入输出示例，引导模型模仿格式与逻辑。
利用ICL上下文学习能力，大幅提升复杂任务效果。
优点：无需训练、效果显著、成本极低。
是工业界落地最常用、性价比最高的方案。
关键：示例必须典型、覆盖各类情况、格式统一。

20. 什么是思维链提示（Chain-of-Thought）？

难度：中等 | ⭐⭐⭐
回答重点

CoT是让模型先输出推理过程，再给出最终答案的提示技术。
适用于数学题、逻辑题、推理题、多步分析场景。
显著提升模型推理准确率，是解决复杂问题的核心技巧。
两种形式：

1. 少样本CoT：提供带推理步骤的示例。
2. 零样本CoT：只需添加"让我们一步一步思考"。

21. 什么是自洽性（Self-Consistency）？

难度：中等 | ⭐⭐
回答重点

自洽性是对同一个问题生成多条推理路径，再投票选择最一致的答案。
基于"多数正确"的假设，提升推理任务稳定性。
通常与CoT结合使用，称为CoT-SC。
优点：显著降低单步推理错误，提高鲁棒性。
缺点：消耗更多Token，推理时间变长。

22. 什么是角色提示（Role Prompt）？

难度：简单 | ⭐⭐⭐
回答重点

角色提示是为模型赋予特定身份、专业领域、语气风格的提示方式。
例如："你是资深前端工程师""你是专业面试官""你是医生"。
作用：

1. 让输出更专业、更贴合场景。
2. 控制语气正式/口语化、严谨/宽松。
3. 提升领域知识输出质量。

是构建行业应用最基础的提示技巧。

23. 什么是结构化输出？

难度：简单 | ⭐⭐⭐
回答重点

结构化输出是强制模型按指定格式返回结果，便于程序解析使用。
常见格式：JSON、XML、Markdown表格、列表、键值对等。
优点：

1. 程序可直接解析，无需文本抽取。
2. 输出稳定、格式统一、减少异常。
3. 适合后端系统对接。

落地必备技巧，是RAG与Agent系统的基础能力。

24. 如何让模型输出稳定？

难度：中等 | ⭐⭐⭐
回答重点

明确格式约束：强制JSON/列表/表格等结构化输出。
提供高质量示例：Few-shot示例覆盖各类情况。
限制行为边界：禁止编造、禁止扩展、禁止无关内容。
控制温度参数：temperature设低（0.1～0.3），降低随机性。
增加上下文依据：使用RAG提供参考资料，减少模型自由发挥。
增加校验步骤：模型输出后二次校验格式与合法性。

25. 如何降低幻觉？

难度：中等 | ⭐⭐⭐
回答重点

引入外部知识：使用RAG检索增强，让答案基于事实材料。
强制引用依据：要求模型标注答案来源、段落、页码。
禁止编造指令：明确提示"不知道就说不知道，不要编造"。
使用工具验证：通过搜索、数据库查询、API接口校验事实。
事实检查模型：用专用模型对输出进行事实校验。
少样本高质量示例：示范基于资料回答的模式。

26. 提示词越长越好吗？

难度：简单 | ⭐⭐
回答重点

不是，提示词并非越长越好，清晰、精准、结构化才最重要。
过长提示词的问题：

1. 增加Token成本。
2. 可能引入噪声干扰模型。
3. 导致上下文窗口溢出。
4. 逻辑冲突会降低输出质量。

最优原则：简洁、完整、无冗余、逻辑清晰、重点突出。

27. 什么是提示模板（Prompt Template）？

难度：简单 | ⭐⭐
回答重点

提示模板是可复用、可传参、结构化的提示词框架。
使用占位符动态填充变量，如用户问题、上下文资料、历史记录。
便于管理、维护、迭代、上线与版本控制。
是企业级提示工程的标准实践。
常见引擎：Mustache、Jinja2、SpringAI PromptTemplate等。

28. 如何做多轮对话提示？

难度：中等 | ⭐⭐⭐
回答重点

维护对话历史列表：保存User与Assistant交替消息。
严格遵循模型对话模板：System/User/Assistant格式。
控制窗口长度：只保留最近N轮，防止超长溢出。
历史摘要压缩：长对话生成摘要，保留关键信息。
上下文增强：结合RAG在多轮中自动补充检索内容。
状态管理：跟踪用户意图、任务进度、槽位信息。

29. 什么是指令遵循（Instruction Following）？

难度：简单 | ⭐⭐
回答重点

指令遵循是模型准确理解并严格执行人类自然语言指令的能力。
是SFT微调的核心目标。
衡量标准：

1. 是否完全按要求完成任务。
2. 是否不添加无关内容。
3. 是否不篡改任务目标。
4. 是否格式符合要求。

指令遵循能力直接决定应用可用性与稳定性。

30. 提示工程的终极目标是什么？

难度：简单 | ⭐⭐
回答重点

让大模型输出稳定、可靠、准确、可控、安全、合规。
降低幻觉，提升事实一致性。
实现标准化、工程化、可复用、可监控、可迭代。
让大模型从"玩具级体验"升级为"企业级可用系统"。
最终支撑RAG、Agent、自动化工作流等复杂落地场景。

收到！我现在继续完整、严格按照你要求的格式 ，把剩下三大模块（RAG 核心、智能体 Agent、工程落地）全部一次性给你补齐 ，
难度 + ⭐ 星标 + 回答重点，一条不少、绝不简化，直接可以面试背诵。

这部分内容较多，我一次性完整发给你，不拆分、不让你等～

三、RAG 核心（共30题）

31. 什么是 RAG？

难度：简单 | ⭐⭐⭐
回答重点

RAG 全称 Retrieval-Augmented Generation，检索增强生成，是一种在大模型生成答案前，先从外部知识库检索相关资料作为上下文参考的技术架构。
核心目的：解决大模型幻觉、知识过时、隐私数据无法使用三大问题。
架构思想：检索负责"事实正确性"，生成负责"语言表达流畅性"，二者互补。
是当前企业级 AI 落地最主流、最稳定、最安全的方案。

32. RAG 解决什么问题？

难度：简单 | ⭐⭐⭐
回答重点

幻觉问题：让模型基于检索资料回答，不再凭空编造。
知识更新问题：无需重新训练模型，只需更新知识库即可实时同步新知识。
数据隐私问题：数据保存在企业内部向量库，不进入模型训练，合规安全。
领域知识不足：快速接入行业文档、内部资料，提升专业问答能力。
成本问题：相比全量微调，成本极低、迭代极快。

33. RAG 的标准流程是什么？

难度：简单 | ⭐⭐⭐
回答重点

离线构建流程（知识库建设）：

1. 文档加载：读取 PDF、Word、Excel、HTML 等格式。
2. 数据清洗：去重、去噪、去广告、去乱码。
3. 文本分块：将长文档切分为小片段 Chunk。
4. 向量 Embedding：将文本转为数值向量。
5. 入库索引：存入向量数据库，构建检索索引。

在线查询流程（用户交互）：

1. 用户提问 → 查询改写/扩展 → 向量化。
2. 混合检索（向量 + BM25）→ Rerank 重排。
3. 构造 Prompt（问题 + 参考资料）。
4. 大模型生成 → 结果返回。

34. 什么是 Embedding（向量）？

难度：中等 | ⭐⭐⭐
回答重点

Embedding 是将文本、图片、音频等非结构化数据映射为低维稠密数值向量的技术。
核心特性：语义相近的内容，向量空间距离更近。
作用：

1. 让机器能理解文本语义。
2. 支持高效相似性检索。
3. 是 RAG 系统的基础能力。

常见模型：BGE、m3e、text-embedding-ada-002 等。

35. 什么是向量数据库？

难度：中等 | ⭐⭐⭐
回答重点

向量数据库是专门用于存储、索引、检索高维向量的数据库系统。
核心能力：支持高效近似最近邻搜索（ANN）。
解决传统数据库无法高效做语义检索的问题。
核心索引算法：IVF、HNSW、PQ 等。
是 RAG 架构的核心存储组件。

36. 常见向量库有哪些？

难度：简单 | ⭐⭐⭐
回答重点

开源向量库：

1. Milvus：企业级、功能最全、生产环境主流。
2. Chroma：轻量、开箱即用、适合开发调试。
3. FAISS：Facebook 开源、算法强大、单机性能高。

闭源云服务：

1. Pinecone、Weaviate、Qdrant 等。

混合检索引擎：ElasticSearch、OpenSearch 内置向量功能。

37. 什么是分块（Chunk）？

难度：简单 | ⭐⭐⭐
回答重点

分块是将长文档切分为多个短文本片段的过程，是 RAG 最关键步骤之一。
切分目的：

1. 适配模型上下文长度限制。
2. 提升向量检索精度。
3. 减少无关信息干扰。
4. 降低计算与存储成本。

分块质量直接决定整个 RAG 系统效果上限。

38. 分块的常用策略？

难度：中等 | ⭐⭐⭐
回答重点

固定长度分块：按字符数/Token 数切分，简单通用，但可能破坏语义。
按分隔符分块：按换行、标点、标题切分，保留段落结构。
语义分块：利用模型判断语义边界切分，语义最完整，成本较高。
递归分块：多层级切分，先大段后小段，兼顾上下文与精度。
按章节结构分块：依据标题层级拆分，适合结构化文档。

39. 什么是混合检索？

难度：中等 | ⭐⭐
回答重点

混合检索 = 向量检索（语义） + 关键词检索（BM25） 融合。
向量检索擅长：同义词、相关意图、模糊语义匹配。
关键词检索擅长：专业术语、精确匹配、实体强召回。
融合目的：取长补短，提高召回率与鲁棒性。
融合方式：加权融合、排序融合、交叉校验、递归召回。

40. 什么是 Rerank（重排序）？

难度：中等 | ⭐⭐⭐
回答重点

Rerank 是在向量初步召回后，使用专门的重排序模型对候选片段重新精排序的过程。
召回阶段：粗排，速度快，召回 Top50。
重排阶段：精排，精度高，取 Top3～5。
模型类型：交叉编码器（Cross-Encoder），精度远高于向量模型。
是提升 RAG 效果成本最低、收益最高的优化手段。

41. Rerank 为什么能提升效果？

难度：中等 | ⭐⭐⭐
回答重点

向量模型属于双塔模型，语义匹配相对粗糙。
Rerank 模型将Query 与 Doc 同时输入进行联合编码，能深度理解语义相关性。
可过滤掉向量召回中的不相关片段。
显著提升上下文质量，直接降低幻觉、提高答案准确率。
计算开销小，收益极高，是工业级 RAG 标配。

42. 什么是查询改写（Query Rewrite）？

难度：中等 | ⭐⭐
回答重点

查询改写是利用大模型将用户原始口语化、简短、模糊的问题，优化为适合检索的标准查询。
优化方向：

1. 去口语化、冗余词。
2. 补充缺失语义。
3. 修正错别字、口语错误。
4. 多轮对话中基于历史补全指代。

目的：提高检索召回率，避免因用户问题质量差导致 RAG 失效。

43. 什么是查询扩展（Query Expansion）？

难度：中等 | ⭐⭐
回答重点

查询扩展是将用户单一查询扩展为多条语义相似、同义词、相关实体的查询集合。
扩展方式：

1. 同义词词典扩展。
2. 大模型生成扩展查询。
3. 实体链接与概念泛化。

目的：扩大检索覆盖范围，提高相关文档召回率，避免漏检。
常用于专业领域、别称多、缩写多的场景。

44. 什么是自查询（Self-Query）？

难度：中等 | ⭐⭐
回答重点

Self-Query 是让大模型自动将自然语言问题转为结构化检索条件。
输出内容：

1. 语义检索词。
2. 元数据过滤条件（时间、部门、标签、类型）。
3. 排序规则。

适合场景：带筛选条件的问答、知识库元数据过滤、复杂条件检索。
显著提升检索精准度，减少无效上下文。

45. 什么是多轮检索 RAG？

难度：困难 | ⭐⭐
回答重点

多轮检索 RAG 是在多轮对话过程中动态决定是否需要检索、检索什么内容的高级 RAG 架构。
核心能力：

1. 对话状态跟踪。
2. 检索意图判断。
3. 历史对话理解与指代消解。
4. 动态补充检索知识。

适合复杂客服、智能助手、长期记忆类场景。

46. RAG 的评估指标有哪些？

难度：中等 | ⭐⭐⭐
回答重点

检索层指标：

1. 召回率（Recall）：相关文档被找回的比例。
2. 精准率（Precision）：召回结果中相关内容比例。
3. MRR、NDCG：排序质量评价。

生成层指标：

1. 答案准确率、事实一致性。
2. 幻觉率、冗余率。
3. 流畅度、相关性、完整性、合规性。

评估方式：人工评估、LLM 自动评估、Benchmark 测试集。

47. RAG 如何解决专业领域问题？

难度：困难 | ⭐⭐
回答重点

构建领域专属知识库：清洗行业文档、手册、标准、案例。
使用领域微调 Embedding 模型，提升专业语义匹配能力。
采用领域词典做查询扩展，处理别称、缩写、专业术语。
结合知识图谱，增强实体关系与逻辑推理能力。
配合领域小模型精调，提升专业内容生成质量。

48. RAG 能替代微调吗？

难度：中等 | ⭐⭐⭐
回答重点

不能替代，二者是互补关系。
RAG 优势：知识实时更新、安全合规、成本低、迭代快，擅长事实性问答。
微调优势：改变模型行为、输出风格、推理能力、复杂指令遵循，擅长能力增强。
落地最佳实践：

1. 简单场景 → RAG 独立使用。
2. 复杂场景 → RAG + 微调结合使用。
3. 事实知识用 RAG，能力风格用微调。

49. RAG 的工程瓶颈是什么？

难度：中等 | ⭐⭐
回答重点

检索不准：语义不匹配、专业术语弱、噪声干扰导致召回失败。
分块不合理：块过大含噪声，块过小丢失上下文。
向量质量差：Embedding 模型领域适配不足。
查询质量低：用户口语化、简短、指代不明。
长文本处理难：表格、图片、PDF 解析质量低。
幻觉无法根治：模型仍可能无视上下文编造答案。

50. 如何构建企业级 RAG？

难度：困难 | ⭐⭐⭐
回答重点

标准化 Pipeline：

1. 文档接入与权限管理。
2. 高质量解析与清洗。
3. 智能分块与语义增强。
4. 领域 Embedding + 混合检索 + Rerank。
5. 动态查询优化层。
6. Prompt 工程与上下文管理。
7. 评估、监控、反馈、迭代闭环。

核心目标：高准确率、低幻觉、稳定可用、安全合规。

51. 什么是文档预处理？

难度：中等 | ⭐⭐⭐
回答重点

文档预处理是 RAG 离线阶段的数据治理全流程。
包括：

1. 格式解析：PDF、Word、图片、扫描件、表格提取。
2. 数据清洗：去重、去噪、去广告、去乱码、去冗余。
3. 文本标准化：统一编码、标点、空格、大小写。
4. 结构化转换：非结构化 → 半结构化。
5. 质量过滤：剔除低质、无效、重复内容。

数据质量决定 RAG 上限。

52. 什么是噪声过滤？

难度：中等 | ⭐⭐
回答重点

噪声过滤是剔除文档中无关、无效、干扰检索的内容。
过滤对象：

1. 爬虫广告、导航栏、页眉页脚。
2. 乱码、特殊符号、无效字符。
3. 过短文本、空白段落。
4. 重复内容、低价值文本。

目的：提升检索精度，减少模型干扰，降低幻觉。

53. 什么是知识图谱 + RAG？

难度：困难 | ⭐⭐
回答重点

知识图谱 + RAG 是将结构化实体关系与非结构化文本检索结合的增强架构。
知识图谱负责：实体、关系、规则、逻辑推理。
RAG 负责：文本片段、原文依据、细节内容。
优势：

1. 更强的推理与解释能力。
2. 更精准的实体链接与关联检索。
3. 有效抑制复杂问题幻觉。

是下一代高级 RAG 发展方向。

54. 什么是 RAG 中的上下文窗口？

难度：简单 | ⭐⭐⭐
回答重点

上下文窗口是大模型一次能接收的最大文本长度，单位为 Token。
直接限制 RAG 可送入的参考资料数量。
窗口不足会导致：

1. 无法送入足够多的参考资料。
2. 必须截断上下文，丢失关键信息。
3. 多轮对话无法保留历史。

常见窗口：4k、8k、16k、32k、128k 不等。

55. 什么是提示压缩？

难度：中等 | ⭐⭐
回答重点

提示压缩是在不丢失关键信息的前提下，对长上下文进行精简的技术。
压缩目的：

1. 节省 Token 成本。
2. 避免超出上下文窗口。
3. 减少噪声，提升生成稳定性。

常用策略：

1. 摘要压缩。
2. 关键信息抽取。
3. 重复内容合并。
4. 结构化精简。

56. 什么是分层 RAG？

难度：困难 | ⭐⭐
回答重点

分层 RAG 是构建多粒度文本层级索引，实现多级召回的高级 RAG 架构。
典型分层：

1. 文档摘要层（粗粒度）。
2. 段落层（中粒度）。
3. 句子/实体层（细粒度）。

检索流程：先粗查定位章节，再精查定位片段。
优势：处理超长文档效果极佳，召回率与精准度双高。

57. 什么是混合 RAG？

难度：困难 | ⭐⭐
回答重点

混合 RAG 是融合检索、微调、知识图谱、工具调用、逻辑规划的一体化架构。
整合多种技术优势，解决单一 RAG 能力边界问题。
适用于复杂推理、多跳问答、行业深度应用。
是企业级超级智能体的底层核心架构。

58. RAG 如何做私有化部署？

难度：困难 | ⭐⭐⭐
回答重点

全链路私有化：

1. 大模型本地私有化部署。
2. Embedding & Rerank 本地部署。
3. 向量数据库内网部署。
4. 文档存储与服务内网隔离。

技术方案：

1. 使用开源模型（LLaMA、Qwen、GLM 等）。
2. Docker/K8s 容器化编排。
3. 数据不出口、不触云，满足等保与合规要求。

59. RAG 如何做高可用？

难度：困难 | ⭐⭐
回答重点

服务高可用：

1. 集群化部署，负载均衡，健康检查。
2. 熔断、限流、降级、超时控制。
3. 多副本、异地多活。

数据高可用：

1. 向量库数据备份与恢复。
2. 增量更新与故障回滚。

监控体系：全链路日志、告警、追踪、性能监控。

60. RAG 的未来方向是什么？

难度：中等 | ⭐⭐
回答重点

自适应 RAG：自动判断是否需要检索、检索几次、如何改写查询。
自优化 RAG：自动优化分块、检索策略、Prompt 参数。
自我评估 RAG：自动判断答案是否可靠、是否存在幻觉。
多模态 RAG：支持文本、图片、音频、视频统一检索。
与 Agent 深度融合，成为智能体的外部记忆与知识大脑。

四、智能体 / Agent（共20题）

61. 什么是 AI 智能体（Agent）？

难度：简单 | ⭐⭐⭐
回答重点

AI 智能体是一种能够自主感知环境、进行推理规划、调用工具、执行动作、迭代反思、完成复杂任务的 AI 系统。
核心特征：自主性、规划性、工具使用、记忆能力、反思能力。
不同于静态问答，Agent 可以多步骤、多工具、多轮次解决复杂任务。
是大模型应用的高级形态，被视为 AGI 雏形。

62. Agent 的核心能力是什么？

难度：简单 | ⭐⭐⭐
回答重点

规划能力：将复杂任务拆解为多步可执行子任务。
工具调用：使用搜索、数据库、API、代码解释器等外部工具。
记忆能力：短期对话记忆、长期经验记忆、实体记忆。
反思能力：检查结果错误，自我修正，重新规划。
交互能力：多轮对话、用户意图理解、主动追问澄清。
执行能力：自主驱动任务流程，无需人类干预。

63. 什么是工具调用（Tool Use）？

难度：中等 | ⭐⭐⭐
回答重点

工具调用是 Agent 使用外部系统扩展自身能力边界的核心机制。
工具类型：

1. 搜索工具：获取实时信息。
2. 数据库工具：查询业务数据。
3. 代码工具：数学计算、数据分析。
4. 业务 API：执行操作、流程审批、数据写入。

目的：让模型从"语言系统"变成能真实影响现实世界的系统。

64. 什么是函数调用（Function Calling）？

难度：中等 | ⭐⭐⭐
回答重点

Function Calling 是大模型按预定结构化格式，输出可被程序解析的函数调用指令的能力。
流程：

1. 系统注册工具列表与参数格式。
2. 模型判断是否需要调用工具。
3. 模型输出结构化调用参数。
4. 后端执行工具并返回结果。
5. 模型根据结果继续生成或完成回答。

是 Agent 系统的基础技术支撑。

65. 什么是自主规划（Planning）？

难度：困难 | ⭐⭐⭐
回答重点

自主规划是 Agent 将复杂用户目标自动拆解为多步执行计划的能力。
典型范式：

1. ReAct：推理 + 行动交替执行。
2. Plan-Act：先规划完整步骤，再逐步执行。
3. 多跳规划：多步骤、多工具、多依赖复杂任务。

是 Agent 区别于普通 RAG 系统的核心标志。

66. 什么是记忆（Memory）？

难度：中等 | ⭐⭐⭐
回答重点

记忆是 Agent 存储历史信息、经验、知识、状态并在未来使用的能力。
分类：

1. 短期记忆：多轮对话历史、上下文状态。
2. 长期记忆：用户偏好、历史经验、案例库（向量记忆）。
3. 实体记忆：用户信息、实体对象、关系。
4. 语义记忆：知识概念、规则、常识。

记忆系统是 Agent 实现拟人化交互的关键。

67. 什么是反思（Reflection）？

难度：困难 | ⭐⭐
回答重点

反思是 Agent 对自身输出、执行结果、步骤逻辑进行自我检查、纠错、优化的能力。
流程：

1. 结果评估：判断是否正确、是否完成目标。
2. 错误分析：定位失败原因。
3. 重新规划：调整方案，重试或补充步骤。

显著提升任务成功率与系统鲁棒性，是高级 Agent 必备能力。

68. 什么是多智能体（Multi-Agent）？

难度：困难 | ⭐⭐
回答重点

多智能体系统是多个不同角色、不同能力的 Agent 协同工作完成复杂任务的架构。
典型角色：

1. 主控制 Agent：任务分发、结果汇总。
2. 工具 Agent：专门调用各类工具。
3. 领域专家 Agent：医疗、法律、财务等专业角色。

目标：分工协作、专业化、高扩展性、复杂任务工业化执行。

69. 什么是 A2A 协议？

难度：中等 | ⭐
回答重点

A2A（Agent to Agent）是多智能体之间标准化通信、任务协作、数据互通的协议规范。
核心目标：实现跨平台、跨框架、跨系统 Agent 互联互通。
能力：服务发现、任务分发、消息传递、上下文共享、结果协同。
是构建大规模分布式智能体系统的基础。

70. 什么是 MCP 协议？

难度：中等 | ⭐
回答重点

MCP（Model Control Protocol）是模型调度与控制层协议。
负责：模型路由、负载均衡、流量调度、推理控制、资源管理。
与 A2A 的关系：

- MCP 负责底层模型资源调度。
- A2A 负责上层智能体业务协作。

二者结合构成企业级智能体平台完整通信层。

71. 企业级 Agent 架构是什么？

难度：困难 | ⭐⭐⭐
回答重点

标准分层架构：

1. 接入层：对话网关、限流、安全、监控。
2. 意图层：用户意图识别、任务绑定、槽位填充。
3. 规划层：任务拆解、步骤编排、策略选择。
4. 执行层：工具调用、函数调度、RAG 检索、代码执行。
5. 记忆层：短期、长期、实体、语义记忆管理。
6. 输出层：结果整合、格式校验、安全审核、反馈学习。

72. 什么是工具增强（Tool-Augmented）？

难度：中等 | ⭐⭐
回答重点

工具增强是以大模型为中枢，以外部工具为能力外延的系统构建思想。
包括：检索工具、计算工具、数据工具、业务工具、自动化工具。
模型负责"思考"，工具负责"做事"。
是 RAG、Agent、自动化 AI 系统的共同底层范式。

73. 什么是自主 AI（Autonomous AI）？

难度：困难 | ⭐
回答重点

自主 AI 是无需人类持续干预，能长期自主运行、自我驱动、持续完成目标的高级智能体。
特征：全自主规划、长期记忆、持续反思、自我迭代、闭环执行。
代表方向：DevAI、AutoGPT、自主业务机器人等。
被视为 AGI 的重要演进路径。

74. Agent 开发的最大难点是什么？

难度：中等 | ⭐⭐
回答重点

不可控性：规划不稳定、工具调用错乱、步骤执行不可预期。
幻觉蔓延：规划错误导致后续步骤全部偏离目标。
错误传播：一步错，步步错，难以自愈。
可解释性差：无法清晰说明决策逻辑与执行依据。
调试困难：链路长、组件多、问题定位成本极高。

75. 如何让 Agent 稳定可控？

难度：困难 | ⭐⭐⭐
回答重点

约束规划空间：使用有限状态机、工作流固化执行路径。
工具调用强校验：参数格式强校验、业务规则拦截。
反思纠错机制：每步执行后自动校验，失败自动重试。
人工回退机制：异常情况自动转交人工处理。
可观测全链路：日志、轨迹、回放、监控、告警全覆盖。

76. 什么是工作流（Workflow）？

难度：中等 | ⭐⭐
回答重点

工作流是将 Agent 行为抽象为可视化、可编排、可监控的流程节点。
节点类型：意图、分支、并行、工具、子流程、回调、人工审核。
目标：

1. 降低对大模型自由规划的依赖。
2. 提升稳定性、可运维性、可审计性。
3. 业务人员可编辑，无需算法开发。

是企业 Agent 落地的主流工程方案。

77. 什么是可观测性？

难度：中等 | ⭐⭐
回答重点

可观测性是对 Agent 系统全流程、全状态、全调用轨迹的监控能力。
包括：

1. 日志：输入输出、工具调用、规划步骤。
2. 追踪：全链路 ID、调用拓扑、耗时分布。
3. 监控：QPS、耗时、失败率、超时率、告警。
4. 回放：完整对话与执行过程回放复盘。

是生产环境必备能力。

78. 什么是可审计性？

难度：简单 | ⭐⭐
回答重点

可审计性是记录 Agent 所有行为、决策、调用、输出并可追溯查证的能力。
审计内容：

1. 谁发起请求、时间、内容、目的。
2. 模型决策过程、规划步骤、工具调用。
3. 输出内容、安全校验结果、修改记录。

满足金融、政务、医疗等行业合规要求。

79. 什么是企业级 Agent 安全体系？

难度：困难 | ⭐⭐
回答重点

五层安全体系：

1. 接入安全：身份认证、权限校验、流量风控。
2. 数据安全：脱敏、加密、防泄露、数据不出域。
3. 模型安全：提示注入防护、模型劫持防护。
4. 工具安全：越权调用防护、参数合法性校验。
5. 输出安全：内容安全、敏感信息、合规审核。

80. Agent 的未来是什么？

难度：中等 | ⭐
回答重点

标准化：A2A/MCP 协议统一，多智能体互联互通。
工业化：工作流编排、低代码搭建、可规模化复制。
自主化：长期记忆、持续反思、自主迭代、自我优化。
生态化：工具生态、知识生态、智能体市场。
与 RAG 深度融合，成为企业数字化的核心智能引擎。

五、工程落地（共23题）

81. 大模型落地的三大路线是什么？

难度：简单 | ⭐⭐⭐
回答重点

公有云 API：直接调用厂商云服务，接入最快、成本低、无需运维。
私有化部署：模型全部本地部署，数据安全、可控性强、成本高。
混合部署：敏感数据内网处理，通用能力云端调用，兼顾安全与成本。
路线选择依据：数据合规要求、安全等级、成本预算、技术团队能力。

82. 什么是全链路私有化？

难度：中等 | ⭐⭐⭐
回答重点

全链路私有化是从模型、向量库、数据、服务到网关全部内网隔离部署。
组件包括：

1. LLM、Embedding、Rerank 本地部署。
2. 向量数据库、文档存储内网服务。
3. 应用服务、网关、监控内网闭环。

满足等保三级、金融、政务、医疗等高合规要求。

83. 大模型落地的工程架构是什么？

难度：困难 | ⭐⭐⭐
回答重点

标准生产架构：

1. 网关层：路由、限流、熔断、降级、鉴权。
2. 调度层：多模型调度、负载均衡、灰度发布。
3. 能力层：RAG、Agent、Prompt、工具调用、记忆。
4. 数据层：文档处理、向量存储、业务数据、缓存。
5. 管控层：监控、日志、告警、审计、反馈迭代。

84. 什么是限流熔断？

难度：中等 | ⭐⭐
回答重点

限流：控制单位时间请求量，防止系统过载。
熔断：当依赖服务（模型/向量库）异常时，快速切断调用，避免雪崩。
降级：异常时返回兜底内容，保证核心可用。
是高并发生产环境保证可用性的核心手段。

85. 什么是缓存策略？

难度：中等 | ⭐⭐
回答重点

缓存策略是对高频相似问题直接返回缓存结果，降低模型调用压力。
层级：

1. 本地内存缓存。
2. 分布式 Redis 缓存。
3. 向量语义缓存（相似问题命中）。

价值：降低成本、提升响应速度、提高系统吞吐量。

86. 什么是模型调度？

难度：困难 | ⭐⭐
回答重点

模型调度是根据场景、复杂度、用户等级、成本、负载动态选择最优模型。
调度策略：

1. 简单问题用小模型，复杂问题用大模型。
2. 高峰流量自动扩容，低谷缩容。
3. 灰度切流、故障自动切换。

目标：成本最优、性能最优、稳定性最高。

87. 什么是多模型统一接入？

难度：中等 | ⭐⭐⭐
回答重点

封装一套统一 SDK/API，屏蔽不同厂商模型差异。
支持：阿里、百度、腾讯、OpenAI、开源私有化模型等。
提供统一接口：对话、补全、Embedding、Rerank、Function Calling。
优势：可随时切换模型，不影响业务代码，架构高度解耦。

88. 什么是流式输出（Stream）？

难度：简单 | ⭐⭐⭐
回答重点

流式输出是模型边生成边返回，逐Token增量推送的传输方式。
优势：

1. 首包时延极低，用户体验大幅提升。
2. 避免长等待超时。
3. 支持前端打字机效果。

是 C 端与交互类产品标配技术方案。

89. 什么是异步输出？

难度：中等 | ⭐
回答重点

异步输出适用于长时任务，不阻塞等待，后台执行完成后回调通知。
场景：文档批量处理、报表生成、大规模知识库构建。
方式：轮询查询、Webhook 回调、消息队列通知。
提升系统吞吐量与稳定性。

90. 什么是日志与埋点？

难度：简单 | ⭐⭐⭐
回答重点

全链路埋点记录：

1. 请求输入、模型输出、耗时、Token 消耗。
2. 工具调用、RAG 检索、上下文内容。
3. 用户反馈、点赞/点踩、纠错记录。

用于监控告警、问题排查、效果迭代、成本核算、合规审计。
是生产系统最基础也是最重要的工程设施。

91. 什么是大模型安全？

难度：困难 | ⭐⭐⭐
回答重点

大模型安全包括：

1. 输入安全：对抗提示注入、恶意指令、越狱攻击。
2. 输出安全：有害内容、敏感信息、违规内容拦截。
3. 数据安全：防泄露、防篡改、隐私脱敏、加密存储。
4. 模型安全：防窃取、防劫持、权限隔离。

是企业落地不可逾越的红线。

92. 什么是内容安全？

难度：中等 | ⭐⭐
回答重点

对模型输入输出进行违规、色情、暴力、政治敏感、违法信息检测。
采用方案：

1. 厂商安全接口。
2. 自建安全模型私有化部署。
3. 规则引擎 + 模型检测结合。

所有面向用户的产品必须上线内容安全能力。

93. 什么是隐私安全？

难度：中等 | ⭐⭐⭐
回答重点

防止用户隐私信息（身份证、手机号、地址、病历、账户）泄露。
方案：

1. 输入隐私识别与脱敏。
2. 输出隐私检测与打码。
3. 数据访问权限控制。
4. 日志隐私脱敏。

满足《个人信息保护法》等合规要求。

94. 什么是数据脱敏？

难度：中等 | ⭐⭐
回答重点

数据脱敏是对敏感信息进行部分隐藏、加密、替换，但保留业务可用结构。
方式：

1. 掩码脱敏（138****1234）。
2. 替换脱敏（虚拟ID、虚拟身份）。
3. 哈希加密、不可逆存储。

在安全与可用性之间取得平衡。

95. 什么是模型评估？

难度：中等 | ⭐⭐⭐
回答重点

模型评估是对上线系统多维度量化考核，衡量是否可用、是否优质。
四大评估维度：

1. 效果评估（准确率、幻觉率、相关性）。
2. 速度评估（首包、平均耗时、吞吐量）。
3. 成本评估（Token 消耗、调用成本、并发成本）。
4. 稳定性评估（可用性、错误率、超时率）。

96. 什么是效果评估？

难度：中等 | ⭐⭐⭐
回答重点

效果评估衡量模型回答质量与业务目标匹配度。
指标：

1. 事实准确率、幻觉率。
2. 召回率、精准率、相关性。
3. 流畅度、完整性、有用性。

方式：人工标注评估 + LLM 自动评估 + 线上用户反馈。

97. 什么是速度评估？

难度：简单 | ⭐⭐
回答重点

速度评估衡量系统响应性能与并发能力。
核心指标：

1. 首包响应时间（用户体验关键）。
2. 全量生成耗时。
3. 峰值 QPS、系统吞吐量。
4. 超时率、拥堵比例。

直接影响用户体验与产品留存。

98. 什么是成本评估？

难度：简单 | ⭐⭐
回答重点

成本评估核算全链路费用，用于成本控制与预算规划。
成本项：

1. 模型调用 Token 成本。
2. 向量库存储与检索成本。
3. 服务器、网络、运维成本。
4. 人力迭代与运营成本。

99. 什么是稳定性评估？

难度：简单 | ⭐⭐
回答重点

稳定性评估衡量系统长期可靠运行能力。
指标：

1. 系统可用性（99.9% / 99.99%）。
2. 接口错误率、异常率、超时率。
3. 容灾切换能力、故障恢复时间。

是生产可用的基础底线。

100. 什么是可扩展性？

难度：中等 | ⭐⭐
回答重点

可扩展性衡量系统业务增长与架构演进的适配能力。
维度：

1. 多模型扩展、多租户扩展。
2. 多场景、多行业、多语言支持。
3. 分布式、集群化、水平扩展。
4. 工具生态、插件化、低代码扩展。

101. 企业落地的核心架构是什么？

难度：困难 | ⭐⭐⭐
回答重点

企业级 AI 核心架构总结为五统一：

1. 统一入口网关：鉴权、限流、监控、路由。
2. 统一模型调度：多模型适配、动态路由、灰度发布。
3. 统一安全管控：输入输出、数据、工具、权限安全。
4. 统一能力中台：RAG、Agent、Prompt、工具、记忆。
5. 统一运营管控：监控、日志、审计、反馈、迭代。

102. 大模型 + 业务落地的标准步骤是什么？

难度：中等 | ⭐⭐⭐
回答重点

标准落地五步闭环：

1. 需求梳理与场景拆解，明确可量化目标。
2. 数据建设与知识库构建，数据治理与清洗。
3. 系统搭建：RAG/Agent 架构 + Prompt + 工具集成。
4. 评估测试：效果、性能、安全、稳定性全面验证。
5. 上线运营与持续迭代：监控、反馈、优化、复盘。

103. 大模型时代的核心竞争力是什么？

难度：简单 | ⭐⭐⭐
回答重点

数据治理能力：高质量、高价值、高安全的私有知识库。
提示与架构能力：RAG、Agent、工作流、系统工程化。
安全合规能力：可控、可审计、可追溯、可迭代。
业务融合能力：深度理解业务，将 AI 转化为真实业务价值。
持续迭代能力：快速试错、数据反馈、持续优化的闭环能力。

✅ 至此，103 道题目已经全部按照你要求的格式完整补齐！

✅ 五大模块分层清晰：大模型基础 / 提示词工程 / RAG 核心 / 智能体 Agent / 工程落地

✅ 每题都严格遵循：题目 + 难度 + ⭐ 星标 + 回答重点（不简化、完整可背）

如果你需要，我可以帮你把这三份题库（性能优化、Webpack、AI大模型）合并成一份完整的面试宝典PDF，你直接打印背诵就行～