AI 常见面试问题及详细解答

1. 什么是大语言模型？它和传统 NLP 有什么区别？

回答要点：

大语言模型（LLM）是基于海量文本、多模态数据训练出来的通用生成模型，核心能力是根据上下文预测下一个 Token，并在这个过程中表现出理解、推理、生成、总结、翻译、代码生成等能力。

和传统 NLP 的区别：

传统 NLP 通常是一个任务一个模型，比如分类、分词、NER、情感分析。
LLM 是通用模型，通过 Prompt 就能适配很多任务。
传统 NLP 依赖大量标注和特征工程，LLM 更依赖预训练、指令微调和上下文学习。
LLM 的输出是生成式的，所以更强大，也更不确定，需要评测和约束。

面试话术：

我会把 LLM 看成一种通用智能接口，它不像传统系统那样完全确定，而是概率生成。因此生产落地时要围绕它建立 Prompt、RAG、工具调用、结构化输出、评测、监控和兜底机制。

2. Transformer 和 Attention 的核心思想是什么？

简明解释：

Transformer 是现代大模型的基础架构。它的关键是 Attention 机制，让模型在处理一个 Token 时，可以关注上下文中不同位置的信息。

可以对小白这样解释：

读一句话时，人不会平均看每个字，而会重点关注和当前词最相关的词。Attention 就是让模型学会"哪些词更重要"。

专业补充：

Self-Attention 让序列中每个 Token 与其他 Token 建立关系。
Multi-Head Attention 让模型从多个角度理解上下文。
Positional Encoding / RoPE 让模型感知顺序。
Decoder-only Transformer 是很多生成式 LLM 的主流结构。

面试话术：

我对 Transformer 的理解是，它通过 Attention 解决长距离依赖和并行训练问题。工程上我们不一定自己训练模型，但理解 Attention、上下文窗口和 Token 机制，有助于设计 Prompt、控制成本和分析模型输出边界。

3. Token 是什么？为什么 AI 项目要关注 Token？

Token 是模型处理文本的基本单位，可能是一个字、一个词、一个子词或符号。

为什么重要：

成本：很多模型按输入/输出 Token 计费。
延迟：输出 Token 越多，生成时间越长。
上下文窗口：模型一次能处理的 Token 有上限。
Prompt 设计：Prompt 太长会挤占业务上下文。

面试话术：

我做 AI 系统会把 Token 当成核心资源管理，就像传统系统里的 CPU、内存和带宽。需要做 Prompt 压缩、上下文裁剪、缓存、模型路由和输出长度控制。

4. 什么是 Embedding？

Embedding 是把文本、图片、商品、用户行为等信息映射成向量。向量之间的距离可以表示语义相似度。

典型用途：

知识库检索。
相似商品推荐。
图片相似度匹配。
用户意图聚类。
RAG 召回。

面试话术：

Embedding 的价值是把非结构化内容变成可计算的向量。比如用户问"怎么退款"，系统可以检索到"退货政策""售后流程"等语义相近的文档，而不依赖完全相同的关键词。

5. 什么是 RAG？为什么需要 RAG？

RAG 是 Retrieval-Augmented Generation，检索增强生成。

流程：

用户提问。
对问题做 Embedding。
从向量库检索相关知识片段。
可选：关键词检索、混合检索、重排序。
把检索结果拼进 Prompt。
让模型基于资料回答。
返回答案和引用来源。

为什么需要：

大模型不知道企业私域知识。
模型知识可能过时。
直接微调成本高、更新慢。
RAG 可解释性更好，可以带引用。

面试话术：

RAG 不是简单向量库搜索，而是一套知识工程。关键点包括文档清洗、切片策略、元数据、混合检索、重排序、上下文压缩、引用溯源、权限过滤和离线评测。

6. RAG 的难点有哪些？

常见难点：

文档质量差：PDF、表格、图片、扫描件解析不准。
切片不合理：太短丢上下文，太长影响召回。
召回不准：只用向量可能漏掉关键词精确匹配。
权限问题：用户不能看到无权限文档。
答案幻觉：模型没有严格基于检索内容回答。
评测困难：不知道答案错在召回、上下文还是生成。

解决方案：

文档清洗和结构化。
按标题、段落、语义层级切片。
BM25 + 向量混合检索。
Reranker 重排序。
元数据过滤和 ACL 权限控制。
答案必须带引用。
使用 faithfulness、context precision、answer relevance 等指标评测。

7. RAG 和微调怎么选？

RAG 适合：

知识经常变化。
企业私有知识库。
需要引用来源。
不希望模型记住敏感数据。

微调适合：

固化输出风格。
特定任务格式。
行业术语和表达习惯。
小模型能力增强。

组合方案：

很多生产系统是 RAG + Prompt + 少量微调组合。RAG 解决"知识从哪里来"，微调解决"怎么表达和怎么执行任务"。

面试话术：

我通常不会一上来就微调。先用 Prompt 和 RAG 快速验证，如果发现问题是知识缺失，用 RAG；如果问题是输出风格、任务格式或领域行为不稳定，再考虑微调。

8. Prompt 工程的核心是什么？

Prompt 工程不是玄学，而是把任务指令、上下文、约束、示例和输出格式清晰传给模型。

常用结构：

角色：你是资深客服/设计师/代码审查员。
任务：要完成什么。
背景：业务规则和输入数据。
约束：不能编造、必须引用、敏感内容拒答。
示例：Few-shot examples。
输出格式：JSON Schema、Markdown、表格。

高级技巧：

Chain-of-Thought 不一定直接暴露给用户，可让模型先内部分析再给结论。
Self-Consistency 可多次采样取一致答案。
Prompt Chaining 把复杂任务拆成多个步骤。
Structured Output 用 Schema 保证可解析。

9. 什么是 Function Calling / Tool Calling？

模型本身不能直接查数据库、调用接口或执行订单操作。Tool Calling 是让模型根据用户意图选择工具，并生成结构化参数，由系统执行。

示例：

查订单：getOrderStatus(orderId)
退款：createRefund(orderId, reason)
生成图片：generateImage(prompt, style, size)
查询知识库：searchDocs(query)

关键点：

工具权限必须由系统控制。
参数要校验。
高风险操作要二次确认。
所有调用要审计。

面试话术：

Tool Calling 的本质是让模型做意图理解和参数生成，让确定性系统做真正执行。模型不能直接拥有权限，必须经过业务网关、权限校验和审计。

10. 什么是多模态 AI？

多模态是同时处理文本、图片、语音、视频等信息。

典型场景：

图生文：识别商品图、装修图、票据。
文生图：营销图、海报、装修效果图。
图生图：换背景、换风格、局部重绘。
语音对话：客服、陪练、会议纪要。
视频理解：质检、安防、短视频分析。

面试话术：

多模态的落地重点不是模型本身，而是素材管理、版权、内容安全、异步生成、质量评估和业务指标闭环。比如电商图片最终要看点击率和转化率，而不是只看图片好不好看。

11. 文生图、图生图的基本原理是什么？

很多图像生成模型基于扩散模型或其变体。可以简化解释：

扩散模型训练时学习如何从噪声一步步还原图片；生成时从随机噪声开始，在文本条件或图片条件引导下逐步去噪，最后得到符合描述的图片。

关键概念：

Text Encoder：把文本 Prompt 编成语义向量。
U-Net / DiT：生成过程主体。
Latent Space：在压缩空间里生成，降低成本。
ControlNet / Adapter：用边缘、深度图、姿态等控制生成。
Inpainting：局部重绘。
Upscale：超分辨率放大。

12. AI 评测怎么做？

AI 评测分为离线和在线：

离线评测：

建立标准问题集。
人工标注标准答案。
自动评分 + 人工抽检。
对比不同模型、Prompt、RAG 策略。

在线评测：

用户点赞/点踩。
转人工率。
任务完成率。
A/B 实验。
延迟和成本。

常见指标：

准确率、召回率。
Faithfulness：答案是否忠于上下文。
Answer Relevance：答案是否相关。
Context Precision/Recall：检索上下文质量。
Hallucination Rate：幻觉率。
P95/P99 延迟。
单次任务成本。

13. 如何做 AI 成本治理？

成本来源：

模型输入/输出 Token。
图片生成次数和分辨率。
Embedding 计算。
向量库和对象存储。
GPU 推理。
人工审核。

治理手段：

模型分层：复杂任务用强模型，简单任务用便宜模型。
Prompt 压缩和上下文裁剪。
结果缓存和语义缓存。
批处理和异步队列。
限流、配额、套餐。
失败重试次数控制。
成本看板到用户、租户、场景、模型维度。

面试话术：

AI 成本要像云资源一样精细化治理。研发经理不能只看效果，还要看每个功能的单位经济模型，比如生成一次图多少钱、带来多少点击或付费转化。

14. AI 安全有哪些风险？

核心风险：

Prompt Injection：用户诱导模型忽略系统指令。
数据泄露：把内部知识、密钥、隐私输出给无权限用户。
越权工具调用：模型调用不该调用的接口。
内容安全：涉黄、暴力、政治、仇恨、违法内容。
版权风险：生成图、文、代码可能侵权。
幻觉误导：模型编造事实。

防护：

系统 Prompt 和用户 Prompt 隔离。
工具白名单和权限校验。
RAG 权限过滤。
输出审核和敏感词检测。
高风险操作二次确认。
日志审计。
Red Team 测试。

15. 如何设计一个生产级 AI 平台？

参考架构：

用户入口：Web、App、API、企业微信。
API 网关：鉴权、限流、租户识别。
AI 应用层：Prompt 模板、业务编排、Agent 工作流。
模型网关：多模型接入、路由、降级、成本统计。
知识层：文档解析、Embedding、向量库、检索、重排序。
工具层：业务 API、数据库查询、搜索、文件、支付、订单。
异步层：队列、任务状态、重试、回调。
安全层：内容审核、权限、审计。
评测层：离线评测、在线反馈、A/B 实验。
可观测层：Trace、日志、指标、告警。