AI 常见面试问题及详细解答

1. 什么是大语言模型?它和传统 NLP 有什么区别?

回答要点:

大语言模型(LLM)是基于海量文本、多模态数据训练出来的通用生成模型,核心能力是根据上下文预测下一个 Token,并在这个过程中表现出理解、推理、生成、总结、翻译、代码生成等能力。

和传统 NLP 的区别:

  • 传统 NLP 通常是一个任务一个模型,比如分类、分词、NER、情感分析。
  • LLM 是通用模型,通过 Prompt 就能适配很多任务。
  • 传统 NLP 依赖大量标注和特征工程,LLM 更依赖预训练、指令微调和上下文学习。
  • LLM 的输出是生成式的,所以更强大,也更不确定,需要评测和约束。

面试话术:

我会把 LLM 看成一种通用智能接口,它不像传统系统那样完全确定,而是概率生成。因此生产落地时要围绕它建立 Prompt、RAG、工具调用、结构化输出、评测、监控和兜底机制。

2. Transformer 和 Attention 的核心思想是什么?

简明解释:

Transformer 是现代大模型的基础架构。它的关键是 Attention 机制,让模型在处理一个 Token 时,可以关注上下文中不同位置的信息。

可以对小白这样解释:

读一句话时,人不会平均看每个字,而会重点关注和当前词最相关的词。Attention 就是让模型学会"哪些词更重要"。

专业补充:

  • Self-Attention 让序列中每个 Token 与其他 Token 建立关系。
  • Multi-Head Attention 让模型从多个角度理解上下文。
  • Positional Encoding / RoPE 让模型感知顺序。
  • Decoder-only Transformer 是很多生成式 LLM 的主流结构。

面试话术:

我对 Transformer 的理解是,它通过 Attention 解决长距离依赖和并行训练问题。工程上我们不一定自己训练模型,但理解 Attention、上下文窗口和 Token 机制,有助于设计 Prompt、控制成本和分析模型输出边界。

3. Token 是什么?为什么 AI 项目要关注 Token?

Token 是模型处理文本的基本单位,可能是一个字、一个词、一个子词或符号。

为什么重要:

  • 成本:很多模型按输入/输出 Token 计费。
  • 延迟:输出 Token 越多,生成时间越长。
  • 上下文窗口:模型一次能处理的 Token 有上限。
  • Prompt 设计:Prompt 太长会挤占业务上下文。

面试话术:

我做 AI 系统会把 Token 当成核心资源管理,就像传统系统里的 CPU、内存和带宽。需要做 Prompt 压缩、上下文裁剪、缓存、模型路由和输出长度控制。

4. 什么是 Embedding?

Embedding 是把文本、图片、商品、用户行为等信息映射成向量。向量之间的距离可以表示语义相似度。

典型用途:

  • 知识库检索。
  • 相似商品推荐。
  • 图片相似度匹配。
  • 用户意图聚类。
  • RAG 召回。

面试话术:

Embedding 的价值是把非结构化内容变成可计算的向量。比如用户问"怎么退款",系统可以检索到"退货政策""售后流程"等语义相近的文档,而不依赖完全相同的关键词。

5. 什么是 RAG?为什么需要 RAG?

RAG 是 Retrieval-Augmented Generation,检索增强生成。

流程:

  1. 用户提问。
  2. 对问题做 Embedding。
  3. 从向量库检索相关知识片段。
  4. 可选:关键词检索、混合检索、重排序。
  5. 把检索结果拼进 Prompt。
  6. 让模型基于资料回答。
  7. 返回答案和引用来源。

为什么需要:

  • 大模型不知道企业私域知识。
  • 模型知识可能过时。
  • 直接微调成本高、更新慢。
  • RAG 可解释性更好,可以带引用。

面试话术:

RAG 不是简单向量库搜索,而是一套知识工程。关键点包括文档清洗、切片策略、元数据、混合检索、重排序、上下文压缩、引用溯源、权限过滤和离线评测。

6. RAG 的难点有哪些?

常见难点:

  • 文档质量差:PDF、表格、图片、扫描件解析不准。
  • 切片不合理:太短丢上下文,太长影响召回。
  • 召回不准:只用向量可能漏掉关键词精确匹配。
  • 权限问题:用户不能看到无权限文档。
  • 答案幻觉:模型没有严格基于检索内容回答。
  • 评测困难:不知道答案错在召回、上下文还是生成。

解决方案:

  • 文档清洗和结构化。
  • 按标题、段落、语义层级切片。
  • BM25 + 向量混合检索。
  • Reranker 重排序。
  • 元数据过滤和 ACL 权限控制。
  • 答案必须带引用。
  • 使用 faithfulness、context precision、answer relevance 等指标评测。

7. RAG 和微调怎么选?

RAG 适合:

  • 知识经常变化。
  • 企业私有知识库。
  • 需要引用来源。
  • 不希望模型记住敏感数据。

微调适合:

  • 固化输出风格。
  • 特定任务格式。
  • 行业术语和表达习惯。
  • 小模型能力增强。

组合方案:

很多生产系统是 RAG + Prompt + 少量微调组合。RAG 解决"知识从哪里来",微调解决"怎么表达和怎么执行任务"。

面试话术:

我通常不会一上来就微调。先用 Prompt 和 RAG 快速验证,如果发现问题是知识缺失,用 RAG;如果问题是输出风格、任务格式或领域行为不稳定,再考虑微调。

8. Prompt 工程的核心是什么?

Prompt 工程不是玄学,而是把任务指令、上下文、约束、示例和输出格式清晰传给模型。

常用结构:

  • 角色:你是资深客服/设计师/代码审查员。
  • 任务:要完成什么。
  • 背景:业务规则和输入数据。
  • 约束:不能编造、必须引用、敏感内容拒答。
  • 示例:Few-shot examples。
  • 输出格式:JSON Schema、Markdown、表格。

高级技巧:

  • Chain-of-Thought 不一定直接暴露给用户,可让模型先内部分析再给结论。
  • Self-Consistency 可多次采样取一致答案。
  • Prompt Chaining 把复杂任务拆成多个步骤。
  • Structured Output 用 Schema 保证可解析。

9. 什么是 Function Calling / Tool Calling?

模型本身不能直接查数据库、调用接口或执行订单操作。Tool Calling 是让模型根据用户意图选择工具,并生成结构化参数,由系统执行。

示例:

  • 查订单:getOrderStatus(orderId)
  • 退款:createRefund(orderId, reason)
  • 生成图片:generateImage(prompt, style, size)
  • 查询知识库:searchDocs(query)

关键点:

  • 工具权限必须由系统控制。
  • 参数要校验。
  • 高风险操作要二次确认。
  • 所有调用要审计。

面试话术:

Tool Calling 的本质是让模型做意图理解和参数生成,让确定性系统做真正执行。模型不能直接拥有权限,必须经过业务网关、权限校验和审计。

10. 什么是多模态 AI?

多模态是同时处理文本、图片、语音、视频等信息。

典型场景:

  • 图生文:识别商品图、装修图、票据。
  • 文生图:营销图、海报、装修效果图。
  • 图生图:换背景、换风格、局部重绘。
  • 语音对话:客服、陪练、会议纪要。
  • 视频理解:质检、安防、短视频分析。

面试话术:

多模态的落地重点不是模型本身,而是素材管理、版权、内容安全、异步生成、质量评估和业务指标闭环。比如电商图片最终要看点击率和转化率,而不是只看图片好不好看。

11. 文生图、图生图的基本原理是什么?

很多图像生成模型基于扩散模型或其变体。可以简化解释:

扩散模型训练时学习如何从噪声一步步还原图片;生成时从随机噪声开始,在文本条件或图片条件引导下逐步去噪,最后得到符合描述的图片。

关键概念:

  • Text Encoder:把文本 Prompt 编成语义向量。
  • U-Net / DiT:生成过程主体。
  • Latent Space:在压缩空间里生成,降低成本。
  • ControlNet / Adapter:用边缘、深度图、姿态等控制生成。
  • Inpainting:局部重绘。
  • Upscale:超分辨率放大。

12. AI 评测怎么做?

AI 评测分为离线和在线:

离线评测:

  • 建立标准问题集。
  • 人工标注标准答案。
  • 自动评分 + 人工抽检。
  • 对比不同模型、Prompt、RAG 策略。

在线评测:

  • 用户点赞/点踩。
  • 转人工率。
  • 任务完成率。
  • A/B 实验。
  • 延迟和成本。

常见指标:

  • 准确率、召回率。
  • Faithfulness:答案是否忠于上下文。
  • Answer Relevance:答案是否相关。
  • Context Precision/Recall:检索上下文质量。
  • Hallucination Rate:幻觉率。
  • P95/P99 延迟。
  • 单次任务成本。

13. 如何做 AI 成本治理?

成本来源:

  • 模型输入/输出 Token。
  • 图片生成次数和分辨率。
  • Embedding 计算。
  • 向量库和对象存储。
  • GPU 推理。
  • 人工审核。

治理手段:

  • 模型分层:复杂任务用强模型,简单任务用便宜模型。
  • Prompt 压缩和上下文裁剪。
  • 结果缓存和语义缓存。
  • 批处理和异步队列。
  • 限流、配额、套餐。
  • 失败重试次数控制。
  • 成本看板到用户、租户、场景、模型维度。

面试话术:

AI 成本要像云资源一样精细化治理。研发经理不能只看效果,还要看每个功能的单位经济模型,比如生成一次图多少钱、带来多少点击或付费转化。

14. AI 安全有哪些风险?

核心风险:

  • Prompt Injection:用户诱导模型忽略系统指令。
  • 数据泄露:把内部知识、密钥、隐私输出给无权限用户。
  • 越权工具调用:模型调用不该调用的接口。
  • 内容安全:涉黄、暴力、政治、仇恨、违法内容。
  • 版权风险:生成图、文、代码可能侵权。
  • 幻觉误导:模型编造事实。

防护:

  • 系统 Prompt 和用户 Prompt 隔离。
  • 工具白名单和权限校验。
  • RAG 权限过滤。
  • 输出审核和敏感词检测。
  • 高风险操作二次确认。
  • 日志审计。
  • Red Team 测试。

15. 如何设计一个生产级 AI 平台?

参考架构:

  1. 用户入口:Web、App、API、企业微信。
  2. API 网关:鉴权、限流、租户识别。
  3. AI 应用层:Prompt 模板、业务编排、Agent 工作流。
  4. 模型网关:多模型接入、路由、降级、成本统计。
  5. 知识层:文档解析、Embedding、向量库、检索、重排序。
  6. 工具层:业务 API、数据库查询、搜索、文件、支付、订单。
  7. 异步层:队列、任务状态、重试、回调。
  8. 安全层:内容审核、权限、审计。
  9. 评测层:离线评测、在线反馈、A/B 实验。
  10. 可观测层:Trace、日志、指标、告警。
相关推荐
染指11106 小时前
26.RAG进阶(Advanced RAG)-假设性问题索引
人工智能·windows·agent·rag·advanced rag
闵孚龙6 小时前
动态图机制:为什么 PyTorch 调试起来更舒服
人工智能·pytorch·python
甲维斯7 小时前
还要啥Codex!DeepSeek接入Zcode远程连接!
人工智能
百胜软件@百胜软件7 小时前
百胜软件亮相“AI消费新生活”主题日活动,AI智能运营平台入选市级案例征集
人工智能·生活·零售数字化·数智中台·珠宝行业
JAVA面经实录9177 小时前
操作系统面试题
java·服务器·数据库·计算机网络·面试
程序员三藏7 小时前
Web自动化测试详解
自动化测试·软件测试·python·selenium·测试工具·职场和发展·测试用例
AI人工智能+电脑小能手8 小时前
【大白话说Java面试题 第117题】【并发篇】第17题:线程有几种状态,之间如何转换?
java·开发语言·面试
专注搞钱8 小时前
GPT-4o写设备Recipe:从3小时到10分钟
数据库·人工智能·gpt·半导体
闻道参看8 小时前
贝芯宠AI灵兽 ELFVET 大模型聚焦临床应用,强化宠物诊疗综合能力
人工智能·宠物
MartinYeung58 小时前
[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越
人工智能·学习·语言模型