1. 什么是大语言模型?它和传统 NLP 有什么区别?
回答要点:
大语言模型(LLM)是基于海量文本、多模态数据训练出来的通用生成模型,核心能力是根据上下文预测下一个 Token,并在这个过程中表现出理解、推理、生成、总结、翻译、代码生成等能力。
和传统 NLP 的区别:
- 传统 NLP 通常是一个任务一个模型,比如分类、分词、NER、情感分析。
- LLM 是通用模型,通过 Prompt 就能适配很多任务。
- 传统 NLP 依赖大量标注和特征工程,LLM 更依赖预训练、指令微调和上下文学习。
- LLM 的输出是生成式的,所以更强大,也更不确定,需要评测和约束。
面试话术:
我会把 LLM 看成一种通用智能接口,它不像传统系统那样完全确定,而是概率生成。因此生产落地时要围绕它建立 Prompt、RAG、工具调用、结构化输出、评测、监控和兜底机制。
2. Transformer 和 Attention 的核心思想是什么?
简明解释:
Transformer 是现代大模型的基础架构。它的关键是 Attention 机制,让模型在处理一个 Token 时,可以关注上下文中不同位置的信息。
可以对小白这样解释:
读一句话时,人不会平均看每个字,而会重点关注和当前词最相关的词。Attention 就是让模型学会"哪些词更重要"。
专业补充:
- Self-Attention 让序列中每个 Token 与其他 Token 建立关系。
- Multi-Head Attention 让模型从多个角度理解上下文。
- Positional Encoding / RoPE 让模型感知顺序。
- Decoder-only Transformer 是很多生成式 LLM 的主流结构。
面试话术:
我对 Transformer 的理解是,它通过 Attention 解决长距离依赖和并行训练问题。工程上我们不一定自己训练模型,但理解 Attention、上下文窗口和 Token 机制,有助于设计 Prompt、控制成本和分析模型输出边界。
3. Token 是什么?为什么 AI 项目要关注 Token?
Token 是模型处理文本的基本单位,可能是一个字、一个词、一个子词或符号。
为什么重要:
- 成本:很多模型按输入/输出 Token 计费。
- 延迟:输出 Token 越多,生成时间越长。
- 上下文窗口:模型一次能处理的 Token 有上限。
- Prompt 设计:Prompt 太长会挤占业务上下文。
面试话术:
我做 AI 系统会把 Token 当成核心资源管理,就像传统系统里的 CPU、内存和带宽。需要做 Prompt 压缩、上下文裁剪、缓存、模型路由和输出长度控制。
4. 什么是 Embedding?
Embedding 是把文本、图片、商品、用户行为等信息映射成向量。向量之间的距离可以表示语义相似度。
典型用途:
- 知识库检索。
- 相似商品推荐。
- 图片相似度匹配。
- 用户意图聚类。
- RAG 召回。
面试话术:
Embedding 的价值是把非结构化内容变成可计算的向量。比如用户问"怎么退款",系统可以检索到"退货政策""售后流程"等语义相近的文档,而不依赖完全相同的关键词。
5. 什么是 RAG?为什么需要 RAG?
RAG 是 Retrieval-Augmented Generation,检索增强生成。
流程:
- 用户提问。
- 对问题做 Embedding。
- 从向量库检索相关知识片段。
- 可选:关键词检索、混合检索、重排序。
- 把检索结果拼进 Prompt。
- 让模型基于资料回答。
- 返回答案和引用来源。
为什么需要:
- 大模型不知道企业私域知识。
- 模型知识可能过时。
- 直接微调成本高、更新慢。
- RAG 可解释性更好,可以带引用。
面试话术:
RAG 不是简单向量库搜索,而是一套知识工程。关键点包括文档清洗、切片策略、元数据、混合检索、重排序、上下文压缩、引用溯源、权限过滤和离线评测。
6. RAG 的难点有哪些?
常见难点:
- 文档质量差:PDF、表格、图片、扫描件解析不准。
- 切片不合理:太短丢上下文,太长影响召回。
- 召回不准:只用向量可能漏掉关键词精确匹配。
- 权限问题:用户不能看到无权限文档。
- 答案幻觉:模型没有严格基于检索内容回答。
- 评测困难:不知道答案错在召回、上下文还是生成。
解决方案:
- 文档清洗和结构化。
- 按标题、段落、语义层级切片。
- BM25 + 向量混合检索。
- Reranker 重排序。
- 元数据过滤和 ACL 权限控制。
- 答案必须带引用。
- 使用 faithfulness、context precision、answer relevance 等指标评测。
7. RAG 和微调怎么选?
RAG 适合:
- 知识经常变化。
- 企业私有知识库。
- 需要引用来源。
- 不希望模型记住敏感数据。
微调适合:
- 固化输出风格。
- 特定任务格式。
- 行业术语和表达习惯。
- 小模型能力增强。
组合方案:
很多生产系统是 RAG + Prompt + 少量微调组合。RAG 解决"知识从哪里来",微调解决"怎么表达和怎么执行任务"。
面试话术:
我通常不会一上来就微调。先用 Prompt 和 RAG 快速验证,如果发现问题是知识缺失,用 RAG;如果问题是输出风格、任务格式或领域行为不稳定,再考虑微调。
8. Prompt 工程的核心是什么?
Prompt 工程不是玄学,而是把任务指令、上下文、约束、示例和输出格式清晰传给模型。
常用结构:
- 角色:你是资深客服/设计师/代码审查员。
- 任务:要完成什么。
- 背景:业务规则和输入数据。
- 约束:不能编造、必须引用、敏感内容拒答。
- 示例:Few-shot examples。
- 输出格式:JSON Schema、Markdown、表格。
高级技巧:
- Chain-of-Thought 不一定直接暴露给用户,可让模型先内部分析再给结论。
- Self-Consistency 可多次采样取一致答案。
- Prompt Chaining 把复杂任务拆成多个步骤。
- Structured Output 用 Schema 保证可解析。
9. 什么是 Function Calling / Tool Calling?
模型本身不能直接查数据库、调用接口或执行订单操作。Tool Calling 是让模型根据用户意图选择工具,并生成结构化参数,由系统执行。
示例:
- 查订单:
getOrderStatus(orderId) - 退款:
createRefund(orderId, reason) - 生成图片:
generateImage(prompt, style, size) - 查询知识库:
searchDocs(query)
关键点:
- 工具权限必须由系统控制。
- 参数要校验。
- 高风险操作要二次确认。
- 所有调用要审计。
面试话术:
Tool Calling 的本质是让模型做意图理解和参数生成,让确定性系统做真正执行。模型不能直接拥有权限,必须经过业务网关、权限校验和审计。
10. 什么是多模态 AI?
多模态是同时处理文本、图片、语音、视频等信息。
典型场景:
- 图生文:识别商品图、装修图、票据。
- 文生图:营销图、海报、装修效果图。
- 图生图:换背景、换风格、局部重绘。
- 语音对话:客服、陪练、会议纪要。
- 视频理解:质检、安防、短视频分析。
面试话术:
多模态的落地重点不是模型本身,而是素材管理、版权、内容安全、异步生成、质量评估和业务指标闭环。比如电商图片最终要看点击率和转化率,而不是只看图片好不好看。
11. 文生图、图生图的基本原理是什么?
很多图像生成模型基于扩散模型或其变体。可以简化解释:
扩散模型训练时学习如何从噪声一步步还原图片;生成时从随机噪声开始,在文本条件或图片条件引导下逐步去噪,最后得到符合描述的图片。
关键概念:
- Text Encoder:把文本 Prompt 编成语义向量。
- U-Net / DiT:生成过程主体。
- Latent Space:在压缩空间里生成,降低成本。
- ControlNet / Adapter:用边缘、深度图、姿态等控制生成。
- Inpainting:局部重绘。
- Upscale:超分辨率放大。
12. AI 评测怎么做?
AI 评测分为离线和在线:
离线评测:
- 建立标准问题集。
- 人工标注标准答案。
- 自动评分 + 人工抽检。
- 对比不同模型、Prompt、RAG 策略。
在线评测:
- 用户点赞/点踩。
- 转人工率。
- 任务完成率。
- A/B 实验。
- 延迟和成本。
常见指标:
- 准确率、召回率。
- Faithfulness:答案是否忠于上下文。
- Answer Relevance:答案是否相关。
- Context Precision/Recall:检索上下文质量。
- Hallucination Rate:幻觉率。
- P95/P99 延迟。
- 单次任务成本。
13. 如何做 AI 成本治理?
成本来源:
- 模型输入/输出 Token。
- 图片生成次数和分辨率。
- Embedding 计算。
- 向量库和对象存储。
- GPU 推理。
- 人工审核。
治理手段:
- 模型分层:复杂任务用强模型,简单任务用便宜模型。
- Prompt 压缩和上下文裁剪。
- 结果缓存和语义缓存。
- 批处理和异步队列。
- 限流、配额、套餐。
- 失败重试次数控制。
- 成本看板到用户、租户、场景、模型维度。
面试话术:
AI 成本要像云资源一样精细化治理。研发经理不能只看效果,还要看每个功能的单位经济模型,比如生成一次图多少钱、带来多少点击或付费转化。
14. AI 安全有哪些风险?
核心风险:
- Prompt Injection:用户诱导模型忽略系统指令。
- 数据泄露:把内部知识、密钥、隐私输出给无权限用户。
- 越权工具调用:模型调用不该调用的接口。
- 内容安全:涉黄、暴力、政治、仇恨、违法内容。
- 版权风险:生成图、文、代码可能侵权。
- 幻觉误导:模型编造事实。
防护:
- 系统 Prompt 和用户 Prompt 隔离。
- 工具白名单和权限校验。
- RAG 权限过滤。
- 输出审核和敏感词检测。
- 高风险操作二次确认。
- 日志审计。
- Red Team 测试。
15. 如何设计一个生产级 AI 平台?
参考架构:
- 用户入口:Web、App、API、企业微信。
- API 网关:鉴权、限流、租户识别。
- AI 应用层:Prompt 模板、业务编排、Agent 工作流。
- 模型网关:多模型接入、路由、降级、成本统计。
- 知识层:文档解析、Embedding、向量库、检索、重排序。
- 工具层:业务 API、数据库查询、搜索、文件、支付、订单。
- 异步层:队列、任务状态、重试、回调。
- 安全层:内容审核、权限、审计。
- 评测层:离线评测、在线反馈、A/B 实验。
- 可观测层:Trace、日志、指标、告警。