字节跳动大模型面试题深度拆解：项目深挖、SFT 与 RLHF、Claude Code、记忆机制、并发锁与手撕题全攻略

1. 先看这轮面试到底在考什么

1.1 这不是一场"背八股"面试，而是一场"系统能力面试"

这轮面试明显不是只考几个孤立知识点。它先用一个项目，把多 Agent 协同、评估、重排、幻觉治理、模型选型、成本意识等问题一路追到底；接着再切到大模型理论，问 SFT、RLHF、记忆机制、Harness、Claude Code 等；最后用网络、并发、锁和手撕题兜底。

也就是说，面试官要看的不是你会不会背几个术语，而是你能不能把一个大模型项目讲成闭环：有架构，有取舍，有评估，有优化，还有边界意识。

2. 项目深挖：多 Agent 协同遇到的问题，文章各章节怎么保证风格一致？

2.1 多 Agent 不是角色越多越好，而是分工越清越好

很多人一说多 Agent，就喜欢堆出一长串角色：规划、检索、写作、总结、编辑、审核、发布......但面试官真正关心的不是角色数量，而是这些角色之间是否形成了清晰的职责边界。

如果一个 Agent 既做大纲又做写作又做润色，那么多 Agent 的意义就不大；如果角色切得太碎，又会导致链路过长、延时高、上下文断裂、输出风格飘。最合理的方式，是围绕业务链路来拆：先有规划，再有章节生成，再有统一抛光，最后做质检和回收。

2.2 风格一致性的本质，不是"大家都写得像"，而是"系统有统一约束"

一篇文章不同章节由不同 Agent 写，最容易出现的不是语法错误，而是风格飘移。前面一个章节很口语化，后面一个章节很论文腔；前面用"多智能体"，后面改叫"多代理"；前面说给小白看，后面突然开始堆术语。

所以，真正保证风格一致，靠的不是"相信模型自己会统一"，而是四件事：第一，统一风格卡，包括目标人群、语气、禁用词、术语表；第二，统一大纲和章节职责，避免不同 Agent 抢写同类内容；第三，统一上下文记忆，让所有章节知道全文设定；第四，统一收口，让最终编辑 Agent 对全篇做一次整体抛光。

2.3 面试时最好怎么回答

可以这样答：多 Agent 协同的主要问题包括职责重叠、章节重复、风格漂移和延时成本增加。为了保证风格一致，我们会先定义统一的风格约束和术语表，再固定大纲和章节职责，并把前文摘要共享给所有章节 Agent，最后用专门的风格统一 Agent 做全文收口。

3. 评估怎么做？指标怎么来的？样本少时，指标是否可信？

3.1 评估这件事，最怕"只有分，没有故事"

面试官问评估怎么做，表面上是在问指标，实际上是在看你有没有建立"质量闭环"。真正成熟的回答，不是直接报一个分数，而是要说明：样本怎么构建，指标为什么这样定义，离线怎么做，线上怎么看，最后怎么回流优化。

在内容生成类项目里，常见指标并不只是一两个，它往往至少包括内容完整率、事实一致性、风格一致性、人工可用率、修改率、采纳率、延时和 token 成本。这里面有的是模型质量指标，有的是业务效果指标，有的是工程成本指标。

3.2 指标怎么得到？最稳的说法是"离线 + 线上"双轨

离线评测的作用，是让你在固定数据集上做版本对比，知道哪个策略更优；线上评测的作用，是让你知道真实用户是不是更愿意接受系统输出。

举个例子：如果你做的是文章草稿生成，离线可以看章节完整性、事实一致性和风格稳定性；线上可以看人工补充率、整体采纳率、用户是否反复重写、是否愿意直接使用。只有把这两部分结合起来，你说的"效果提升了"才站得住。

3.3 文档量不多，指标还能不能信？

这时候最好的态度不是硬说"很可信"，而是主动承认边界：文档量少时，离线指标更适合作为方向判断，而不是绝对结论。为了提高可信度，可以做分层抽样、重复实验、人工复核，再结合线上反馈共同判断。

这样的回答会比一味强调分数更成熟，因为它说明你知道样本量、覆盖度和统计稳定性本身也是工程现实。

4. 为什么精排不用 Cross-Encoder，要做规则重排？你怎么评估规则重排的效果？

4.1 这不是"谁更高级"的问题，而是"谁更合适"的问题

Cross-Encoder 在复杂语义匹配上通常比简单规则更强，这是很多人都知道的。但面试官追问"为什么不用"，往往并不是想听你否定 Cross-Encoder，而是想听你解释工程取舍。

如果业务场景要求低延时、高并发、强可解释性、候选集合又比较规整，那么规则重排往往更适合。它便宜、快、逻辑可解释、上线门槛低。如果系统还处在 0 到 1 阶段，先用规则重排快速跑通，往往比一开始就上重模型更现实。

4.2 规则重排效果怎么评估？

最好的答法是：在同一批候选集合上，对比规则重排前后以及和人工标注理想排序之间的差距。看 TopK 命中率是否提升，看最终生成质量是否受益，看延时和成本是否在预算内。

如果能进一步补一句"当候选规模变小、语义理解变复杂时，我们也考虑过逐步引入 Cross-Encoder 做二阶段精排"，答案就会更完整，因为这说明你不是固守规则，而是有进化路线。

5. 如果把项目规模扩大，但想进一步提升返回质量，你会在哪里改进？

5.1 先从输入和检索改，再从生成和门控改

很多人一听"返回质量不够好"，第一反应就是换个更强的大模型。其实这是最后一招，不是第一招。真正成熟的优化路线，应该先看输入是不是清楚、检索是不是够全、上下文是不是干净、Prompt 有没有明确约束、输出后有没有门控和事实校验。

也就是说，质量问题很少只出在生成层，它往往是一个链路问题。用户问题不规范，会让系统一开始就走偏；召回不全，会让模型"没粮可做"；上下文太脏，会让模型混淆；Prompt 太松，会让它自由发挥；没有门控，会让幻觉直接漏到用户面前。

5.2 如果想减少人工补充，核心是把"完整性检查"前移

系统生成的草稿需要人工补充，往往不是因为"写得不通顺"，而是因为"没写全"。所以减少人工最有效的方式之一，不是只做文风优化，而是把输出目标结构化，把必答点清单显式化，并对每一章做完成度检查。

比如写一篇技术文章，可以要求每一章都必须覆盖"定义、原理、例子、优缺点、总结"。如果某一项缺失，就触发局部补写，而不是等人工事后发现。

6. 怎么减少幻觉？你觉得大模型为什么会有幻觉？

6.1 幻觉不是 Bug，而是训练目标和应用目标之间的天然缝隙

大模型本质上是在做"根据上下文预测下一个 token"。这个训练目标天然追求的是"像话""流畅""概率高"，而不是"百分之百真实"。所以只要知识不足、上下文不够、任务表达模糊，它就可能用一种看似合理的方式把空白补上，这就是幻觉。

再往深一点说，幻觉常见的来源至少有三个：第一，模型参数记忆和外部事实之间不一致；第二，上下文不足，导致它只能"猜"；第三，系统没有足够强的约束与校验，让错误内容有机会直接输出。

6.2 治理幻觉最有效的思路：补事实、强约束、加门控

补事实，就是用 RAG、工具调用、数据库查询等方式，把应该依赖外部知识的内容从"猜"变成"查"；强约束，就是限制输出结构、要求引用依据、明确禁止编造；加门控，就是对低置信度答案做回退、重试或人工接管。

这样回答的优点是很工程化：不是空泛说"减少幻觉要优化模型"，而是说明你知道问题出在哪一层，以及每一层该怎么下手。

7. 整个项目消耗的 token 量怎么看？你用了哪个模型？为什么选它？

7.1 token 成本不是最后才看，而是系统设计一开始就该看

一次大模型请求的 token，通常来自系统提示词、用户输入、检索上下文和模型输出四部分。如果项目有多轮对话、多 Agent 串联、长上下文和多次重试，那么 token 开销会非常快地膨胀。

因此，一个成熟项目必须有 token 成本意识：哪些提示词是重复的、哪些上下文可以裁剪、哪些步骤可以下沉给小模型、哪些结果可以缓存，都是要提前设计的。

7.2 为什么选这个模型？最好的答案不是"它最强"，而是"它最合适"

模型选型最好的回答方式，是明确说出你的评估维度：效果、成本、延时、稳定性、上下文长度、接口可用性。也就是说，你不是拍脑袋选模型，而是在一组候选模型里，通过离线质量评测和线上业务指标，选到了最符合当前业务目标的那个点。

如果业务是高频实时调用，可能更偏重延时和成本；如果是高价值低频任务，可能更愿意牺牲成本换质量。这样的回答比单纯说"我们用某某模型，因为它很强"更能打动面试官。

8. 偏大模型八股：SFT 和 RLHF 有什么区别？如果让你做 RLHF，你怎么做？

8.1 先把 SFT 讲明白：它是"教会模型基本会答"

SFT，也就是监督微调，核心做法是给模型一批高质量的指令-答案对，让它学会按人类希望的方式回答。它更像是把基础模型"教会"：什么是好的回答格式，什么是业务期望的风格，什么任务该怎么答。

8.2 再讲 RLHF：它是"让模型更合人意"

RLHF 往前通常会先有一个 SFT 模型，然后收集人类偏好数据，比如同一个问题给多个回答，让人来选哪一个更好。接着训练奖励模型，让系统学会识别"什么回答更受偏好"，最后用强化学习方法继续优化主模型。

8.3 如果让你做 RLHF，最好的答法是"五步法"

第一步，先明确优化目标，是更安全、更有帮助，还是更符合某种风格；第二步，设计偏好数据采集策略，确保样本覆盖主场景和难场景；第三步，训练奖励模型；第四步，用 PPO、DPO 等方式优化主模型；第五步，用离线和线上评测验证收益，同时盯安全性和稳定性。

9. Skill、Harness、Claude Code 怎么理解？这些内容怎么迁移？

9.1 Skill 是"能力颗粒度"，Harness 是"执行外壳"

如果把一个 Agent 系统类比成工厂，那么 Skill 更像一个可复用工位，比如"总结文档""查知识库""写周报"；而 Harness 更像把这些工位真正串起来的产线系统，里面有模型调用、Prompt、工具、状态、重试、日志、评估和流程编排。

所以面试官问 Harness，不一定是在考某个特定开源库，而是在看你是否理解：一个好用的大模型工程系统，不只是模型本身，而是围绕模型的整套执行框架。

9.2 Claude Code 真正值得借鉴的，不是品牌名，而是工作方式

如果面试官问你对 Claude Code 的理解，最好的回答，不是只说它是个代码 Agent，而是拆它为什么好用：它强调计划执行、工具调用、文件级修改、上下文管理和人机协作循环。

这些能力完全可以迁移到自家系统里：例如，在一个内部代码 Agent 或文档 Agent 中，同样可以使用任务计划、状态跟踪、补丁式修改、工具回读、阶段性确认等机制。

10. 对记忆机制的理解：什么可以长期保留，什么只做短期？

10.1 判断标准不复杂，就看"稳定、复用、时效"

短期记忆更适合保存当前会话强相关的信息，比如最近几轮对话、当前任务状态、刚刚查到的工具结果，因为这些信息很快会过期。

长期记忆则适合保存长期稳定、反复会用到的信息，比如用户长期偏好、稳定业务规则、长期项目背景、常用术语习惯等。

判断某条信息该不该做长期记忆，可以问四个问题：它稳定吗？它复用价值高吗？它和用户或业务身份强相关吗？它会不会很快过期？只要前两项明显成立，通常就值得沉淀。

11. 传统八股：计算机网络、并发机制、锁，怎么答才不空？

11.1 不要只背定义，要带上"为什么在大模型系统里重要"

很多做 AI 应用的人，一被问到网络、并发、锁就开始慌，其实最好的办法不是死背课本，而是把这些知识挂回自己的系统。比如：为什么要懂网络？因为大模型服务本质上也是 RPC / HTTP 调用链，超时、重试、幂等、连接池、限流都和网络密切相关。

为什么要懂并发？因为你可能要同时调多个 Agent、多个工具、多个召回源，系统吞吐和尾延时离不开并发设计。为什么要懂锁？因为缓存更新、状态写入、任务抢占、并发回调都可能涉及共享资源竞争。

如果面试官问传统八股，你完全可以用"在我的 AI 系统里，它体现在哪"来回答，这样会比单纯背书更有说服力。

12. 手撕题：循环数组找最大子数组和，怎么讲思路才稳？

12.1 先把普通最大子数组和讲清楚，再讲循环

这类题最忌讳一上来就钻进代码。最稳的表达路径是：先说普通最大子数组和可以用动态规划或 Kadane 思想，在遍历过程中维护"以当前位置结尾的最大和"以及"全局最大和"；再解释循环数组的特殊性------最大子数组可能横跨头尾。

于是，循环问题就可以拆成两类：一类是不跨头尾，也就是普通最大子数组和；另一类是跨头尾，那么它就等价于"总和减去中间最小子数组和"。最后取两者最大值即可。

12.2 别忘了主动说边界条件

最关键的边界，是全为负数的情况。因为这时"总和减去最小子数组和"会失真，所以要单独处理。如果你在手撕题里主动把边界条件说出来，面试官对你的印象通常会更好。

13. 面试时最能加分的，不是"我知道"，而是"我能讲成体系"

很多人准备面试时，把知识点切得很碎：背一点 SFT，背一点 RLHF，背一点 RAG，再背一点手撕题。问题是，一旦面试官深入追问，就很容易断掉。

真正有竞争力的回答方式，是始终围绕一条主线：这套系统怎么做，为什么这样做，怎么评估它做得好不好，出了问题怎么优化，放大规模时要考虑什么，底层原理是什么。只要你能围绕这条线展开，哪怕面试官中途打断换题，你也能接得住。

14. 总结：这组题真正考的，是"大模型项目的系统化表达能力"

如果把整篇文章浓缩成一句话，那就是：这组题看起来很散，其实考的是同一件事------你是否真的理解一个大模型项目从设计、生成、评估、优化、对齐、记忆到工程落地的完整链路。

项目深挖部分，重点是多 Agent 协同、风格一致性、评估闭环、规则重排、幻觉治理、模型选型和 token 成本；偏大模型八股部分，重点是 SFT、RLHF、Harness、Claude Code 和记忆机制；传统八股与手撕题，则是为了确认你的基础能力是否扎实。

真正高质量的面试回答，不是术语多，而是逻辑顺：怎么做、为什么、怎么评估、怎么优化、有什么边界。只要这条线讲顺了，很多看起来很难的问题，都会变得有章可循。

附：30 秒面试快答模板

"这类大模型面试题其实可以分成四块：第一块是项目深挖，重点讲多 Agent 协同、风格一致性、评估闭环、规则重排、幻觉治理和模型选型；第二块是大模型理论，重点讲 SFT 和 RLHF 的区别、Skill/Harness 的理解、Claude Code 的工程启发以及短期与长期记忆；第三块是传统基础，比如网络、并发和锁；第四块是手撕题。回答时我会按'怎么做---为什么这样做---怎么评估---如何优化'这条线来讲，这样逻辑会更完整。"