ai 面试

【AI面试临阵磨枪-57】如何防止 Prompt 注入、越狱、敏感信息泄露随着 Agent 接入业务系统，Prompt 注入（Injection）、越狱（Jailbreak）和敏感信息泄露（PII Leakage）成为核心威胁。你如何从工程架构角度设计一套完整的安全防御体系？

【AI面试临阵磨枪-56】大模型服务部署：Docker、K8s、GPU 调度、推理加速在生产环境中部署大模型服务时，你是如何结合 Docker 和 K8s 实现高效治理的？特别是在 GPU 调度（如共享、切分）和推理加速（如 vLLM, TensorRT-LLM）方面有哪些实战经验？

【AI面试临阵磨枪-52】LLM 服务高并发、高可用设计：负载均衡、池化、扩容、容错在面对百万级日活的大模型应用时，如何设计底层服务架构以保障高并发与高可用？请从负载均衡、资源池化、弹性扩容、以及容错机制四个维度详细展开。

【AI面试临阵磨枪-53】AI 应用成本优化：模型选型、Token 控制、缓存、异步、轻量降级面试官提问： “随着业务规模扩大，AI 应用的 Token 成本和算力开销急剧上升。请你从模型选型、Token 压缩、缓存策略、异步处理以及轻量化降级五个维度，详细谈谈你的优化实战经验。”

【AI面试临阵磨枪-51】大模型 API 调用优化：缓存、批量、重试、熔断、降级在大规模应用 LLM 时，如何通过工程化手段优化 API 调用？请详细谈谈你对缓存、批量处理、重试机制、熔断和降级的理解及落地经验。

【AI面试临阵磨枪-47】RAG 1.0 / 2.0 / 3.0 演进与区别请说明 RAG 1.0、RAG 2.0、RAG 3.0 的技术演进、核心架构差异、各自解决痛点、关键技术特征与工业级落地区别。

【AI面试临阵磨枪-38】设计一个外卖售后客服 Agent 的工具集与流程面试官：请你设计一个外卖售后客服 AI Agent，明确其核心工具集（Function Call 定义）、完整业务流程，以及工程落地的关键要点，确保能覆盖外卖售后高频场景（漏餐、错餐、延迟、退款、餐品质量）。

【AI面试临阵磨枪-40】文本切块（Chunking）策略：固定长度、语义切块、递归切块、重叠设计请详细介绍 RAG 中文本切块（Chunking）四大核心策略：固定长度切块、语义切块、递归字符切块、切块重叠设计，分别原理、优缺点、适用场景、工程选型建议。

【AI面试临阵磨枪-37】如何评估 Agent 效果：成功率、工具准确率、推理步数、延迟、成本？请你说明工业级 AI Agent 如何做效果评估？核心评估指标包含：任务成功率、工具调用准确率、推理步数、响应延迟、资源成本，分别怎么定义、怎么统计、如何优化？

【AI面试临阵磨枪-32】如何提升工具调用（Function Call）准确率？常见失败场景与解决方法请你说明如何提升大模型 Function Call（工具调用）准确率？常见的失败场景有哪些？分别怎么解决？

【AI面试临阵磨枪-31】Agent 反思（Reflection）机制如何实现？作用是什么？请你说明 Agent 反思（Reflection）机制的核心作用是什么？工程上有哪些常见实现方式、运行流程，以及适用场景？

【AI面试临阵磨枪-34】单 Agent 与多 Agent（Multi-Agent）架构区别、适用场景、挑战请你说明单 Agent 与多 Agent（Multi-Agent）的架构核心区别、各自适用业务场景，以及多 Agent 架构落地的主要挑战和解决思路。

【AI面试临阵磨枪-30】如何设计 Agent 长短期记忆？对比 FullHistory、SlidingWindow、Summary、Vector 记忆面试官：请你讲解如何设计 AI Agent 的长期记忆与短期记忆架构？并对比 FullHistory、SlidingWindow、Summary 摘要记忆、Vector 向量记忆四种记忆方案的原理、优缺点及适用场景。

【AI面试临阵磨枪-29】什么是 Function Calling？与手动解析 LLM 输出的区别？请你解释一下什么是 Function Calling（函数调用）？它和我们手动解析 LLM 输出的 JSON 有什么区别？

【AI面试临阵磨枪-27】Agent 通用抽象架构：感知、规划、行动、记忆四个模块如何闭环？在你看来，一个成熟的AI Agent系统，其通用的抽象架构是怎样的？特别是，感知、规划、行动和记忆这四个核心模块，它们之间是如何协同工作，形成一个完整闭环的？请详细阐述一下你的理解。

【AI面试临阵磨枪-27】CoT、ToT、Plan-and-Solve、Plan-and-Execute 分别是什么？适用场景？请你分别说明 CoT、ToT、Plan-and-Solve、Plan-and-Execute 四种大模型推理范式的核心定义，并对比各自的适用业务场景。

【AI面试临阵磨枪】Harness 的环境隔离（沙箱）如何设计？文件、网络、命令、权限四层隔离？在设计生产级 Agent 的 Harness 治理架构时，如何实现高强度的环境隔离（沙箱）？请从文件、网络、命令、权限这四个维度，详细阐述你的设计方案及其底层技术实现。

【AI面试临阵磨枪】OpenClaw Skill 如何嵌入 Harness 约束：参数校验、超时、权限、熔断？在 OpenClaw 框架中，一个 Skill 是如何嵌入 Harness 约束的？请具体谈谈它是如何实现参数校验、超时控制、权限检查以及熔断机制的？请通过核心源码逻辑进行说明。

【AI面试临阵磨枪】OpenClaw 与企业级 Harness 区别：个人 vs 生产、隔离强度、可观测性？请详细对比 OpenClaw 的治理逻辑与传统企业级 Harness 架构的区别。特别是在“个人开发 vs 生产交付”、“隔离强度”以及“可观测性”这三个维度上，两者的设计哲学有何不同？

【AI面试临阵磨枪】LLM 推理优化技术：量化、蒸馏、稀疏注意力、vLLM、TGI 核心思想。结合你对大语言模型的了解，能否详细说说LLM推理优化技术中，量化、蒸馏、稀疏注意力、vLLM、TGI这几种技术的核心思想？每种技术主要解决什么问题，核心逻辑是什么，不用太深入细节，但要抓住关键要点。