1. 什么是RAG?请简要说明其核心流程。
答案: RAG(Retrieval-Augmented Generation)是一种结合信息检索和文本生成的架构。核心流程:① 将用户问题向量化,② 从向量数据库中检索相关文档片段,③ 将检索到的上下文与问题一起输入大语言模型生成答案。常用工具包括LangChain、向量数据库(如Milvus)等。
2. LoRA微调的原理是什么?它有什么优点?
答案: LoRA(Low-Rank Adaptation)通过在预训练模型的权重矩阵旁添加低秩可训练矩阵,仅更新这些新增参数,而保持原模型权重不变。优点是大幅减少训练参数量、降低显存占用,且微调后模型可以方便地合并回原模型,便于部署。
3. 请解释什么是Function Calling?它在AI Agent中起什么作用?
答案: Function Calling是指让大模型在生成回复时,能够识别需要调用外部函数(如API、数据库查询)的场景,并输出结构化的函数调用参数。Agent据此执行实际函数,并将结果返回给模型生成最终答案。它使模型能获取实时数据或执行操作,扩展了模型能力。
4. 在RAG系统中,向量数据库的作用是什么?列举你熟悉的向量数据库。
答案: 向量数据库用于存储文档的向量表示,并支持高效的相似性检索。候选人在简历中提到熟悉Milvus、Chroma、Faiss等。
5. 什么是Prompt Engineering?请给出一个优化Prompt的例子。
答案: Prompt Engineering是通过设计输入提示词来引导大模型生成期望输出的技术。例如,在问答任务中,可以加入"请根据以下上下文回答问题,如果上下文中没有相关信息,请说'不知道'",以减少幻觉。
6. 简述Transformer的自注意力机制。
答案: 自注意力机制计算序列中每个位置与其他位置的相关性权重,然后加权求和得到每个位置的表示。它允许模型捕捉长距离依赖关系,是Transformer的核心。
7. 你使用过哪些大模型量化技术?它们的目的分别是什么?
答案: 简历中提到PTQ(训练后量化)和GPTQ。量化目的是减少模型大小和推理加速,通过将浮点数权重转换为低精度整数(如INT8)实现。PTQ无需训练,GPTQ是一种更精确的逐层量化方法。
8. 在AI Agent开发中,React和Plan-and-Execute两种模式有什么区别?
答案: React(Reason+Act)是循环推理-行动的模式,每一步模型思考后调用工具,然后继续。Plan-and-Execute则是先让模型生成一个多步计划,然后按计划依次执行工具,更适用于任务可预先分解的场景。
9. 你提到使用Ragas进行RAG评估,Ragas主要评估哪些方面?
答案: Ragas评估RAG系统的答案忠实度、答案相关性、上下文相关性等指标,通过对比生成答案与参考标准来衡量系统性能。
10. 什么是多模态模型?你用过哪些多模态模型?
答案: 多模态模型能处理多种类型数据(如文本、图像、音频)。简历中提到Qwen-VL,这是一个视觉-语言模型,可用于图像描述、视觉问答等。