大模型工程面试经典（三）—如何通过微调提升Agent性能？

前言

又是一年"金九银十"秋招季，大模型相关的技术岗位竞争也到了白热化阶段。为满足大家碎片化时间复习补充面试知识点的需求（泪目，思绪回到前两年自己面试的时候），笔者特开设 《大模型工程面试经典》 专栏，持续更新工作学习中遇到大模型技术与工程方面的面试题及其讲解。每个讲解都由一个必考题和相关热点问题组成，小伙伴们感兴趣可关注笔者掘金账号和专栏，更可关注笔者同名微信公众号: 大模型真好玩，免费分享学习工作中的知识点和资料。

一、面试题：如何通过微调提升Agent性能？

1.1 问题浅析

该问题既是一个热点问题，又考察了候选人在微调Function Calling功能的实践经验。Agent开发作为大模型最热门的技术应用方向，不仅要求开发人员熟练掌握各类Agent开发工具，同时在某些场景下，例如基座模型无法很好的识别特定领域的工具、Agent性能不稳定时也需要开发人员围绕基座模型进行Agent性能方面的微调。目前顶尖的智能体例如Claude Code、ChatGPT Agent等都围绕基座模型进行了单独的微调工作才能让基座模型更加熟练的调用Agent内置工具。

1.2 标准答案

可以从如下两个角度切入进行回答：

高效微调

总的来说，高效微调和强化学习微调都能很好的用于基座模型Agent性能微调，如果选择高效微调方法，我们需要围绕当前Agent特定执行的任务，构造工具调用的微调数据集，同时考虑到当前大模型往往还具备多工具并行调用以及多步调用工具的能力，我们还需要创建多工具并行调用的训练样本 以及链式调用工具的数据集，才让模型学会在同一对话中合理组合多个内置工具，并学会围绕一个问题能确、稳定、多步地调用工具。

强化学习微调

除了常规的指令微调，更进一步的方法是借助强化学习来全面增强 Agent 的性能。例如PPO、GRPO、GSPO等算法能够让模型在真实环境中不断试错和优化，从而提升Agent性能。例如我们可以将工具调用的准确率、任务完成率、调用链条的合理性作为奖励函数，引导模型学会更高质量的交互。

例如，当 Agent 成功完成一个复杂的多步任务，奖励模型就会给出更高的分数;反之，如果中途调用失败或逻辑错误，奖励分数就会降低。通过不断迭代训练，模型会逐渐形成一种"最优调用策略"。这类强化学习方法的优势在于，它不仅优化了单次调用工具的准确性，还能提升 Agent在长链路任务中的稳定性与鲁棒性。

如果面试官进一步询问你的实践情况，可以结合你的实际操作项目例如使用开源工具微调，例如构造ShareGPT格式的Function Calling数据集结合LLamaFactory、Unsloth等框架进行微调，格式如下：

swift 复制代码

{  
"conversations": [  
    {  
    "from": "human",  
    "value": "I saw a dress that I liked. It was originally priced at $200 but it's on sale for 20% off. Can you tell me how much it will cost after the discount?"  
    },  
    {  
    "from": "function_call",  
    "value": "{\"name\": \"calculate_discount\", \"arguments\": {\"original_price\": 200, \"discount_percentage\": 20}}"  
    },  
    {  
    "from": "observation",  
    "value": "{\"discounted_price\": 160}"  
    },  
    {  
    "from": "gpt",  
    "value": "The dress will cost you $160 after the 20% discount."  
    }  
    ],  
    "tools": "[{\"name\": \"calculate_discount\", \"description\": \"Calculate the discounted price\", \"parameters\": {\"type\": \"object\", \"properties\": {\"original_price\": {\"type\": \"number\", \"description\": \"The original price of the item\"}, \"discount_percentage\": {\"type\": \"number\", \"description\": \"The percentage of discount\"}}, \"required\": [\"original_price\", \"discount_percentage\"]}}]"  
}

如果进一步提问强化学习微调提升Agent性能，则可通过复现一些开源项目例如复旦大学的SimpleGRPO并说出你的理解使你的回答锦上添花。

二、相关热点问题

2.1 高效微调提升Agent工具调用能力的关键是什么？

答案： 高效微调的核心在于数据质量与覆盖度。要提升模型Agent性能不能单纯靠扩大数据量，而是要确保训练样本能覆盖目标场景下的各类工具调用模式，此外还要注意数据的多样性，避免出现模型只能固定模仿数据集的运行模式，而在实际运行过程中泛化力不足的问题。

2.2 在借助强化学习微调Agent性能的过程中，奖励函数应该如何设计？

答案： 奖励函数的设计决定了训练的方向。针对Agent场景，常见做法是分层设计:第一层关注工具调用是否正确(参数、顺序是否无误)，第二层关注任务是否完成（例如最终答案是否正确)，第三层则关注调用链条是否高效(是否多余调用、逻辑是否冗余)。通过分层奖励，模型既能学会调用准确性，又能优化调用效率

2.3 为什么强化学习比纯指令微调更适合提升Agent的性能？

答案： 因为指令微调只能让模型"模仿"已有数据，而强化学习则能让模型在动态环境中"自我优化"。Agent 的场景往往存在高度不确定性，这些情况在训练数据里很难全部覆盖。而强化学习可以让模型在模拟环境中面对这些挑战，通过试错获得反馈，从而学到更加鲁棒的调用策略。

三、总结

本期分享系统介绍了如何通过微调提升Agent性能这一大模型面试几乎必问的关键问题，推荐大家从高效微调和强化学习微调两个角度进行回答，同时扩展了3个热点问题，涵盖了通过微调提升Agent性能的全部内容。总的来说，通过微调提升Agent性能的问题是较顶尖的工程方面问题，考察了大家的实际工程经验，按文中模板回答一定是加分项！小伙伴们阅读后感兴趣可关注笔者掘金账号和专栏，更可关注笔者同名微信公众号: 大模型真好玩，免费分享学习工作中的知识点和资料。