【复杂指令遵循 Benchmark】论文分享：CodeIF

论文名称：CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation

论文链接：arxiv.org/abs/2502.19...

机构：北航 + 清华 + 新加坡国立大学

Github代码链接：github.com/lin-rany/co...

数据集链接：huggingface.co/datasets/li...

简介

随着 AI Coding 持续火爆，代码生成需求持续增长，但模型理解复杂指令的能力如何准确评估还是一个有挑战性的话题。本文就提出了一个 CodeIF 基准，用于评估 LLM 在代码生成任务中的复杂指令遵循能力。

构造方法

框架概述

图1展示的是CodeIF构建流程，具体如下：

种子问题到选定问题（浅橙色部分） ：一开始有一些"种子问题" （Seed Question），经过筛选，得到"选定问题"（Selected Question ）。这些问题是构建数据集的起始素材。
人类专家生成高质量问题（浅蓝色部分） ："人类专家"（Human-Expert ）对相关内容进行处理，生成"高质量问题"（High Quality Question）。人类专家凭借专业知识，对问题进行优化和完善。
约束收集（浅绿色部分） ：从互联网（Internet）上进行"约束收集"（constraint collection ），形成"指令"（Instruction）。也就是从网络获取各种代码生成任务的约束条件。
LLM处理及构建依赖（中间及右侧部分） ：把前面得到的"选定问题""高质量问题"和"指令"都输入到LLM 。LLM对这些信息进行处理，之后再由人"构建依赖"（Build Dependence ），最终得到"CodeIF数据"（CodeIF Data ）。这一步是整合前面的内容，建立起数据之间的关联，形成可用的CodeIF数据集。

构建流程示例

结合我个人的理解，以实现一个简单的学生信息管理系统（用Python语言）为例，说说CodeIF数据构造过程。

Step-1：种子问题筛选

先从众多代码生成相关问题里，挑出"实现学生信息管理系统"作为种子问题，这是构建数据集的起始点。

Step-2：人类专家生成高质量问题

人类专家介入，把这个种子问题完善。比如明确要实现的功能：能添加学生信息（姓名、学号、成绩等）、能查询学生成绩、能更新学生信息等，形成高质量问题。

Step-3：约束收集

从互联网等渠道收集约束条件：

① 全局约束：限定用Python语言编写；代码行数不超过100行。

② 结构控制约束：要求使用字典来存储学生信息；在查询功能中必须用for循环遍历数据。

③ 变量约束：定义存储学生姓名的变量名必须是 student_name；成绩变量类型得是浮点数。

④ 函数约束：定义添加学生信息的函数名为 add_student_info；查询学生成绩函数要有返回值。

⑤ 组合约束：先实现添加学生信息功能，才能实现基于已有信息的查询功能。

Step-4：LLM处理及构建依赖

把完善后的问题和收集的约束条件输入LLM，模型处理后，人工梳理约束间依赖关系。比如"查询学生成绩功能"依赖"添加学生信息功能"已完成，只有先成功添加学生信息，查询功能才有数据可查。经过这些步骤，就构造出了用于评估模型在该任务下表现的相关数据。

成品数据示例

图3展示了一个具体的代码生成任务示例及其约束指令，用于直观呈现 CodeIF 数据集中任务和约束的具体形式，

任务：实现一个带有LRU（最近最少使用）替换策略的缓存模块。
约束指令：
- 类别：分为global（全局）、structural control（结构控制）、variable（变量）、function（函数）、interface（接口）、class（类）、file（文件）、combination（组合）等类别。
- 依赖关系：部分指令存在依赖关系，如指令6依赖指令1（标记为[1,6] ），表示在满足指令1的前提下执行指令6 。
- 具体指令：如global类别下有"代码用C++编写""答案总行数不超过50行"等指令；structural control类别下有"代码不应使用数据结构std::unordered_map"等指令；class类别下有"代码应定义一个名为LRUCache的类"等指令。