【代码大模型】Is Your Code Generated by ChatGPT Really Correct?论文阅读

Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation

key word: evaluation framework, LLM-synthesized code, benchmark

论文:https://arxiv.org/pdf/2305.01210.pdf

代码:https://github.com/evalplus/evalplus

【why】

现存的 LLM-for-code 的基准测试集的局限性:

(1)Insufficient testing

当前的编程基准程序通常只包含平均少于10个测试的每个编码问题。

此外,这些测试相对过于简单,无法充分发掘代码或角案例的功能。

(2)Imprecise problem description

代码生成的输入除了函数签名外,还包括自然语言。现有基准程序中的这些任务描述往往过于模糊,无法充分阐明预期的程序行为。

【what】
1.EvalPlus -- a code synthesis evaluation framework to rigorously benchmark the functional correctness of LLM-synthesized code

(1)Seed initialization via ChatGPT

ChatGPT作为一个自动生成引擎,生成少量但高质量种子

prompt 中包含的内容:

· 所要考察问题的真实解

· 一组作为示范的测试输入

· 激励ChatGPT提出输入的指令词
(2)Type-aware input mutation

inputs 的生成规则:

· 使用Chatgpt生成的种子初始化 seed pool 并引导 generation pipeline

· 每次从种子池中随机选择一个输入,将其突变为一个新的输入(即突变型)

· 在种子池中添加新的符合程序要求的输入,重复二三步
(3)Test-suite reduction

· code coverage

· mutant killings

· LLM sample killings
(4)Program input contracts

评估代码的最终目的是需要检查合成的代码是否符合期望的用户意图。

采用contracts编程思想,以断言的形式注释函数的前置条件。
2. Extend the test-cases of the popular HUMANEVAL benchmark by 80× to build HUMANEVAL+

【how】

评价指标:无偏版本的pass@k

1.结果

(1)在所有的LLMs,模型大小和k值中,使用HUMANEVAL +,几乎所有的pass @ k结果与使用基本HUMANEVAL相比一致下降。

(2)HUMANEVAL+更严格的评估可能会产生与HUMANEVAL不同或完全相反的相对结果。

(3) 在使用HUMANEVAL +前后,最佳temperature保持相当一致,说明具有稳健性。

(4) 精简后的测试集仅用47 ×的测试用例就可以达到与HUMANEVAL +几乎相同的pass @ 1⋆drop。

(5) HUMANEVAL和HUMANEVAL +之间的通过率差距表明,总体上HUMANEVAL +可以检测出HUMANEVAL错误识别的所有级别困难问题的解决方案。
2.实验细节:

(1)随机抽取200个programs,并且在 temperature{0.2, 0.4, 0.6, 0.8} 和greedy decoding with zero temperature 上重复实验

思考问题:

1.ChatGPT一般的输出包含很多无用词汇or符号,具有输出不稳定性,请问怎么保证每次输出稳定+正确的呢?

  1. temperature 是什么呢?

  2. 还是很迷惑,测试结果变差就代表本文提出的方法更好吗?

相关推荐
码界奇点4 小时前
基于Gin与GORM的若依后台管理系统设计与实现
论文阅读·go·毕业设计·gin·源代码管理
DS随心转APP5 小时前
ChatGPT和Gemini回答怎么导出
人工智能·ai·chatgpt·deepseek·ds随心转
森诺Alyson8 小时前
前沿技术借鉴研讨-2026.1.29(时间序列预测)
论文阅读·人工智能·经验分享·深度学习·论文笔记
DS随心转插件11 小时前
ChatGPT和Gemini排版指令
人工智能·ai·chatgpt·deepseek·ds随心转
hunteritself11 小时前
反击 OpenAI!谷歌史诗级更新:Gemini in Chrome 正式上线,免费用
人工智能·深度学习·microsoft·机器学习·chatgpt
SEO_juper13 小时前
实现ChatGPT的被动推荐:让你的品牌被主动提及的核心优化路径
人工智能·ai·chatgpt·seo·数字营销
有Li1 天前
多视图深度学习乳腺X线摄影分类技术:图和Transformer架构的探究/文献速递-基于人工智能的医学影像技术
论文阅读·深度学习·文献·医学生
DS随心转插件1 天前
元宝 千问 文心 Kimi排版指令
人工智能·ai·chatgpt·豆包·deepseek·ds随心转
数说星榆1811 天前
前后端分离开发流程-泳道图设计与应用
论文阅读·职场和发展·毕业设计·流程图·职场发展·论文笔记·毕设
陆研一1 天前
Clawdbot:Mac mini 卖爆背后的 AI 代理革命
人工智能·ai·chatgpt