FineTuneBench:由斯坦福大学创建,包含625个训练问题和1075个测试问题,覆盖4个领域。目的评估商业微调API在不同泛化任务中的知识注入能力。

2024-11-11,由斯坦福大学创建的FineTuneBench数据集,揭示了商业大型语言模型(LLMs)微调API在新知识学习和现有知识更新方面的显著不足,这对于理解和改进LLMs的适应性和可靠性具有重要意义。

数据集地址:FineTuneBench|大型语言模型数据集|微调评估数据集

一、研究背景:

随着大型语言模型(LLMs)在软件开发、医疗等领域的广泛应用,确保这些模型包含最新和相关知识变得至关重要。然而,当前的前沿模型大多是闭源的,用户无法直接应用模型微调技术。一些公司通过商业API提供了对他们专有模型的监督微调,但这些微调服务是否能够实现知识注入尚不清楚。

目前遇到困难和挑战:

1、商业LLM微调API的效果和方法缺乏透明度,用户难以了解其背后的微调方法。

2、缺乏统一的基准来评估和比较不同商业微调API的效果。

3、用户在微调时可调整的超参数选项有限,不清楚这些选项是否足以适应新知识和更新知识。

数据集地址:FineTuneBench|大型语言模型数据集|微调评估数据集

二、让我们来一起看一下FineTuneBench数据集

FineTuneBench是一个评估框架和数据集,用于理解商业微调API在LLMs中成功学习新知识和更新知识的能力。

FineTuneBench包含625个训练问题和1075个测试问题,覆盖最新新闻、虚构人物、医疗指南和代码更新四个领域,旨在评估商业微调API在不同泛化任务中的知识注入能力。

数据集构建:

数据集通过收集最新新闻文章、生成虚构人物描述、更新医疗指南和代码库变更等信息构建而成。例如,从2024年9月的新闻中提取问题和答案对,以及基于Scikit-Learn代码库生成代码相关问题。

数据集特点:

FineTuneBench的特点在于其多样性和实用性,它不仅测试模型对新信息的学习能力,还测试模型对现有知识的更新能力。数据集包含对问题的不同变体,如改写、日期变更等,以测试模型的泛化能力。

FineTuneBench数据集可用于微调LLMs,并评估其在特定领域的知识注入效果。

用户可以通过FineTuneBench测试不同模型在新信息摄入和知识更新方面的表现,并比较不同微调API的效果。

基准测试:

FineTuneBench提供了一个基准测试平台,允许研究人员和开发者比较不同LLMs在知识注入任务上的性能,包括记忆原始问题和回答修改后问题的能力。

A:FineTuneBench概述。

我们在四个新数据集上微调了五个LLMs(GPT-4o、GPT-4o-mini、GPT-3.5-turbo、Gemini-1.5 Pro、Gemini-1.5 Flash),以测试商业微调 API 学习和更新知识的能力。

B:我们提供了 Latest News 数据集中的示例以及微调前后的模型响应。

该模型在每个问答对上训练最多 30 个 epoch,然后在同一对上重新评估模型(记忆)。然后,我们还在问题的修改版本上评估模型,该问题测试模型将其获得的知识推广到单纯记忆(Generalization)之外的能力。在 Latest News 数据集中,我们包括两个修改:rephrasing,这涉及更改问题的措辞但保留相同的答案;和 date change,它保留原始问题,但将年份换成将来的日期,以便正确的回答应该是 refal。我们观察到,尽管微调模型能够记住原始问题,但当日期更改时,它无法回答重新措辞的问题和相同的问题。

针对新知识获取数据集的原始训练问题(记忆)和修改后的问题(泛化)的微调 <代码 id=g1001>LLM) 的性能

微调模型在更新知识数据集上的性能

每个模型和数据集的训练动态(准确率与训练时期数)

三、让我们展望FineTuneBench的应用

比如我是某医院的IT主管,我们医院最近决定引入一个大型语言模型(LLM)来辅助医生们做出更精准的临床决策。这个模型得是个万事通,不光要知道最新的医疗研究,还得紧跟我们医院自己的治疗指南。但是,我们也知道,这些模型就像是个书呆子,它们需要不断学习新知识,才能保持聪明。

所以,我们决定用FineTuneBench数据集来测试一下。这个数据集就像是个专门为我们这种情况设计的工具箱,它能帮助我们看看这个LLM是不是真的能学到新东西,并且能记住这些新知识。

比如说,我们最近更新了一条关于糖尿病治疗的指南,我们想知道这个LLM能不能学会这个新知识。在FineTuneBench的帮助下,我们创建了一个测试场景,我们把这条新的糖尿病治疗指南作为一个问题-答案对输入到模型中,然后我们问模型:"对于2型糖尿病患者,我们现在推荐的首选药物是什么?"

我们希望模型能回答:"我们现在推荐的首选药物是新上市的XX药物。" 但是,如果模型回答的是旧的药物,或者干脆说不知道,那我们就知道这个模型在学习新知识上还有问题。

通过FineTuneBench,我们不仅测试了模型对新知识的学习能力,还测试了它对知识更新的能力。我们甚至可以改变问题的表述方式,比如问:"在最新的临床指南中,对于2型糖尿病患者,首选的药物治疗方案是什么?" 这样,我们就能看看模型是不是真的理解了这个知识点,而不仅仅是记住了某个特定的问题。

这个测试结果对我们来说非常重要,因为它直接关系到我们医院的服务质量。如果LLM能够准确地学习和应用最新的医疗知识,那么我们就可以更有信心地将它集成到我们的临床决策支持系统中。这样,我们的医生就能更快地获取准确的信息,我们的患者也能得到更好的治疗。

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值遇见数据集,国内领先的百万级数据集搜索引擎,实时追踪全球数据集市场,助力把握数字经济时代机遇。https://www.selectdataset.com/

相关推荐
二川bro7 小时前
多模态AI开发:Python实现跨模态学习
人工智能·python·学习
张彦峰ZYF7 小时前
AI赋能原则1解读思考:超级能动性-AI巨变时代重建个人掌控力的关键能力
人工智能·ai·aigc·ai-native
love530love7 小时前
【笔记】ComfUI RIFEInterpolation 节点缺失问题(cupy CUDA 安装)解决方案
人工智能·windows·笔记·python·插件·comfyui
Lucky小小吴7 小时前
Google《Prompt Engineering》2025白皮书——最佳实践十四式
人工智能·prompt
AI科技星7 小时前
为什么变化的电磁场才产生引力场?—— 统一场论揭示的时空动力学本质
数据结构·人工智能·经验分享·算法·计算机视觉
青瓷程序设计7 小时前
昆虫识别系统【最新版】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
咩图7 小时前
C#创建AI项目
开发语言·人工智能·c#
深蓝海拓7 小时前
opencv的模板匹配(Template Matching)学习笔记
人工智能·opencv·计算机视觉
美林数据Tempodata7 小时前
李飞飞最新论文深度解读:从语言到世界,空间智能将重写AI的未来十年
人工智能·ai·空间智能
东哥说-MES|从入门到精通7 小时前
数字化部分内容 | 十四五年规划和2035年远景目标纲要(新华社正式版)
大数据·人工智能·数字化转型·mes·数字化工厂·2035·十四五规划