FineTuneBench:由斯坦福大学创建,包含625个训练问题和1075个测试问题,覆盖4个领域。目的评估商业微调API在不同泛化任务中的知识注入能力。

2024-11-11,由斯坦福大学创建的FineTuneBench数据集,揭示了商业大型语言模型(LLMs)微调API在新知识学习和现有知识更新方面的显著不足,这对于理解和改进LLMs的适应性和可靠性具有重要意义。

数据集地址:FineTuneBench|大型语言模型数据集|微调评估数据集

一、研究背景:

随着大型语言模型(LLMs)在软件开发、医疗等领域的广泛应用,确保这些模型包含最新和相关知识变得至关重要。然而,当前的前沿模型大多是闭源的,用户无法直接应用模型微调技术。一些公司通过商业API提供了对他们专有模型的监督微调,但这些微调服务是否能够实现知识注入尚不清楚。

目前遇到困难和挑战:

1、商业LLM微调API的效果和方法缺乏透明度,用户难以了解其背后的微调方法。

2、缺乏统一的基准来评估和比较不同商业微调API的效果。

3、用户在微调时可调整的超参数选项有限,不清楚这些选项是否足以适应新知识和更新知识。

数据集地址:FineTuneBench|大型语言模型数据集|微调评估数据集

二、让我们来一起看一下FineTuneBench数据集

FineTuneBench是一个评估框架和数据集,用于理解商业微调API在LLMs中成功学习新知识和更新知识的能力。

FineTuneBench包含625个训练问题和1075个测试问题,覆盖最新新闻、虚构人物、医疗指南和代码更新四个领域,旨在评估商业微调API在不同泛化任务中的知识注入能力。

数据集构建:

数据集通过收集最新新闻文章、生成虚构人物描述、更新医疗指南和代码库变更等信息构建而成。例如,从2024年9月的新闻中提取问题和答案对,以及基于Scikit-Learn代码库生成代码相关问题。

数据集特点:

FineTuneBench的特点在于其多样性和实用性,它不仅测试模型对新信息的学习能力,还测试模型对现有知识的更新能力。数据集包含对问题的不同变体,如改写、日期变更等,以测试模型的泛化能力。

FineTuneBench数据集可用于微调LLMs,并评估其在特定领域的知识注入效果。

用户可以通过FineTuneBench测试不同模型在新信息摄入和知识更新方面的表现,并比较不同微调API的效果。

基准测试:

FineTuneBench提供了一个基准测试平台,允许研究人员和开发者比较不同LLMs在知识注入任务上的性能,包括记忆原始问题和回答修改后问题的能力。

A:FineTuneBench概述。

我们在四个新数据集上微调了五个LLMs(GPT-4o、GPT-4o-mini、GPT-3.5-turbo、Gemini-1.5 Pro、Gemini-1.5 Flash),以测试商业微调 API 学习和更新知识的能力。

B:我们提供了 Latest News 数据集中的示例以及微调前后的模型响应。

该模型在每个问答对上训练最多 30 个 epoch,然后在同一对上重新评估模型(记忆)。然后,我们还在问题的修改版本上评估模型,该问题测试模型将其获得的知识推广到单纯记忆(Generalization)之外的能力。在 Latest News 数据集中,我们包括两个修改:rephrasing,这涉及更改问题的措辞但保留相同的答案;和 date change,它保留原始问题,但将年份换成将来的日期,以便正确的回答应该是 refal。我们观察到,尽管微调模型能够记住原始问题,但当日期更改时,它无法回答重新措辞的问题和相同的问题。

针对新知识获取数据集的原始训练问题(记忆)和修改后的问题(泛化)的微调 <代码 id=g1001>LLM) 的性能

微调模型在更新知识数据集上的性能

每个模型和数据集的训练动态(准确率与训练时期数)

三、让我们展望FineTuneBench的应用

比如我是某医院的IT主管,我们医院最近决定引入一个大型语言模型(LLM)来辅助医生们做出更精准的临床决策。这个模型得是个万事通,不光要知道最新的医疗研究,还得紧跟我们医院自己的治疗指南。但是,我们也知道,这些模型就像是个书呆子,它们需要不断学习新知识,才能保持聪明。

所以,我们决定用FineTuneBench数据集来测试一下。这个数据集就像是个专门为我们这种情况设计的工具箱,它能帮助我们看看这个LLM是不是真的能学到新东西,并且能记住这些新知识。

比如说,我们最近更新了一条关于糖尿病治疗的指南,我们想知道这个LLM能不能学会这个新知识。在FineTuneBench的帮助下,我们创建了一个测试场景,我们把这条新的糖尿病治疗指南作为一个问题-答案对输入到模型中,然后我们问模型:"对于2型糖尿病患者,我们现在推荐的首选药物是什么?"

我们希望模型能回答:"我们现在推荐的首选药物是新上市的XX药物。" 但是,如果模型回答的是旧的药物,或者干脆说不知道,那我们就知道这个模型在学习新知识上还有问题。

通过FineTuneBench,我们不仅测试了模型对新知识的学习能力,还测试了它对知识更新的能力。我们甚至可以改变问题的表述方式,比如问:"在最新的临床指南中,对于2型糖尿病患者,首选的药物治疗方案是什么?" 这样,我们就能看看模型是不是真的理解了这个知识点,而不仅仅是记住了某个特定的问题。

这个测试结果对我们来说非常重要,因为它直接关系到我们医院的服务质量。如果LLM能够准确地学习和应用最新的医疗知识,那么我们就可以更有信心地将它集成到我们的临床决策支持系统中。这样,我们的医生就能更快地获取准确的信息,我们的患者也能得到更好的治疗。

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值遇见数据集,国内领先的百万级数据集搜索引擎,实时追踪全球数据集市场,助力把握数字经济时代机遇。https://www.selectdataset.com/

相关推荐
soso1968几秒前
构建与优化数据仓库-实践指南
大数据·数据仓库·人工智能
linmoo19865 分钟前
java脚手架系列16-AI大模型集成
java·人工智能·ai·大模型·通义千问·qwen·脚手架
仙俊红9 分钟前
快速运行openMMOCR
深度学习·算法
无水先生11 分钟前
ML 系列:第 36 节 — 统计学中的抽样类型
人工智能·机器学习·概率论
Guofu_Liao12 分钟前
大语言模型---Llama不同系列的权重参数文件提取;Llama-7B权重文件提取;Llama-8B权重文件提取;主要代码功能解析
人工智能·语言模型·自然语言处理·chatgpt·aigc·llama·python3.11
剑盾云安全专家22 分钟前
AI时代的PPT革命:智能生成PPT工具为何备受青睐?
人工智能·aigc
-Max-静-25 分钟前
Paddle Inference部署推理(十八)
人工智能·windows·深度学习·算法·paddle·推理 部署
qq_2147826127 分钟前
ChatGPT如何辅助academic writing?
人工智能·学习·chatgpt
十有久诚1 小时前
SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained Models
人工智能·深度学习·计算机视觉·视觉语言模型·适配器微调
学习前端的小z2 小时前
【AI绘画】Midjourney进阶:色调详解(上)
人工智能·ai作画·aigc·midjourney