论文笔记:LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Abstract

当前存在问题,大模型在生成关于开放主题的事实寻求问题的时候经常存在事实性错误。

LongFact

创建了LongFact 用于对各种主题的长形式事实性问题进行基准测试。LongFact是一个prompt集包含38个领域的数千条提示词,使用GPT-4生成。

Search-Augmented Factuality Evaluator(SAFE)

SAFE 利用大模型将一个相应拆解成一组独立的事实,再使用多步骤推理评价准确性。包括向谷歌发送搜索,并确定搜索结果是否支持一个事实。

采用F1分数作为长形式事实性的聚合度量。(精确度&&召回率)

Result

SAFT在72%的问题上与人类标注者认为一致,76%的问题回答正确,但成本只有人力的1/20。

LongFact

特点

prompt的回答是由一个长文本组成的,而非一两个单词。

prompt包含的内容广泛。

因此LongFact是第一个包含广泛主题的长文本PromptSet。

SAFE

关于benchmark存在的问题是没有一个评价模型回答的方法,之前的方法是有一个标准答案的合集,但是这种方法只适用于简短的回答,因此这里采用了一种新的方法SAFE,调用谷歌的API接口。

相关推荐
树莓集团6 分钟前
从AI到大数据,数字技术服务平台全栈赋能企业升级
大数据·人工智能·科技·物联网·媒体
Java追光着27 分钟前
基于扣子(Coze)打造第一个智能体——个性化对话机器人
人工智能·机器人·扣子
勤劳兔码农38 分钟前
基于LSTM的文本摘要生成实战教程
人工智能·rnn·lstm
炸膛坦客1 小时前
深度学习:(四)python中的广播
人工智能·python·深度学习
shuxianshrng1 小时前
鹰眼降尘模型
大数据·服务器·人工智能·经验分享·机器人
金智维科技官方2 小时前
如何选择适合企业的高效财税自动化软件
大数据·人工智能·自动化
FL16238631292 小时前
[数据集][目标检测]高铁受电弓检测数据集VOC+YOLO格式1245张2类别
人工智能·yolo·目标检测
雅菲奥朗2 小时前
FinOps三人行:共话FinOps云成本管理与AI的未来在线分享(文字+视频)
人工智能·aigc·finops·云财务管理·云成本管理
123wxw3 小时前
【文献分享】J. Phys. Chem. C:机器学习模型的结构嵌入方法加速堆叠二维材料的研究
人工智能·分子动力学·lammps·第一性原理计算·原子结构·力学性质
蜡笔小新星3 小时前
机器学习和深度学习的区别
开发语言·人工智能·经验分享·深度学习·学习·机器学习