论文笔记:LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Abstract

当前存在问题,大模型在生成关于开放主题的事实寻求问题的时候经常存在事实性错误。

LongFact

创建了LongFact 用于对各种主题的长形式事实性问题进行基准测试。LongFact是一个prompt集包含38个领域的数千条提示词,使用GPT-4生成。

Search-Augmented Factuality Evaluator(SAFE)

SAFE 利用大模型将一个相应拆解成一组独立的事实,再使用多步骤推理评价准确性。包括向谷歌发送搜索,并确定搜索结果是否支持一个事实。

采用F1分数作为长形式事实性的聚合度量。(精确度&&召回率)

Result

SAFT在72%的问题上与人类标注者认为一致,76%的问题回答正确,但成本只有人力的1/20。

LongFact

特点

prompt的回答是由一个长文本组成的,而非一两个单词。

prompt包含的内容广泛。

因此LongFact是第一个包含广泛主题的长文本PromptSet。

SAFE

关于benchmark存在的问题是没有一个评价模型回答的方法,之前的方法是有一个标准答案的合集,但是这种方法只适用于简短的回答,因此这里采用了一种新的方法SAFE,调用谷歌的API接口。

相关推荐
西猫雷婶1 小时前
CNN卷积计算
人工智能·神经网络·cnn
格林威3 小时前
常规线扫描镜头有哪些类型?能做什么?
人工智能·深度学习·数码相机·算法·计算机视觉·视觉检测·工业镜头
倔强青铜三4 小时前
苦练Python第63天:零基础玩转TOML配置读写,tomllib模块实战
人工智能·python·面试
B站计算机毕业设计之家4 小时前
智慧交通项目:Python+YOLOv8 实时交通标志系统 深度学习实战(TT100K+PySide6 源码+文档)✅
人工智能·python·深度学习·yolo·计算机视觉·智慧交通·交通标志
高工智能汽车4 小时前
棱镜观察|极氪销量遇阻?千里智驾左手服务吉利、右手对标华为
人工智能·华为
txwtech4 小时前
第6篇 OpenCV RotatedRect如何判断矩形的角度
人工智能·opencv·计算机视觉
正牌强哥4 小时前
Futures_ML——机器学习在期货量化交易中的应用与实践
人工智能·python·机器学习·ai·交易·akshare
倔强青铜三4 小时前
苦练Python第62天:零基础玩转CSV文件读写,csv模块实战
人工智能·python·面试
大模型真好玩5 小时前
低代码Agent开发框架使用指南(二)—Coze平台核心功能概览
人工智能·coze·deepseek
jerryinwuhan5 小时前
最短路径问题总结
开发语言·人工智能·python