论文笔记:LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Abstract

当前存在问题,大模型在生成关于开放主题的事实寻求问题的时候经常存在事实性错误。

LongFact

创建了LongFact 用于对各种主题的长形式事实性问题进行基准测试。LongFact是一个prompt集包含38个领域的数千条提示词,使用GPT-4生成。

Search-Augmented Factuality Evaluator(SAFE)

SAFE 利用大模型将一个相应拆解成一组独立的事实,再使用多步骤推理评价准确性。包括向谷歌发送搜索,并确定搜索结果是否支持一个事实。

采用F1分数作为长形式事实性的聚合度量。(精确度&&召回率)

Result

SAFT在72%的问题上与人类标注者认为一致,76%的问题回答正确,但成本只有人力的1/20。

LongFact

特点

prompt的回答是由一个长文本组成的,而非一两个单词。

prompt包含的内容广泛。

因此LongFact是第一个包含广泛主题的长文本PromptSet。

SAFE

关于benchmark存在的问题是没有一个评价模型回答的方法,之前的方法是有一个标准答案的合集,但是这种方法只适用于简短的回答,因此这里采用了一种新的方法SAFE,调用谷歌的API接口。

相关推荐
Sss_Ass11 分钟前
2026 年 AI 大模型 & AI 编程工具实战全总结
人工智能
IT231018 分钟前
RISC-V SoC设计解决方案:从架构优化到验证收敛
人工智能
BlockWay19 分钟前
WEEX Labs 周度观察:微软-OpenAI 合作调整与AI 多云趋势
大数据·人工智能·算法·安全·microsoft
掘金一周27 分钟前
问卷调查:如果现在收到裁员通知,你手里的现金流能支撑多久? | 沸点周刊6.4
前端·人工智能·后端
Smoothcloud润云33 分钟前
5大功能精修,重构AI算力使用体验!
java·人工智能·windows·算法·重构·编辑器·sublime text
andafaAPS38 分钟前
安达发|工艺品aps自动排产排程排单软件:告别生产“一团乱麻“
大数据·数据库·人工智能·安达发aps·计划排产软件·自动排单软件
hyunbar77740 分钟前
Hermes|飞书 + 腾讯云搭建带记忆的 AI 智能助手
人工智能
hans汉斯40 分钟前
【计算机科学与应用】YOLO-Apple:一种用于苹果幼果检测的改进型目标检测方法
人工智能·yolo·目标检测·计算机视觉·目标跟踪·数据·病虫害检测
X54先生(人文科技)41 分钟前
《终章-镜中深爱之星》上架成果简报
人工智能·音频·ai写作·开源协议
F_D_Z42 分钟前
扩散大语言模型新框架TraceRL
人工智能·语言模型·自然语言处理