论文笔记:LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Abstract

当前存在问题,大模型在生成关于开放主题的事实寻求问题的时候经常存在事实性错误。

LongFact

创建了LongFact 用于对各种主题的长形式事实性问题进行基准测试。LongFact是一个prompt集包含38个领域的数千条提示词,使用GPT-4生成。

Search-Augmented Factuality Evaluator(SAFE)

SAFE 利用大模型将一个相应拆解成一组独立的事实,再使用多步骤推理评价准确性。包括向谷歌发送搜索,并确定搜索结果是否支持一个事实。

采用F1分数作为长形式事实性的聚合度量。(精确度&&召回率)

Result

SAFT在72%的问题上与人类标注者认为一致,76%的问题回答正确,但成本只有人力的1/20。

LongFact

特点

prompt的回答是由一个长文本组成的,而非一两个单词。

prompt包含的内容广泛。

因此LongFact是第一个包含广泛主题的长文本PromptSet。

SAFE

关于benchmark存在的问题是没有一个评价模型回答的方法,之前的方法是有一个标准答案的合集,但是这种方法只适用于简短的回答,因此这里采用了一种新的方法SAFE,调用谷歌的API接口。

相关推荐
萤丰信息1 小时前
AI + 物联网在智慧园区的深度应用:落地场景 + 技术要点
人工智能·物联网
颜酱1 小时前
提示词强化 2:元提示(Meta-Prompt)与动态提示词
前端·javascript·人工智能
深海鱼在掘金1 小时前
从 Claude Code 泄露源码看工程架构:第五章 —— 工具框架的三层装配线
人工智能·设计模式·架构
无忧智库1 小时前
多模态医疗影像与结构化病历关联高质量数据集:从顶层设计到工程落地的全景解析(WORD)
人工智能·架构
广州山泉婚姻1 小时前
C语言循环结构精讲:底层认知与实用技巧
c语言·人工智能
久菜盒子工作室1 小时前
面试经验|AI产品经理|深度学习知识
人工智能·深度学习·产品经理
weitingfu1 小时前
AI 游戏,为什么更适合鸿蒙?
人工智能·游戏·华为·ai·harmonyos
江瀚视野1 小时前
三亚首启两大创新店态,名创优品战略突围的逻辑何在?
大数据·人工智能
leoZ2311 小时前
金仓老旧项目改造-8
人工智能·金仓