Abstract
当前存在问题,大模型在生成关于开放主题的事实寻求问题的时候经常存在事实性错误。
LongFact
创建了LongFact 用于对各种主题的长形式事实性问题进行基准测试。LongFact是一个prompt集包含38个领域的数千条提示词,使用GPT-4生成。
Search-Augmented Factuality Evaluator(SAFE)
SAFE 利用大模型将一个相应拆解成一组独立的事实,再使用多步骤推理评价准确性。包括向谷歌发送搜索,并确定搜索结果是否支持一个事实。
采用F1分数作为长形式事实性的聚合度量。(精确度&&召回率)
Result
SAFT在72%的问题上与人类标注者认为一致,76%的问题回答正确,但成本只有人力的1/20。
LongFact
特点
prompt的回答是由一个长文本组成的,而非一两个单词。
prompt包含的内容广泛。
因此LongFact是第一个包含广泛主题的长文本PromptSet。
SAFE
关于benchmark存在的问题是没有一个评价模型回答的方法,之前的方法是有一个标准答案的合集,但是这种方法只适用于简短的回答,因此这里采用了一种新的方法SAFE,调用谷歌的API接口。