论文笔记:LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Abstract

当前存在问题,大模型在生成关于开放主题的事实寻求问题的时候经常存在事实性错误。

LongFact

创建了LongFact 用于对各种主题的长形式事实性问题进行基准测试。LongFact是一个prompt集包含38个领域的数千条提示词,使用GPT-4生成。

Search-Augmented Factuality Evaluator(SAFE)

SAFE 利用大模型将一个相应拆解成一组独立的事实,再使用多步骤推理评价准确性。包括向谷歌发送搜索,并确定搜索结果是否支持一个事实。

采用F1分数作为长形式事实性的聚合度量。(精确度&&召回率)

Result

SAFT在72%的问题上与人类标注者认为一致,76%的问题回答正确,但成本只有人力的1/20。

LongFact

特点

prompt的回答是由一个长文本组成的,而非一两个单词。

prompt包含的内容广泛。

因此LongFact是第一个包含广泛主题的长文本PromptSet。

SAFE

关于benchmark存在的问题是没有一个评价模型回答的方法,之前的方法是有一个标准答案的合集,但是这种方法只适用于简短的回答,因此这里采用了一种新的方法SAFE,调用谷歌的API接口。

相关推荐
dagouaofei4 分钟前
AI 生成 2026 年工作计划 PPT,模板与结构能力对比
人工智能·python·powerpoint
燕双嘤14 分钟前
深度学习:激活函数,优化器
人工智能·深度学习
蜡笔小新..21 分钟前
从零学习 RL :初识强化学习
人工智能·强化学习·rl
m0_6038887122 分钟前
More Images, More Problems A Controlled Analysis of VLM Failure Modes
人工智能·算法·机器学习·ai·论文速览
ICscholar25 分钟前
ROC曲线解读
人工智能·机器学习
丝斯201131 分钟前
AI学习笔记整理(44)——大规模预训练模型数据处理管道Pipeline
人工智能·笔记·学习
向量引擎小橙34 分钟前
Sora开启“世界模拟器”新纪元:谁将定义AI的物理世界?
人工智能
OpenCSG1 小时前
AgenticOps x CSGHub:企业智能体走向规模化生产的工程底座
大数据·人工智能
weixin_437988121 小时前
范式智能获评年度科技创新新锐公司
人工智能·科技
易营宝1 小时前
高效的跨境电商广告优化系统:易营宝广告投放实操指南
大数据·开发语言·人工智能·php