论文笔记:LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Abstract

当前存在问题,大模型在生成关于开放主题的事实寻求问题的时候经常存在事实性错误。

LongFact

创建了LongFact 用于对各种主题的长形式事实性问题进行基准测试。LongFact是一个prompt集包含38个领域的数千条提示词,使用GPT-4生成。

Search-Augmented Factuality Evaluator(SAFE)

SAFE 利用大模型将一个相应拆解成一组独立的事实,再使用多步骤推理评价准确性。包括向谷歌发送搜索,并确定搜索结果是否支持一个事实。

采用F1分数作为长形式事实性的聚合度量。(精确度&&召回率)

Result

SAFT在72%的问题上与人类标注者认为一致,76%的问题回答正确,但成本只有人力的1/20。

LongFact

特点

prompt的回答是由一个长文本组成的,而非一两个单词。

prompt包含的内容广泛。

因此LongFact是第一个包含广泛主题的长文本PromptSet。

SAFE

关于benchmark存在的问题是没有一个评价模型回答的方法,之前的方法是有一个标准答案的合集,但是这种方法只适用于简短的回答,因此这里采用了一种新的方法SAFE,调用谷歌的API接口。

相关推荐
大千AI助手15 小时前
PPT: Pre-trained Prompt Tuning - 预训练提示调优详解
人工智能·神经网络·llm·prompt·ppt·大千ai助手·预训练提示调优
新智元16 小时前
李飞飞万字长文爆了!定义 AI 下一个十年
人工智能·openai
新智元16 小时前
谢赛宁 × 李飞飞 ×LeCun 首次联手!寒武纪 - S「空间超感知」AI 震撼登场
人工智能·openai
Web3_Daisy16 小时前
如何在市场波动中稳步推进代币发行
大数据·人工智能·物联网·web3·区块链
YisquareTech16 小时前
从“零”构建零售EDI能力:实施路径与常见陷阱
网络·人工智能·edi·零售·零售edi
电科_银尘16 小时前
【大语言模型】-- OpenAI定义的五个AGI发展阶段
人工智能·语言模型·agi
mm-q291522272916 小时前
知乎知学堂/AGI课堂·AI大模型全栈工程师培养计划,【第二期】+【第四期】
人工智能·agi
道可云16 小时前
以场景赋能激发新质生产力——“人工智能+”引领人机共生新图景
人工智能
进击的炸酱面16 小时前
第五章 神经网络
人工智能·深度学习·神经网络
沉默媛16 小时前
如何下载安装以及使用labelme,一个可以打标签的工具,实现数据集处理,详细教程
图像处理·人工智能·python·yolo·计算机视觉