论文笔记:LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Abstract

当前存在问题,大模型在生成关于开放主题的事实寻求问题的时候经常存在事实性错误。

LongFact

创建了LongFact 用于对各种主题的长形式事实性问题进行基准测试。LongFact是一个prompt集包含38个领域的数千条提示词,使用GPT-4生成。

Search-Augmented Factuality Evaluator(SAFE)

SAFE 利用大模型将一个相应拆解成一组独立的事实,再使用多步骤推理评价准确性。包括向谷歌发送搜索,并确定搜索结果是否支持一个事实。

采用F1分数作为长形式事实性的聚合度量。(精确度&&召回率)

Result

SAFT在72%的问题上与人类标注者认为一致,76%的问题回答正确,但成本只有人力的1/20。

LongFact

特点

prompt的回答是由一个长文本组成的,而非一两个单词。

prompt包含的内容广泛。

因此LongFact是第一个包含广泛主题的长文本PromptSet。

SAFE

关于benchmark存在的问题是没有一个评价模型回答的方法,之前的方法是有一个标准答案的合集,但是这种方法只适用于简短的回答,因此这里采用了一种新的方法SAFE,调用谷歌的API接口。

相关推荐
月岛雫-7 分钟前
“单标签/多标签” vs “二分类/多分类”
人工智能·分类·数据挖掘
云卓SKYDROID22 分钟前
无人机飞行速度模块技术要点概述
人工智能·无人机·飞行速度·高科技·云卓科技
币须赢1 小时前
英伟达Thor芯片套件9月发货 “物理AI”有哪些?
大数据·人工智能
盼小辉丶1 小时前
Transformer实战(18)——微调Transformer语言模型进行回归分析
深度学习·语言模型·回归·transformer
格林威1 小时前
机器视觉检测如何使用360 度全景成像镜头进行AI 瑕疵检测
人工智能·深度学习·数码相机·机器学习·计算机视觉·视觉检测·相机
互联网之声1 小时前
崔传波教授:以科技与人文之光,点亮近视患者的清晰视界‌
人工智能
lily363926046a1 小时前
智联未来 点赋科技
大数据·人工智能
聚客AI1 小时前
🍬传统工程师转型:智能体架构师的技能图谱
人工智能·agent·mcp
lihuayong1 小时前
AI赋能金融研报自动化生成:智能体系统架构与实现
人工智能·金融研报自动化