DO LARGE LANGUAGE MODELS KNOW ABOUT FACTS?

本文是LLM系列文章,针对《DO LARGE LANGUAGE MODELS KNOW ABOUT FACTS?》的翻译。

@TOC

摘要

大型语言模型(LLM)最近推动了一系列自然语言处理任务的显著性能改进。在预训练和指令调整过程中获得的事实知识可以用于各种下游任务,如问答和语言生成。与显式存储事实知识的传统知识库不同,LLM在其参数中隐式存储事实。LLM生成的内容往往会出现不准确或偏离事实的情况,因为事实可能会被错误地归纳或随着时间的推移而过时。为此,我们旨在通过设计基准Pinocchio来全面评估LLM中事实知识的程度和范围。Pinocchio包含了2万个不同的事实问题,这些问题跨越了不同的来源、时间线、领域、地区和语言。此外,我们研究LLM是否能够组成多个事实,在时间上更新事实知识,对多个事实进行推理,识别细微的事实差异,并抵制对抗性例子。对不同大小和类型的LLM进行的大量实验表明,现有的LLM仍然缺乏事实知识,并且存在各种虚假的相关性。我们认为这是实现值得信赖的人工智能的关键瓶颈。Pinocchio数据集和我们的代码将公开。

1 引言

2 数据集构建

3 方法

4 实验

5 相关工作

6 结论

在这项工作中,我们调查了LLM是否能够记忆事实知识并基于其进行推理,跨越各种问题类别和提示策略。为此,我们策划了Pinocchio基准测试,这是一个包含20713个问题的综合测试平台,涵盖了七项不同复杂性的任务。通过在Pinocchio基准上评估LLM和提示方法,我们发现采用各种提示策略(如多样本和自我一致性)的不同类型的LLM在实际任务中的表现仍然不理想。提高LLM在复杂和微妙的NLP任务上的事实知识和推理能力仍然是一个悬而未决的研究问题,我们鼓励未来的工作在我们提出的Pinocchio基准的基础上发展。

相关推荐
B博士20 分钟前
科研进展 | JAG: 大光斑高光谱激光雷达遥感辐射传输模型从垂直视角解锁森林叶绿素分布密码
人工智能·jag·高光谱激光雷达·森林分层叶绿素诊断
Yao.Li1 小时前
PVN3D ORT CUDA Custom Ops 实现与联调记录
人工智能·3d·具身智能
诺伦1 小时前
LocalClaw 在智能制造的新机会:6部门AI+电商政策下的工厂AI升级方案
人工智能·制造
小陈工3 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬7 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志7 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114248 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠8 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光8 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好8 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型