论文略读:Large Language Models Assume People are More Rational than We Really are

ICLR 2025 5668

为了让 AI 系统能够有效地与人类沟通,它们必须理解人类是如何做决策的。然而,人类的决策并不总是理性的,因此大型语言模型(LLMs)中对人类决策过程的内隐建模必须能够捕捉这种非理性行为。

以往的一些实证研究似乎表明,LLMs 对人类行为的建模是准确的------它们在日常交互中表现得像我们预期中的人类。然而,本文通过将多种先进 LLM(如 GPT-4o、GPT-4 Turbo、LLaMA-3 8B 和 70B、Claude 3 Opus)在模拟和预测人类选择行为时的输出与一个大规模人类决策数据集进行系统比较,发现事实并非如此:

这些模型普遍高估了人类的理性程度,它们更倾向于依据经典的**期望值理论(expected value theory)**来预测行为,而不是符合真实人类的决策模式。

有趣的是,人类自己在解释他人行为时,也倾向于假设他人是理性的。因此,当进一步对比 LLM 与人类在另一个心理学数据集上对"他人决策"的推理结果时,研究发现两者的推理高度相关。

综上,LLM 所学习到的内隐决策模型,更接近于"人们如何期望别人决策"(理性),而非"人们实际是如何决策的"(非理性)。这一发现揭示了 LLM 与人类心理预期之间的微妙对齐,同时也暴露了它们在理解真实人类行为上的系统性偏差。

相关推荐
GAOJ_K1 分钟前
滚柱导轨中的密封件如何判断是否需更换?
运维·人工智能·科技·自动化·制造
XiaoMu_0016 分钟前
基于深度学习的穿戴识别系统设计与实现
人工智能·深度学习
斯文by累12 分钟前
鸿蒙2025:领航者的技术突围战
人工智能
HyperAI超神经13 分钟前
【vLLM 学习】Prefix Caching
人工智能·深度学习·学习·大语言模型·cpu·gpu·vllm
九河云15 分钟前
华为云AI Token服务:按需调用,让AI应用“快、稳、省“
人工智能·华为云·数字化转型
大千AI助手17 分钟前
基于OpenAPI生成的 SDK 的工业级和消费级概念区别
人工智能·python·机器学习·openai·代码生成·openapi·大千ai助手
jkyy201434 分钟前
AI赋能膳食管理:健康有益助力企业实现精准营养升级
大数据·人工智能·科技·物联网·健康医疗
kk哥889934 分钟前
Adobe InCopy 2025优化文字编辑协作下载安装教程
人工智能
泰迪智能科技35 分钟前
分享泰迪案例库 | 销售行业项目案例合集
人工智能
骚戴41 分钟前
n1n:从替代LiteLLM Proxy自建网关到企业级统一架构的进阶之路
人工智能·python·大模型·llm·gateway·api