论文略读:Large Language Models Assume People are More Rational than We Really are

ICLR 2025 5668

为了让 AI 系统能够有效地与人类沟通,它们必须理解人类是如何做决策的。然而,人类的决策并不总是理性的,因此大型语言模型(LLMs)中对人类决策过程的内隐建模必须能够捕捉这种非理性行为。

以往的一些实证研究似乎表明,LLMs 对人类行为的建模是准确的------它们在日常交互中表现得像我们预期中的人类。然而,本文通过将多种先进 LLM(如 GPT-4o、GPT-4 Turbo、LLaMA-3 8B 和 70B、Claude 3 Opus)在模拟和预测人类选择行为时的输出与一个大规模人类决策数据集进行系统比较,发现事实并非如此:

这些模型普遍高估了人类的理性程度,它们更倾向于依据经典的**期望值理论(expected value theory)**来预测行为,而不是符合真实人类的决策模式。

有趣的是,人类自己在解释他人行为时,也倾向于假设他人是理性的。因此,当进一步对比 LLM 与人类在另一个心理学数据集上对"他人决策"的推理结果时,研究发现两者的推理高度相关。

综上,LLM 所学习到的内隐决策模型,更接近于"人们如何期望别人决策"(理性),而非"人们实际是如何决策的"(非理性)。这一发现揭示了 LLM 与人类心理预期之间的微妙对齐,同时也暴露了它们在理解真实人类行为上的系统性偏差。

相关推荐
信也科技布道师FTE4 分钟前
当AMIS遇见AI智能体:如何为低代码开发装上“智慧大脑”?
人工智能·低代码·llm
青瓷程序设计5 分钟前
植物识别系统【最新版】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
AI即插即用28 分钟前
即插即用系列 | CVPR 2025 WPFormer:用于表面缺陷检测的查询式Transformer
人工智能·深度学习·yolo·目标检测·cnn·视觉检测·transformer
唐兴通个人38 分钟前
数字化AI大客户营销TOB营销客户开发专业销售技巧培训讲师培训师唐兴通老师分享AI销冠人工智能销售AI赋能销售医药金融工业品制造业
人工智能·金融
人机与认知实验室1 小时前
国内主流大语言模型之比较
人工智能·语言模型·自然语言处理
T0uken1 小时前
【Python】UV:境内的深度学习环境搭建
人工智能·深度学习·uv
七宝大爷1 小时前
基于人类反馈的强化学习(RLHF):ChatGPT“对齐”人类的秘密武器
人工智能·chatgpt
shayudiandian1 小时前
ChatGPT风格对话机器人搭建教程
人工智能·chatgpt·机器人
腾讯云开发者1 小时前
TVP首场香港活动重磅启幕,AI出海变革风向如何把握?
人工智能
wasp5201 小时前
Spring AI 代码分析(十)--Spring Boot集成
人工智能·spring boot·spring