Thinking for Doing:让LLMs能推断他人心理状态来做出适当的行动。

LLMs通常能回答有关心理状态的问题,但往往不能将这些推断用于实际行动。例如,如果一个故事中的角色正在寻找他的背包,而模型知道背包在厨房里,那么模型应该能推断出最好的行动是建议角色去厨房查看。

T4D 的目的就是要求模型不仅要能回答有关其他人心理状态的问题(这是许多现有评估方法的焦点),还要能根据这些推断来选择最佳的行动方案。

论文: arxiv.org/abs/2310.03051
**PDF:**arxiv.org/pdf/2310.03051...

解决方案

为了解决这一问题,作者引入了一个零样本提示框架,名为"Foresee and Reflect"(FaR),该框架能显著提高LLMs在T4D上的性能。
工作原理

Foresee and Reflect"(FaR)主要由两个组件组成:预见(Foresee)和反思(Reflect)。

1. 预见(Foresee)

在这一阶段,模型被引导去预测或预见可能的未来事件或行动,并对它们进行初步的评估。这通常涉及到对故事或场景中角色的心理状态(如信念、意图等)的理解,并基于这些理解来预测他们可能会采取哪些行动。

2. 反思(Reflect)

在预见阶段之后,模型进入反思阶段。在这里,模型需要重新考虑其先前的预测和评估,以确定是否需要调整或优化。这可能涉及到更深入地理解角色的心理状态,或者考虑更多的环境因素和可能的结果。
FaR 在 T4D 中的应用

通过结合预见和反思两个阶段,FaR 框架能够引导模型进行更结构化、更深入的推理。这不仅有助于模型更准确地理解角色的心理状态,还使其能够更有效地将这些理解转化为适当的行动或决策。例如,如果在一个故事中,一个角色想找到他的背包,模型首先会在预见阶段预测角色可能会去哪里找。然后,在反思阶段,模型可能会考虑其他因素,如角色过去在哪里找到过背包,或者在当前环境中哪些地方最可能存放背包,从而优化其行动建议。

相关推荐
guoji77881 分钟前
Gemini 3.1 Pro 评估科学:超越基准测试的硬核能力测评方法论
大数据·人工智能
zzh940771 分钟前
Gemini 3.1 Pro 工程化部署优势解析:架构革新如何成就国内高可用访问
人工智能
AustinCyy4 分钟前
【论文笔记】Guiding Generative Storytelling with Knowledge Graphs
论文阅读·人工智能·知识图谱
柯儿的天空7 分钟前
【OpenClaw 全面解析:从零到精通】第 014 篇:OpenClaw 云端部署实战——阿里云、腾讯云与 Docker 部署全指南
人工智能·阿里云·docker·云计算·aigc·腾讯云·ai写作
AC赳赳老秦8 分钟前
使用OpenClaw tavily-search技能高效撰写工作报告:以人工智能在医疗行业的应用为例
运维·人工智能·python·flask·自动化·deepseek·openclaw
2301_7665586510 分钟前
国产自研AI搜索优化引擎:小陌GEO+龙虾机器人,全域大模型占位实战解析
人工智能·机器人
智算菩萨11 分钟前
【Generative AI For Autonomous Driving】5 生成式AI在自动驾驶中的六大应用场景:从数据合成到智慧交通
论文阅读·人工智能·机器学习·ai·自动驾驶·感知
2501_9431240511 分钟前
7×24小时自动运营:矩阵跃动龙虾机器人,AI流量闭环效率拉满
人工智能·矩阵·机器人
智算菩萨11 分钟前
【Generative AI For Autonomous Driving】6 生成式AI在具身智能领域的拓展:从自动驾驶到通用机器人的技术迁移
论文阅读·人工智能·机器学习·ai·机器人·自动驾驶
木斯佳14 分钟前
前端八股文面经大全:阿里云AI应用开发二面(2026-03-21)·面经深度解析
前端·css·人工智能·阿里云·ai·面试·vue