llm使用 AgentScope-Tuner 通过 RL 训练 FrozenLake 智能体

agentscope-samples/tuner/frozen_lake at main · agentscope-ai/agentscope-samples --- agentscope-samples/tuner/frozen_lake at main · agentscope-ai/agentscope-samples

  • At least 2 NVIDIA GPUs with CUDA 12.8 or newer

    至少需要 2 块 NVIDIA GPU,支持 CUDA 12.8 或更高版本

An example of agent output is given below:

下面给出一个代理输出的示例:

复制代码
From the current observation, let's analyze the situation. The player (P) is at: (4, 0), and the goal (G) is at: (2, 3). There is also a hole (O) at (4, 4). Given this, I can move towards the goal without worrying about slippery tiles right now.

The shortest path from P to G involves moving left (4 steps) followed by moving down (1 step), since going directly would bypass the hole or move us further from the goal. Let's move left first.

Let's take the action ```Left```.
相关推荐
大龄程序员狗哥2 小时前
第25篇:Q-Learning算法解析——强化学习中的经典“价值”学习(原理解析)
人工智能·学习·算法
陶陶然Yay2 小时前
神经网络常见层Numpy封装参考(5):其他层
人工智能·神经网络·numpy
极客老王说Agent2 小时前
2026实战指南:如何用智能体实现药品不良反应报告的自动录入?
人工智能·ai·chatgpt
imbackneverdie2 小时前
本科毕业论文怎么写?需要用到什么工具?
人工智能·考研·aigc·ai写作·学术·毕业论文·ai工具
lulu12165440782 小时前
Claude Code项目大了响应慢怎么办?Subagents、Agent Teams、Git Worktree、工作流编排四种方案深度解析
java·人工智能·python·ai编程
大橙子打游戏2 小时前
talkcozy像聊微信一样多项目同时开发
人工智能·vibecoding
deephub2 小时前
LangChain 还是 LangGraph?一个是编排一个是工具包
人工智能·langchain·大语言模型·langgraph
OidEncoder3 小时前
编码器分辨率与机械精度的关系
人工智能·算法·机器人·自动化
Championship.23.243 小时前
Harness工程深度解析:从理论到实践的完整指南
人工智能·harness
扬帆破浪3 小时前
开源免费的WPS AI 软件 察元AI文档助手:链路 002:executeAssistantFromRibbon 与任务进度窗
人工智能·开源·wps