llm使用 AgentScope-Tuner 通过 RL 训练 FrozenLake 智能体

agentscope-samples/tuner/frozen_lake at main · agentscope-ai/agentscope-samples --- agentscope-samples/tuner/frozen_lake at main · agentscope-ai/agentscope-samples

  • At least 2 NVIDIA GPUs with CUDA 12.8 or newer

    至少需要 2 块 NVIDIA GPU,支持 CUDA 12.8 或更高版本

An example of agent output is given below:

下面给出一个代理输出的示例:

复制代码
From the current observation, let's analyze the situation. The player (P) is at: (4, 0), and the goal (G) is at: (2, 3). There is also a hole (O) at (4, 4). Given this, I can move towards the goal without worrying about slippery tiles right now.

The shortest path from P to G involves moving left (4 steps) followed by moving down (1 step), since going directly would bypass the hole or move us further from the goal. Let's move left first.

Let's take the action ```Left```.
相关推荐
yiyu071615 小时前
3分钟搞懂深度学习AI:梯度下降:迷雾中的下山路
人工智能·深度学习
掘金安东尼15 小时前
玩转龙虾🦞,openclaw 核心命令行收藏(持续更新)v2026.3.2
人工智能
demo007x15 小时前
万字长文解读ClaudeCode/KiloCode 文件处理技术
人工智能·claude·trae
aircrushin16 小时前
OpenClaw开源生态与AI执行能力的产业化路径
人工智能
是糖糖啊16 小时前
OpenClaw 从零到一实战指南(飞书接入)
前端·人工智能·后端
踩着两条虫16 小时前
从设计稿到代码:VTJ.PRO 的 AI 集成系统架构解析
前端·vue.js·人工智能
孤烟16 小时前
吓瘫!我用1行代码攻破公司自研AI权限系统,数据裸奔一整夜(附攻击payload+防御源码)
人工智能·ai编程
掘金一周17 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了 | 掘金一周 3.5
前端·人工智能·agent
CoovallyAIHub17 小时前
Moonshine:比 Whisper 快 100 倍的端侧语音识别神器,Star 6.6K!
深度学习·算法·计算机视觉