ppo 找出口模型 训练笔记

1.

cnn模型大小我给他控制在训练耗时30s左右(4060ti)

2.

动作空间6个:4个移动2个转头,因为一开始都要跑一遍,动作太多需要跑更多步才能吃到正反馈

第3个episode就已经跑出来正反馈了/距离门很近

因为是随便乱跑,空间越大碰到门的概率才越大

我现在设置是60步一episode,5 episode训练一次

转头70度左右,前后移动控制在4s 8s,时间模型可以调,给了模型位移程度的控制,时间设置这么长也是为了能像无头苍蝇一样先把环境用脚完全跑一遍

3.

这个模型我没想到的是,它训练出来,是用屁股走路的,后退当前进走到门旁边

奖励是门的面积/10000,门越大奖励越高,面积大于30w就给大奖励

改成只识别爬墙按钮不识别门,到位了才给奖励500/步数

早上用小碎步是能收敛的这种奖励,越训练得分越多,早上哪个架构大一点训练2分钟




遇到的情况

yolo我还得重新训练一下近距离的情况,遇到了贴着门太大yolo没识别出来的情况

可能就是因为这样模型收敛不了

ai学会远处刷分了,准备把30000以下的面积奖励取消掉

相关推荐
美酒没故事°1 天前
Open WebUI安装指南。搭建自己的自托管 AI 平台
人工智能·windows·ai
云烟成雨TD1 天前
Spring AI Alibaba 1.x 系列【6】ReactAgent 同步执行 & 流式执行
java·人工智能·spring
AI攻城狮1 天前
用 Obsidian CLI + LLM 构建本地 RAG:让你的笔记真正「活」起来
人工智能·云原生·aigc
鸿乃江边鸟1 天前
Nanobot 从onboard启动命令来看个人助理Agent的实现
人工智能·ai
lpfasd1231 天前
基于Cloudflare生态的应用部署与开发全解
人工智能·agent·cloudflare
俞凡1 天前
DevOps 2.0:智能体如何接管故障修复和基础设施维护
人工智能
一轮弯弯的明月1 天前
贝尔数求集合划分方案总数
java·笔记·蓝桥杯·学习心得
comedate1 天前
[OpenClaw] GLM 5 关于电影 - 人工智能 - 的思考
人工智能·电影评价
财迅通Ai1 天前
6000万吨产能承压 卫星化学迎来战略窗口期
大数据·人工智能·物联网·卫星化学
liliangcsdn1 天前
Agent Memory智能体记忆系统的示例分析
数据库·人工智能·全文检索