ppo 找出口模型 训练笔记

1.

cnn模型大小我给他控制在训练耗时30s左右(4060ti)

2.

动作空间6个:4个移动2个转头,因为一开始都要跑一遍,动作太多需要跑更多步才能吃到正反馈

第3个episode就已经跑出来正反馈了/距离门很近

因为是随便乱跑,空间越大碰到门的概率才越大

我现在设置是60步一episode,5 episode训练一次

转头70度左右,前后移动控制在4s 8s,时间模型可以调,给了模型位移程度的控制,时间设置这么长也是为了能像无头苍蝇一样先把环境用脚完全跑一遍

3.

这个模型我没想到的是,它训练出来,是用屁股走路的,后退当前进走到门旁边

奖励是门的面积/10000,门越大奖励越高,面积大于30w就给大奖励

改成只识别爬墙按钮不识别门,到位了才给奖励500/步数

早上用小碎步是能收敛的这种奖励,越训练得分越多,早上哪个架构大一点训练2分钟




遇到的情况

yolo我还得重新训练一下近距离的情况,遇到了贴着门太大yolo没识别出来的情况

可能就是因为这样模型收敛不了

ai学会远处刷分了,准备把30000以下的面积奖励取消掉

相关推荐
Maddie_Mo1 小时前
Unity 联动 Trae AI 项目开发基础教学
人工智能·unity·游戏引擎
光锥智能1 小时前
Google 与百度同步布局智能体:AI 竞争进入全栈能力比拼阶段
人工智能·百度
一点一木7 小时前
深度体验TRAE SOLO移动端7天:作为独立开发者,我把工作流揣进了兜里
前端·人工智能·trae
yyyyy_abc8 小时前
ceph学习笔记
笔记·ceph·学习
Lee川8 小时前
mini-cursor 揭秘:从 Tool 定义到 Agent 循环的完整实现
前端·人工智能·后端
晓梦林8 小时前
ximai靶场学习笔记
android·笔记·学习
weelinking8 小时前
【产品】00_产品经理用Claude实现产品系列介绍
数据库·人工智能·sql·数据挖掘·github·产品经理
Agent产品评测局8 小时前
制造业模具管理AI系统,主流产品能力对比详解:2026年智能制造选型深度洞察
人工智能·ai·chatgpt·制造
IT19958 小时前
Dify笔记-创建自定义工具连接到自建的OpenAPI Schema服务
笔记
研华科技Advantech9 小时前
如何用一套实训设备,打通工业AI预测性维护技术全流程?
人工智能