ppo 找出口模型 训练笔记

1.

cnn模型大小我给他控制在训练耗时30s左右(4060ti)

2.

动作空间6个:4个移动2个转头,因为一开始都要跑一遍,动作太多需要跑更多步才能吃到正反馈

第3个episode就已经跑出来正反馈了/距离门很近

因为是随便乱跑,空间越大碰到门的概率才越大

我现在设置是60步一episode,5 episode训练一次

转头70度左右,前后移动控制在4s 8s,时间模型可以调,给了模型位移程度的控制,时间设置这么长也是为了能像无头苍蝇一样先把环境用脚完全跑一遍

3.

这个模型我没想到的是,它训练出来,是用屁股走路的,后退当前进走到门旁边

奖励是门的面积/10000,门越大奖励越高,面积大于30w就给大奖励

改成只识别爬墙按钮不识别门,到位了才给奖励500/步数

早上用小碎步是能收敛的这种奖励,越训练得分越多,早上哪个架构大一点训练2分钟




遇到的情况

yolo我还得重新训练一下近距离的情况,遇到了贴着门太大yolo没识别出来的情况

可能就是因为这样模型收敛不了

ai学会远处刷分了,准备把30000以下的面积奖励取消掉

相关推荐
aiguangyuan几秒前
使用LSTM进行情感分类:原理与实现剖析
人工智能·python·nlp
shandianchengzi7 分钟前
【小白向】错位排列|图文解释公考常见题目错位排列的递推式Dn=(n-1)(Dn-2+Dn-1)推导方式
笔记·算法·公考·递推·排列·考公
Yeats_Liao8 分钟前
评估体系构建:基于自动化指标与人工打分的双重验证
运维·人工智能·深度学习·算法·机器学习·自动化
深圳市恒星物联科技有限公司13 分钟前
水质流量监测仪:复合指标监测的管网智能感知设备
大数据·网络·人工智能
浅念-16 分钟前
C语言编译与链接全流程:从源码到可执行程序的幕后之旅
c语言·开发语言·数据结构·经验分享·笔记·学习·算法
断眉的派大星25 分钟前
均值为0,方差为1:数据的“标准校服”
人工智能·机器学习·均值算法
A尘埃33 分钟前
电子厂PCB板焊点缺陷检测(卷积神经网络CNN)
人工智能·神经网络·cnn
Tadas-Gao34 分钟前
缸中之脑:大模型架构的智能幻象与演进困局
人工智能·深度学习·机器学习·架构·大模型·llm
中金快讯36 分钟前
新视野混合净值波动有几何?贝莱德基金回撤控制策略是否命中关键?
人工智能
楚兴39 分钟前
MacBook M1 安装 OpenClaw 完整指南
人工智能·后端