ppo 找出口模型训练笔记

njsgcs2026-01-14 19:41

1.

cnn模型大小我给他控制在训练耗时30s左右（4060ti）

动作空间6个：4个移动2个转头，因为一开始都要跑一遍，动作太多需要跑更多步才能吃到正反馈

第3个episode就已经跑出来正反馈了/距离门很近

因为是随便乱跑，空间越大碰到门的概率才越大

我现在设置是60步一episode，5 episode训练一次

转头70度左右，前后移动控制在4s 8s，时间模型可以调，给了模型位移程度的控制，时间设置这么长也是为了能像无头苍蝇一样先把环境用脚完全跑一遍

这个模型我没想到的是，它训练出来，是用屁股走路的，后退当前进走到门旁边

奖励是门的面积/10000，门越大奖励越高，面积大于30w就给大奖励

改成只识别爬墙按钮不识别门，到位了才给奖励500/步数

早上用小碎步是能收敛的这种奖励，越训练得分越多，早上哪个架构大一点训练2分钟

yolo我还得重新训练一下近距离的情况，遇到了贴着门太大yolo没识别出来的情况

可能就是因为这样模型收敛不了

ai学会远处刷分了，准备把30000以下的面积奖励取消掉