ppo 找出口模型 训练笔记

1.

cnn模型大小我给他控制在训练耗时30s左右(4060ti)

2.

动作空间6个:4个移动2个转头,因为一开始都要跑一遍,动作太多需要跑更多步才能吃到正反馈

第3个episode就已经跑出来正反馈了/距离门很近

因为是随便乱跑,空间越大碰到门的概率才越大

我现在设置是60步一episode,5 episode训练一次

转头70度左右,前后移动控制在4s 8s,时间模型可以调,给了模型位移程度的控制,时间设置这么长也是为了能像无头苍蝇一样先把环境用脚完全跑一遍

3.

这个模型我没想到的是,它训练出来,是用屁股走路的,后退当前进走到门旁边

奖励是门的面积/10000,门越大奖励越高,面积大于30w就给大奖励

改成只识别爬墙按钮不识别门,到位了才给奖励500/步数

早上用小碎步是能收敛的这种奖励,越训练得分越多,早上哪个架构大一点训练2分钟




遇到的情况

yolo我还得重新训练一下近距离的情况,遇到了贴着门太大yolo没识别出来的情况

可能就是因为这样模型收敛不了

ai学会远处刷分了,准备把30000以下的面积奖励取消掉

相关推荐
恋猫de小郭17 分钟前
AI 正在造就你的「认知卸载」,但是时代如此
前端·人工智能·ai编程
飞哥数智坊8 小时前
我的“龙虾”罢工了!正好对比下GLM、MiniMax、Kimi 3家谁更香
人工智能
风象南9 小时前
很多人说,AI 让技术平权了,小白也能乱杀老师傅 ?
人工智能·后端
董董灿是个攻城狮10 小时前
大模型连载1:了解 Token
人工智能
RoyLin13 小时前
沉睡三十年的标准:HTTP 402、生成式 UI 与智能体原生软件的时代
人工智能
needn15 小时前
TRAE为什么要发布SOLO版本?
人工智能·ai编程
毅航15 小时前
自然语言处理发展史:从规则、统计到深度学习
人工智能·后端
前端付豪15 小时前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件
人工智能·python·langchain
ursazoo15 小时前
写了一份 7000字指南,让 AI 帮我消化每天的信息流
人工智能·开源·github
_志哥_19 小时前
Superpowers 技术指南:让 AI 编程助手拥有超能力
人工智能·ai编程·测试