ppo 找出口模型 训练笔记

1.

cnn模型大小我给他控制在训练耗时30s左右(4060ti)

2.

动作空间6个:4个移动2个转头,因为一开始都要跑一遍,动作太多需要跑更多步才能吃到正反馈

第3个episode就已经跑出来正反馈了/距离门很近

因为是随便乱跑,空间越大碰到门的概率才越大

我现在设置是60步一episode,5 episode训练一次

转头70度左右,前后移动控制在4s 8s,时间模型可以调,给了模型位移程度的控制,时间设置这么长也是为了能像无头苍蝇一样先把环境用脚完全跑一遍

3.

这个模型我没想到的是,它训练出来,是用屁股走路的,后退当前进走到门旁边

奖励是门的面积/10000,门越大奖励越高,面积大于30w就给大奖励

改成只识别爬墙按钮不识别门,到位了才给奖励500/步数

早上用小碎步是能收敛的这种奖励,越训练得分越多,早上哪个架构大一点训练2分钟




遇到的情况

yolo我还得重新训练一下近距离的情况,遇到了贴着门太大yolo没识别出来的情况

可能就是因为这样模型收敛不了

ai学会远处刷分了,准备把30000以下的面积奖励取消掉

相关推荐
nap-joker1 小时前
不完全多模分类的推断时间动态模式选择
人工智能·分类·数据挖掘·不完整模态·插补-丢弃困境
暗夜猎手-大魔王1 小时前
转载--AI Agent 架构设计:MCP vs CLI(OpenClaw、Claude Code、Hermes Agent 对比)
人工智能
Raink老师1 小时前
【AI面试临阵磨枪-30】如何设计 Agent 长短期记忆?对比 FullHistory、SlidingWindow、Summary、Vector 记忆
人工智能·ai 面试
沅柠-AI营销1 小时前
小品牌的GEO优化落地策略:2026年AI搜索时代的低成本突围指南
人工智能·agent·ai搜索优化·geo优化·品牌策略·中小品牌营销·geo优化技巧
NQBJT1 小时前
VS Code配置Python人工智能开发环境
开发语言·人工智能·vscode·python
@不误正业1 小时前
鸿蒙小艺智能体开放平台实战-接入系统级AI-Agent能力
人工智能·华为·harmonyos
月诸清酒1 小时前
47-260429 AI 科技日报 (HappyHorse 1.0 登顶文本转视频模型排行榜)
人工智能
byoass1 小时前
智巢AI知识库深度解析:企业文档管理从大海捞针到精准狙击的进化之路
开发语言·网络·人工智能·安全·c#·云计算
祁白_1 小时前
nmap工具笔记整理
笔记·web安全·测试
掘金一周1 小时前
你们觉得房贷多少,没有压力 | 沸点周刊 4.30
前端·人工智能·后端