【AI】神经网络等相关的想法记录

神经网络等相关的想法记录

  • [1. 模型](#1. 模型)
    • [1.1 强化学习模型](#1.1 强化学习模型)
      • [1.1.1 将 状态价值评估 和 策略价值评估 融合到一起尝试](#1.1.1 将 状态价值评估 和 策略价值评估 融合到一起尝试)
  • [2. loss](#2. loss)

1. 模型

1.1 强化学习模型

1.1.1 将 状态价值评估 和 策略价值评估 融合到一起尝试

如flybird,

状态价值: agient状态---鸟的高度,鸟的速度,环境状态----柱子等

策略价值:鸟的动作---上升,下降
agent
模型1
期望状态概率分布
期望状态

模型1的责任是计算出鸟的期望位置,如需要多少高度。-----目标部分
对当前和期望求loss
当前状态
模型2
期望状态
动作概率分布 :上、下

模型2是根据上个模型计算出的高度信息,将预测结果变为现实-------执行部分

两个模型,loss不相同,目标不相同,但串接在一起,实现整体目标的一小部分。

期望状态:

flybird的环境,能输出通过杆子的高度信息,执行部分去执行高度信息。相当于将一个二维的转换成两个一维的。

问题:

是否能提升性能?如,倒立摆,位置0为最高反馈,目标一直输出0,执行部分去执行。在这个状态中,目标部分则被跳过。

2. loss

损失函数,应该是多维度的,如果分类不佳,是否损失函数的维度不够。

需要模型来评估关联参数,和评价维度。

只要前提条件加的多,你就是世界第一。

其中这个前提条件,就是loss大的部分,

相关推荐
JackieZhengChina1 小时前
清华大学《AIGC报告5.0》|生成式人工智能行业深度研究报告(2026年版)(文末附完整PDF报告)
人工智能·aigc
扬帆破浪1 小时前
免费开源AI软件.桌面单机版,可移动的AI知识库,察元 AI桌面版:装一台到家用台式 把工作笔记本的对话历史迁过去
人工智能·windows·电脑·知识图谱
数智工坊1 小时前
【RL理论奠基】时序差分学习的奠基之作:从预测问题到TD(λ)家族的完整理论
论文阅读·人工智能·深度学习·学习·transformer·迁移学习
RemainderTime1 小时前
基于Spring AI + 阿里百炼 DashScope:构建 AI Agent RAG 企业级知识助手
人工智能·后端·spring·ai·es
沪漂阿龙1 小时前
面试题:模型评价指标全解析——准确率、精确率、召回率、F1、ROC、AUC、MAE、MSE、RMSE、R² 一文讲透
人工智能·机器学习
徐礼昭|商派软件市场负责人1 小时前
全球Token(词元)经济学白皮书:生成式AI与令牌化如何重塑未来零售商业
人工智能·microsoft·零售·token·词元
2601_957780841 小时前
AI智能体时代:为什么HTML正在取代Markdown成为新一代输出标准
大数据·前端·人工智能·gpt·html·claude
QYR_111 小时前
2026年MT 插芯市场洞察:CAGR 7.9%,2032 年全球规模将达 4.6 亿美元
网络·数据库·人工智能
C137的本贾尼1 小时前
你好,LangChain:当编程遇见大语言模型
人工智能·语言模型·langchain