技术栈
“AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案
段智华
2025-10-02 8:41
"AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案
强化学习
大模型微调
上一篇:
从“氛围编程“到“氛围研究“:OpenAI的GPT-5与未来自动化研究之路
下一篇:
从GPT-1到GPT-3:生成式预训练语言模型的演进之路
相关推荐
铮铭
1 天前
扩散模型简介:The Annotated Diffusion Model
人工智能
·
机器人
·
强化学习
·
世界模型
七牛云行业应用
1 天前
告别RLHF?DeepSeek过程奖励(PRM)架构解析与推理数据流设计
人工智能
·
强化学习
·
大模型架构
·
deepseek
iiiiii11
2 天前
【论文阅读笔记】IDAQ:离线元强化学习中的分布内在线适应
论文阅读
·
人工智能
·
笔记
·
学习
·
算法
·
机器学习
·
强化学习
deephub
3 天前
BipedalWalker实战:SAC算法如何让机器人学会稳定行走
人工智能
·
机器学习
·
机器人
·
强化学习
强化学习与机器人控制仿真
6 天前
RSL-RL:开源人形机器人强化学习控制研究库
开发语言
·
人工智能
·
stm32
·
神经网络
·
机器人
·
强化学习
·
模仿学习
山顶夕景
7 天前
【RL】Does RLVR enable LLMs to self-improve?
深度学习
·
llm
·
强化学习
·
rlvr
神州问学
12 天前
「干货长文」强化学习完全指南:从基础MDP到TRPO/PPO/GRPO算法演进
强化学习
九年义务漏网鲨鱼
12 天前
【多模态大模型面经】现代大模型架构(一): 组注意力机制(GQA)和 RMSNorm
人工智能
·
深度学习
·
算法
·
架构
·
大模型
·
强化学习
ModestCoder_
13 天前
【学习笔记】Diffusion Policy for Robotics
论文阅读
·
人工智能
·
笔记
·
学习
·
机器人
·
强化学习
·
具身智能
AI-Frontiers
13 天前
小白也能看懂的RLHF:基础篇
强化学习
热门推荐
01
GitHub 镜像站点
02
UV安装并设置国内源
03
BongoCat - 跨平台键盘猫动画工具
04
【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像(2025最新版)
05
安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)
06
本地部署阿里最新开源的Z-Image
07
Linux下V2Ray安装配置指南
08
Meta第三代“分割一切”模型——SAM 3本地部署教程:首支持文本提示分割,400万概念、30毫秒响应,检测分割追踪一网打尽
09
Labelme从安装到标注:零基础完整指南
10
【保姆级教程】免费使用Gemini3的5种方法!免翻墙/国内直连