技术栈
“AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案
段智华
2025-10-02 8:41
"AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案
强化学习
大模型微调
上一篇:
从“氛围编程“到“氛围研究“:OpenAI的GPT-5与未来自动化研究之路
下一篇:
从GPT-1到GPT-3:生成式预训练语言模型的演进之路
相关推荐
非社会人士
2 天前
verl 中序列长度相关配置梳理:理清数据、Rollout 与 PPO 训练边界
大模型
·
强化学习
·
verl
强化学习与机器人控制仿真
2 天前
Kimodo 入门教程(一)英伟达开源人形机器人动捕数据集训练运动学动作扩散模型
人工智能
·
神经网络
·
机器人
·
强化学习
·
扩散模型
·
英伟达
·
人形机器人
绵满
7 天前
强化学习基础(RL)笔记
深度学习
·
强化学习
·
基础知识
人道领域
8 天前
《别再纠结了!2026年终极指南:RAG(检索增强生成)、微调与长上下文,到底该选谁?》
人工智能
·
llm
·
rag
·
大模型微调
WWZZ2025
9 天前
具身智能入门Isaac Sim——机器人设置-初级设计轮式机器人2
人工智能
·
机器人
·
大模型
·
强化学习
·
具身智能
·
四足
·
人形
智算菩萨
9 天前
Chain-of-Thought Prompting:为什么逐步推理能提升大模型准确率
人工智能
·
深度学习
·
机器学习
·
语言模型
·
强化学习
Baihai_IDP
17 天前
回头看 RLHF、PPO、DPO、GRPO 与 RLVR 的发展路径
人工智能
·
llm
·
强化学习
大傻^
23 天前
强化学习与大模型融合:从理论到机器人实践全解析
机器人
·
llm
·
大语言模型
·
强化学习
·
urdf
·
ppo
·
奖励设计
山顶夕景
1 个月前
【LLM】ROLL团队的Agentic RL训练坑点
大模型
·
llm
·
强化学习
·
rl
·
agentic rl
一颗小树x
1 个月前
《VLA 系列》π0 与 π0.5 | 强化学习 训练 | VLA
强化学习
·
训练
·
vla
·
π0
·
π0.5
热门推荐
01
GitHub 镜像站点
02
Qwen3.5 开源全解析:从 0.8B 到 397B,代际升级 + 全场景选型指南
03
OpenClaw 使用和管理 MCP 完全指南
04
Labelme从安装到标注:零基础完整指南
05
AI 编程三剑客:Spec-Kit、OpenSpec、Superpowers 深度对比与实战指南
06
UV安装并设置国内源
07
小黑课堂计算机二级WPSoffice题库软件下载安装教程(2026年3月最新版)
08
OpenClaw Control UI安全上下文访问配置
09
Claude Code + GLM4.7 避坑指南:解决 Unable to connect to Anthropic services
10
“wsl --install -d Ubuntu-22.04”下载慢,中国地区离线安装 Ubuntu 22.04 WSL方法(亲测2025年5月6日)