技术栈
“AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案
段智华
2025-10-02 8:41
"AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案
强化学习
大模型微调
上一篇:
从“氛围编程“到“氛围研究“:OpenAI的GPT-5与未来自动化研究之路
下一篇:
从GPT-1到GPT-3:生成式预训练语言模型的演进之路
相关推荐
程序员老奥
3 天前
【有手就行】SWIFT:花20分钟把大模型的名字变成你的名字
fine-tuning
·
大模型微调
·
ms-swift
·
认知微调
黑客思维者
4 天前
机器学习005:强化学习(概论)--从“训练狗狗”到“打游戏”
人工智能
·
机器学习
·
强化学习
赫凯
5 天前
【强化学习】第一章 强化学习初探
人工智能
·
python
·
强化学习
nju_spy
6 天前
深度强化学习 TRPO 置信域策略优化实验(sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5)
人工智能
·
强化学习
·
共轭梯度法
·
策略网络
·
trpo
·
sb3_contrib
·
breakout游戏
徐桑
6 天前
【强化学习笔记】从数学推导到电机控制:深入理解 Policy Gradient 与 Sim-to-Real。
机器人
·
强化学习
加点油。。。。
6 天前
【强化学习】——策略梯度方法
人工智能
·
机器学习
·
强化学习
kkkkkkkkk_1201
7 天前
【强化学习】07周博磊强化学习纲要学习笔记——第四课上
学习
·
强化学习
free-elcmacom
7 天前
机器学习高阶教程<2>优化理论实战:BERT用AdamW、强化学习爱SGD
人工智能
·
python
·
机器学习
·
bert
·
强化学习
·
大模型训练的优化器选择逻辑
AI-Frontiers
8 天前
小白也能看懂的RLHF-PPO:原理篇
强化学习
传说故事
8 天前
RL中的同步和异步(On-Policy & Off-Policy)的通俗解释
人工智能
·
强化学习
热门推荐
01
GitHub 镜像站点
02
UV安装并设置国内源
03
Linux下V2Ray安装配置指南
04
在VSCode配置Java开发环境的保姆级教程(适配各类AI编程IDE)
05
Multisim使用教程详尽版--(2025最新版)
06
安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)
07
Gemini3 生成的基于手势控制3D粒子圣诞树
08
CentOS的ISO镜像下载
09
Labelme从安装到标注:零基础完整指南
10
BongoCat - 跨平台键盘猫动画工具