技术栈
infra
非社会人士
20 天前
强化学习
·
rlhf
·
rl
·
ppo
·
verl
·
infra
RL 系统 Infra 笔记:区分不同模型
强化学习系统(RLHF/PPO)Infra 学习笔记,从 Infra 视角梳理各模块职责、数据流与训练循环,持续更新。
山顶夕景
3 个月前
大模型
·
llm
·
多模态
·
infra
【MLLM】Qwen3.5模型
✦ 基于混合结构,397B总参/17B激活,能力匹配 >1T 参数的 Qwen3-Max; ✦ 原生多模态设计,同量级下多模态任务表现优于 Qwen3-VL; ✦ 覆盖 201 种语言; ✦ 在代码生成、智能体推理与多模态理解方面表现卓越;
我是有底线的