技术栈

infra

非社会人士
20 天前
强化学习·rlhf·rl·ppo·verl·infra
RL 系统 Infra 笔记:区分不同模型强化学习系统(RLHF/PPO)Infra 学习笔记,从 Infra 视角梳理各模块职责、数据流与训练循环,持续更新。
山顶夕景
3 个月前
大模型·llm·多模态·infra
【MLLM】Qwen3.5模型✦ 基于混合结构,397B总参/17B激活,能力匹配 >1T 参数的 Qwen3-Max; ✦ 原生多模态设计,同量级下多模态任务表现优于 Qwen3-VL; ✦ 覆盖 201 种语言; ✦ 在代码生成、智能体推理与多模态理解方面表现卓越;
我是有底线的