Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models
简述:在用强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)训练大语言模型时,不同模型家族存在显著差异:同样的训练流程下,Qwen 系列模型能获得巨大收益,而 Llama 系列则提升有限。这种差异被称为 "RL-Friendliness"(强化学习友好性)。
https://github.com/QwenLM/FlashQLA
最新算子库:FlashQLA (Flash Qwen Linear Attention)是 Qwen 团队开源的一个高性能线性注意力算子库,专门为 Qwen3.5/3.6 系列模型中的线性注意力机制做极致的 GPU 加速优化。
FlashQLA 基于 TileLang 构建,通过合理的算子融合和性能优化,作用于 GDN Chunked Prefill 的前向和反向传播,在 NVIDIA Hopper GPU 上相比 FLA Triton kernel 实现了前向 2-3 倍加速、反向 2 倍加速。在预训练场景和边缘侧 Agentic 推理场景中收益尤为明显。 github
(FLA 即 Flash Linear Attention)