rl/swe/sft相关论文列表

木枷2026-05-03 15:27

Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models

简述：在用强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）训练大语言模型时，不同模型家族存在显著差异：同样的训练流程下，Qwen 系列模型能获得巨大收益，而 Llama 系列则提升有限。这种差异被称为 "RL-Friendliness"（强化学习友好性）。

https://github.com/QwenLM/FlashQLA

最新算子库：FlashQLA （Flash Qwen Linear Attention）是 Qwen 团队开源的一个高性能线性注意力算子库，专门为 Qwen3.5/3.6 系列模型中的线性注意力机制做极致的 GPU 加速优化。

FlashQLA 基于 TileLang 构建，通过合理的算子融合和性能优化，作用于 GDN Chunked Prefill 的前向和反向传播，在 NVIDIA Hopper GPU 上相比 FLA Triton kernel 实现了前向 2-3 倍加速、反向 2 倍加速。在预训练场景和边缘侧 Agentic 推理场景中收益尤为明显。 github

（FLA 即 Flash Linear Attention）