rl/swe/sft相关论文列表

Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models

简述:在用强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)训练大语言模型时,不同模型家族存在显著差异:同样的训练流程下,Qwen 系列模型能获得巨大收益,而 Llama 系列则提升有限。这种差异被称为 "RL-Friendliness"(强化学习友好性)

https://github.com/QwenLM/FlashQLA

最新算子库:FlashQLA (Flash Qwen Linear Attention)是 Qwen 团队开源的一个高性能线性注意力算子库,专门为 Qwen3.5/3.6 系列模型中的线性注意力机制做极致的 GPU 加速优化。

FlashQLA 基于 TileLang 构建,通过合理的算子融合和性能优化,作用于 GDN Chunked Prefill 的前向和反向传播,在 NVIDIA Hopper GPU 上相比 FLA Triton kernel 实现了前向 2-3 倍加速、反向 2 倍加速。在预训练场景和边缘侧 Agentic 推理场景中收益尤为明显。 github

FLAFlash Linear Attention

相关推荐
DanCheOo1 小时前
开源 | ai-memory v2.6.2:不用配 API Key,一行命令把 Cursor 对话变成结构化知识库
人工智能·ai·ai编程
A7bert7771 小时前
【YOLOv8pose部署至RDK X5】模型训练→转换bin→Sunrise 5部署
c++·python·深度学习·yolo·目标检测
爱学习的张大1 小时前
具身智能论文精度(八):Pi0.6
人工智能·深度学习
析稿AI写作1 小时前
如何系统整合文献资源,写出有理论根基与深度的学术论文?
人工智能·ai写作·论文笔记
EnCi Zheng1 小时前
02-序列到序列模型
人工智能·神经网络·transformer
一起学开源2 小时前
企业级AI应用开发底座应该怎么设计?
人工智能·系统架构·智能体
生成论实验室2 小时前
《事件关系阴阳博弈动力学:识势应势之道》第二篇:阴阳博弈——认知的动力学基础
数据结构·人工智能·科技·神经网络·算法
guslegend2 小时前
第3章:快速入门SpringAI Alibaba
人工智能·springai
:mnong2 小时前
打造 AI 级 Agent 架构
人工智能·架构