rl/swe/sft相关论文列表

Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models

简述:在用强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)训练大语言模型时,不同模型家族存在显著差异:同样的训练流程下,Qwen 系列模型能获得巨大收益,而 Llama 系列则提升有限。这种差异被称为 "RL-Friendliness"(强化学习友好性)

https://github.com/QwenLM/FlashQLA

最新算子库:FlashQLA (Flash Qwen Linear Attention)是 Qwen 团队开源的一个高性能线性注意力算子库,专门为 Qwen3.5/3.6 系列模型中的线性注意力机制做极致的 GPU 加速优化。

FlashQLA 基于 TileLang 构建,通过合理的算子融合和性能优化,作用于 GDN Chunked Prefill 的前向和反向传播,在 NVIDIA Hopper GPU 上相比 FLA Triton kernel 实现了前向 2-3 倍加速、反向 2 倍加速。在预训练场景和边缘侧 Agentic 推理场景中收益尤为明显。 github

FLAFlash Linear Attention

相关推荐
逸模1 天前
告别熬夜手工整理台账,逸模智能归集实现项目数据自动化存档
大数据·运维·人工智能·笔记·其他·信息可视化·自动化
weixin_397574091 天前
生产管理和设备管理:制造执行层的AI痛点
人工智能·制造
冬奇Lab1 天前
Agent 系列(16):工具链设计——让 LLM 用对工具的五个原则
人工智能·llm·agent
冬奇Lab1 天前
每日一个开源项目(第125篇):taste-skill - 给 AI 装上审美,让前端不再千篇一律
人工智能·开源·agent
Ajie'Blog1 天前
Copilot Agent Tasks API 开放:AI 编程开始进入后台任务时代
服务器·前端·javascript·人工智能·copilot·ai编程
SEONIB_Explorer1 天前
AI SEO 与传统SEO成本对比:哪种更划算?
人工智能
一次旅行1 天前
AI领域每日资讯报告
人工智能
Python私教1 天前
Cursor + Claude Code 全流程实战:搭一套生产级 AI 编程工作流(2026 最新版)
人工智能·语言模型·qwen·ollama·本地大模型·大模型部署·deepseek
来让爷抱一个1 天前
MonkeyCode 的 Git 协作功能:团队开发新范式
人工智能·ai编程