当地时间2025年10月22日至23日,全球 AI 开源盛会 PyTorch Conference 2025在美国旧金山召开,从底层编译器、到大模型算法、再到智能体层面,全面探讨推动最具突破性 AI 技术的创新核心框架。按惯例,Pytorch大会的前一天,Triton Developer Conference 在微软硅谷园区举行,同样围绕 AI 最重要的系统软件技术"AI compiler, program language, and optimization"主题展开。

面向多元 AI 芯片的开源、统一AI系统软件栈 FlagOS,受邀分别参加了上述两场大会。通过主题演讲和海报形式,向观众系统性介绍了其在算子库、编译器与多芯片适配方面的最新进展。其中,高性能通用算子库 FlagGems (作为开源的 Triton 算子库,已覆盖207个算子并完成多后端验证)与统一编译器 FlagTree 受到广泛关注。在 Pytorch 大会的开场演讲中,PyTorch 基金会的执行董事 Matt White 特地致谢了包括 FlagGems 算子库在内的基金会重要生态项目。

第一部分:FlagOS 系统软件栈,受邀亮相两大 AI 顶会
10月21日,微软硅谷召开的 Triton Developer Conference 延续了其历来的"演讲主题精少、参会人员众多"特色。从众多议题中,大会主办方仅仅精选安排了10个演讲主题和10个海报展演。参会人员却是大公司云集,以及不少来自欧洲、亚洲的研究人员和开发者。
10月22日至23日,在旧金山召开的全球顶尖盛会 PyTorch Conference 2025 更是吸引了超过 3000+ 的参与人员,相比2024年大会到场人数 1800人,影响力近乎翻了一倍。
在这两个大会上,FlagOS 社区带来了三场技术分享。
技术分享一
Breaking Heterogenous HW Barries: A Pytorch-based Unified Cloud-to-Robot AI System SW Stack for Embodied Intelligence
该演讲介绍了面向多种 AI 芯片的统一、开源智算软件栈 FlagOS 支持具身智能全链路训练推理、跨芯迁移、性能优化的智算基座能力。
技术分享二
From FlagGems to FlagRelease: The largest Triton library enabling cross-architecture migration
该分享着重介绍了 FlagOS 智算系统软件栈中全球数量最大的 Triton 算子库 FlagGems、统一编译器 FlagTree、跨芯训练推理框架 FlagScale 等关键技术,以及基于 FlagOS 软件栈能力,如何打造面向多种 AI 芯片的大模型迁移、多芯版本模型发布的工具平台 FlagRelease。基于 FlagRelease,用户无需自行迁移模型,即可直接下载获得开源模型的多芯版本。
技术分享三
FlagTree: Enhanced Triton Compilor for various AI hardware backends
该分享介绍了支持多种 AI 芯片的统一、开源编译器技术。
第二部分:算子开发语言的繁荣与分化
这两场具有 "AI 技术风向标"性质的大会,都向业界释放了一个重要信号:算子语言繁荣和分化的背后,编译器核心地位日益凸显。
在今年的两大 AI 顶会上,出现了多项备受瞩目的技术项目,不约而同地指向"算子开发语言"。如何通过语言的扩展或新增开发更加高效的算子,又怎么在开发效率和系统效率之间寻求新的平衡,成为了未来的技术新风向。
Triton 大会上,来自 OpenAI 的 Triton 语言创始人 Philippe Tillet 总结了自2024年至2025年,出现的多种算子开发语言在 performance 与 productivity 之间进行的各种平衡。

2024年的算子开发语言约 5 种

2025年的算子开发语言增加至 9 种
Triton 侧的"向下走"新风向:OpenAI 团队推出 Triton 的低层级语言,服务资深开发者
Gluon : Tile-Based GPU Programming with Low-Level Control
Gluon 是由 OpenAI 团队开发的更低层级的领域特定语言(DSL),为高级开发者提供更细粒度操作硬件特性的方式,在保持易用性的同时,极致挖掘硬件性能。Triton 团队希望共用 Triton 的编译能力,通过 Triton 语言和 Gluon 语言两种前端,同时服务追求编程易用性的一般开发者和对硬件优化敏感的资深开发者。

OpenAI 工程师现场公布 Gluon 语言定位

Gluon 在 FlashAttention3.0 上性能逼近 cuDNN
PyTorch 侧的"上下走"新风向:通过不同手段,满足面向硬件优化的需求
Helion:A High-level DSL for Kernel Authoring (向上走)
Helion 是由 PyTorch Compiler 团队主创的高级领域特定语言(DSL),可用于构建高性能、可移植的机器学习计算内核。当前,Helion 已经可以编译为 Triton 表达的内核。相比 Triton 语言,Helion 采用更高抽象设计,同时利用 Autotuning 技术,达到易用性和性能的双重提升。


Helion 的 技术流程图
从 Helion 的技术流程图,可以解读出以下要点。Helion 目标定位在 "更上层、更 PyTorch 化"的算子编写工具,底层由 Triton 赋能。这意味着 PyTorch 生态正在把 Triton 能力"产品化",由 Helion 等高层语言上升到开发者常用接口层,降低开发者接入门槛和成本。同时,Helion 通过自动优化能力,取得了比各种底层扩展语言更优的性能(见下图)。


今年的 Triton Developer Conference 上,大家对 Triton 语言取得成功的原因达成以下共识。
-
基于 Tile 的编程范式,是恰当的抽象层级
-
开发者乐于使用 Python 语言
-
开发者乐于使用 PyTorch 框架
同时,Triton 的持续成功必须满足高级开发者挖掘极致性能的核心诉求。为达成该目标,除了 PyTorch Compiler 团队推出的 Helion 之外,OpenAI 团队也开发了更加低层语言/封装的 Gluon,Meta 团队则开发了低层级语言 TLX。
TLX: Triton Low-Level Extensions(向下走)
TLX 是由 Meta 的 PyTorch 团队研发的 Triton 语言的低层级扩展,兼具高性能与开发效率。它在无缝集成 Triton 高级 Python API 的同时,通过丰富的内置函数集,实现了对 GPU 内核执行的线程束感知与硬件级精细控制。



NVIDIA 侧的"向上走"新风向:提供 Python 化的 CUDA,提升用户易用性
本次 PyTorch 大会上,英伟达分享了 cuTile 将 Python 环境下的 CUDA 内核编程能力提升至更接近 PyTorch 或 NumPy 的编程体验。底层基于 TileIR 实现,从而更便捷地构建创新型高性能编程抽象。TileIR 作为与 PTX 指令集并行的阵列计算抽象体系,具备跨硬件的前向兼容特性,能持续释放张量核心等 GPU 架构专属功能的性能潜力,避免耗时费力的重写工作。
面对多算子开发语言呈现出的"百花齐放"局面,如 Helion、Triton、cuTile/CuTe 等层出不穷的算子语言,开发者发现真正的系统复杂度正在"后移"到编译器与运行时层面。与此同时,像来自 Groq 的 ML 编译器负责人 Andrew Ling 等业内人士也感叹道,"碎片化的前端生态(fragmented front-end ecosystem)"正在逐步成为新的 AI 挑战。
第三部分:从"语言百花齐放"走向"编译器统一",FlagTree 有可能成为关键落点
诚然,我们不能限制用户采用何种语言进行开发,但越来越多的语言分化势必导致代码复用下降、工程规模与维护风险上升。之前,我们关注的是底层 AI 芯片生态("南向生态")的割裂问题,因此 FlagOS 社区基于 Triton 编译器技术,打造了更为强大的 FlagTree 编译器,使得广大 Triton 开发者的算法可以通过 FlagTree 运行在多种 AI 芯片上(超过20种),逐步解决了底层芯片后端生态的分裂问题。
如今,围绕 Triton 的"周边"语言日益增多,生态呈现出新的多样化局面。对 FlagOS 社区而言,这也带来了新的命题:当 FlagTree 已经成功统一 "南向多芯片生态" 后,它是否还能进一步承担起统一 "北向语言生态" 的重任?
在前端语言层上,AI 编译器 FlagTree 可以通过 AST 解析 Triton、Helion、TLX等多种领域特定语言,并下降到不同层级的 IR 或者抽象。在后端芯片层上,FlagTree 通过不同层级 IR/抽象分别映射到多架构,如 NVIDIA、AMD、国产 GPGPU 与 DSA、RISC-V AI、ARM AI 芯片等,面向大模型主路径算子实现"一次语言编写,多处硬件编译"(Write once with any DSL, compile anywhere)。
在这条可能的道路上,FlagOS 社区也看到了编译器体系逐渐稳定的趋势。在这次 Triton 大会和 PyTorch 大会上,除了1-2个主题分享基于 TVM 之外,其余无一例外都是基于 MLIR。这说明 MLIR 已经成为了当下工业界在打造 AI 编译器时的"众人之选"。对 Triton 而言,虽然官方已支持英伟达与 AMD,但 Intel、高通、华为等厂商只能通过各自的分支仓库实现适配。由于 Triton 官方版本仅维护英伟达与 AMD 的支持,其余众多芯片厂商迫切需要一个统一、开放的方案。FlagTree 的登场,正是在这一背景下,为业界提供了新的统一路径。
继成功打通"南向"多芯片生态之后,FlagTree 或许要进一步承担起统一"北向"语言生态的使命。无论如何,我们都期待,语言不再成为限制创新的藩篱。无论开发者选择何种编程语言,皆能借助真正统一的编译器技术,在多元 AI 芯片上自由运行。
关于 FlagOS 社区
FlagOS 社区是由北京智源人工智能研究院联合芯片企业、系统厂商、算法和软件相关单位、科研机构等十多家国内外机构共同发起并创立的。
FlagOS 社区致力于打造相面多种AI芯片的统一、开源的系统软件栈,构建「模型-系统-芯片」三层贯通的开放技术生态,通过"一次开发、跨芯迁移"释放硬件计算潜力,打破不同芯片软件栈之间生态隔离,有效降低开发者的迁移成本。FlagOS 社区构建人工智能软硬件生态,突破单一闭源垄断,推动AI硬件技术大范围落地发展,立足中国、拥抱全球合作。
