triton

一个小猴子｀

Triton实现矩阵乘法

[Triton笔记4]低内存 DropoutDropout（随机失活）是深度学习中一种强大的正则化技术。为了理解其数学原理，我们可以将其拆解为训练阶段和推理（评估）阶段两个部分来讨论。

[Triton笔记3]融合 Softmax (Fused Softmax)先看使用pytorch实现的softmax直接在 PyTorch 中实现时，对于 x∈M×N，计算 y = naive_softmax(x) 需要从 DRAM 中读取 5MN+2M 个元素，并写回 3MN+2M 个元素。

[Triton笔记1]核心概念目前 Triton 主要支持 Linux 系统，并且需要拥有 NVIDIA GPU（通常要求 Compute Capability 7.0 及以上，即 Volta 架构以后，如 V100, RTX 20/30/40 系列）。

Triton - 官方文档介绍https://triton-lang.org/main/getting-started/tutorials/index.html

GoCodingInMyWay

Triton + RISC-V如何深入学习 Triton 的编译器技术栈？为此，我设定了一个 Triton + RISC-V 的学习目标：尝试将一个简单的向量加法算子，通过 Triton 编译并运行到 RISC-V 仿真环境上。

GoCodingInMyWay

Triton 开始Triton，本文指 OpenAI Triton，先看官方介绍，Triton is a language and compiler for parallel programming. It aims to provide a Python-based programming environment for productively writing custom DNN compute kernels capable of running at maximal throughput on modern GP

AI 编译器系列（四）《AI 编译器中的后端优化》目录内存管理优化1. 优化思路2. Naive 版本3. 优化版本4. 惰性分配（Lazy Allocation）

爱听歌的周童鞋

斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 2: FlashAttention-2本篇文章记录 CS336 作业 Assignment 2: Systems 中的 FlashAttention-2 作业要求，仅供自己参考😄

突破 ComfyUI 环境枷锁：RTX 3090 强行开启 comfy-kitchen 官方全后端加速库实战https://pypi.org/project/comfy-kitchen/https://github.com/Comfy-Org/comfy-kitchen

HyperAI超神经

【Triton 教程】triton_language.loadTriton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境，以高效编写自定义 DNN 计算内核，并能够在现代 GPU 硬件上以最大吞吐量运行。

超越CUDA：Triton硬件无关性在昇腾平台上的实现挑战与突破目录摘要1. 引言：硬件生态锁定的技术困局1.1 CUDA生态的"软锁定"效应1.2 昇腾平台的差异化架构挑战

Triton算子开发范式：从向量加法和Gather算子看高效编程实践目录摘要1. Triton算子开发范式的核心价值1.1 昇腾平台算子开发的挑战与机遇1.2 Triton编程模型的核心优势

Triton - Ascend算子开发基础解析：解锁高效NPU编程的新范式目录摘要1 引言：为什么选择Triton进行Ascend算子开发？2 Triton与Ascend C架构对比分析

爱听歌的周童鞋

斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 6: Kernels，Triton学习斯坦福的 CS336 课程，本篇文章记录课程第六讲：高性能 GPU 代码的编写，记录下个人学习笔记，仅供自己参考😄

triton backend 模式docker 部署 pytorch gpu模型镜像选择参考官方tag 对应的镜像地址 https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver?version=25.09-trtllm-python-py3

tensorRT配合triton部署模型initializer：拓扑关系：先conv，后relu3.1 边 3.2 算子 3.3 模型 3.4 图

llamafactory微调模型报错ModuleNotFoundError: No module named ‘triton.ops‘在阿里云Notebook上使用llamafactory微调Meta-Llama-3-8B-Instruct模型报错ModuleNotFoundError: No module named ‘triton.ops’

✦昨夜星辰✦

Triton Inference Server 架构原理上篇文章进行了 TensorRT-LLM & Triton Server 部署，本篇简单讲讲 Triton Inference Server 的架构原理，便于大家更好的做配置和开发。