triton

ouliten9 天前
笔记·triton
[Triton笔记3]融合 Softmax (Fused Softmax)先看使用pytorch实现的softmax直接在 PyTorch 中实现时,对于 x∈M×N,计算 y = naive_softmax(x) 需要从 DRAM 中读取 5MN+2M 个元素,并写回 3MN+2M 个元素。
ouliten17 天前
笔记·python·深度学习·triton
[Triton笔记1]核心概念目前 Triton 主要支持 Linux 系统,并且需要拥有 NVIDIA GPU(通常要求 Compute Capability 7.0 及以上,即 Volta 架构以后,如 V100, RTX 20/30/40 系列)。
AI小译2 个月前
nvidia·triton·language
Triton - 官方文档介绍https://triton-lang.org/main/getting-started/tutorials/index.html
GoCodingInMyWay2 个月前
pytorch·riscv·triton
Triton + RISC-V如何深入学习 Triton 的编译器技术栈?为此,我设定了一个 Triton + RISC-V 的学习目标:尝试将一个简单的向量加法算子,通过 Triton 编译并运行到 RISC-V 仿真环境上。
GoCodingInMyWay2 个月前
ai·triton
Triton 开始Triton,本文指 OpenAI Triton,先看官方介绍,Triton is a language and compiler for parallel programming. It aims to provide a Python-based programming environment for productively writing custom DNN compute kernels capable of running at maximal throughput on modern GP
Shining05962 个月前
linux·服务器·人工智能·线性代数·算法·triton·ai编译器
AI 编译器系列(四)《AI 编译器中的后端优化》目录内存管理优化1. 优化思路2. Naive 版本3. 优化版本4. 惰性分配(Lazy Allocation)
爱听歌的周童鞋3 个月前
llm·triton·assignment·flashattention·cs336·jit-compiler
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 2: FlashAttention-2本篇文章记录 CS336 作业 Assignment 2: Systems 中的 FlashAttention-2 作业要求,仅供自己参考😄
love530love4 个月前
人工智能·windows·python·cuda·comfyui·triton·comfy-kitchen
突破 ComfyUI 环境枷锁:RTX 3090 强行开启 comfy-kitchen 官方全后端加速库实战https://pypi.org/project/comfy-kitchen/https://github.com/Comfy-Org/comfy-kitchen
HyperAI超神经5 个月前
人工智能·学习·大语言模型·cpu·gpu·编程语言·triton
【Triton 教程】triton_language.loadTriton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。
行走正道6 个月前
triton·昇腾·cann·ascend c·计算单元
超越CUDA:Triton硬件无关性在昇腾平台上的实现挑战与突破目录摘要1. 引言:硬件生态锁定的技术困局1.1 CUDA生态的"软锁定"效应1.2 昇腾平台的差异化架构挑战
七夜zippoe6 个月前
triton·昇腾·cann·ascend c·gather
Triton算子开发范式:从向量加法和Gather算子看高效编程实践目录摘要1. Triton算子开发范式的核心价值1.1 昇腾平台算子开发的挑战与机遇1.2 Triton编程模型的核心优势
七夜zippoe6 个月前
kernel·triton·昇腾·cann·ascend c
Triton - Ascend算子开发基础解析:解锁高效NPU编程的新范式目录摘要1 引言:为什么选择Triton进行Ascend算子开发?2 Triton与Ascend C架构对比分析
爱听歌的周童鞋7 个月前
llm·triton·profiling·cs336·kernels
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 6: Kernels,Triton学习斯坦福的 CS336 课程,本篇文章记录课程第六讲:高性能 GPU 代码的编写,记录下个人学习笔记,仅供自己参考😄
IT_Octopus7 个月前
pytorch·docker·triton·模型推理
triton backend 模式docker 部署 pytorch gpu模型 镜像选择参考 官方tag 对应的镜像地址 https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver?version=25.09-trtllm-python-py3
谢白羽9 个月前
yolo·tensorrt·onnx·triton
tensorRT配合triton部署模型initializer:拓扑关系:先conv,后relu3.1 边 3.2 算子 3.3 模型 3.4 图
joexk1 年前
微调·triton·llamafactory·no module·triton.ops
llamafactory微调模型报错ModuleNotFoundError: No module named ‘triton.ops‘在阿里云Notebook上使用llamafactory微调Meta-Llama-3-8B-Instruct模型报错ModuleNotFoundError: No module named ‘triton.ops’
✦昨夜星辰✦2 年前
人工智能·系统架构·triton·推理引擎·tensorrt-llm
Triton Inference Server 架构原理上篇文章进行了 TensorRT-LLM & Triton Server 部署 ,本篇简单讲讲 Triton Inference Server 的架构原理,便于大家更好的做配置和开发。
geeksoarsky2 年前
llm·sdxl·triton·colab
不使用 Docker 构建 Triton 服务器并在 Google Colab 平台上部署 HuggingFace 模型根据Triton 环境对应表 ,Colab 环境缺少 tensorrt-8.6.1,cudnn9-cuda-12,triton-server 版本应该选择 r23.10。
geeksoarsky2 年前
llm·sdxl·triton
Triton Server Python 后端优化接上文 不使用 Docker 构建 Triton 服务器并在 Google Colab 平台上部署 HuggingFace 模型