技术栈

tensorrt-llm

我就是全世界
22 天前
人工智能·机器学习·性能优化·大模型·tensorrt-llm
TensorRT-LLM:大模型推理加速的核心技术与实践优势大型语言模型推理就像让一头300公斤的大熊猫玩平衡木——显存消耗和计算效率这对双胞胎问题随时可能让表演翻车。以主流的7B参数模型为例,FP16精度下仅模型权重就吃掉14GB显存,这还没算上推理过程中不断膨胀的KV Cache——当处理2048长度的对话时,显存占用会像吹气球般再膨胀30-50%,让大多数消费级GPU直接"窒息"。
✦昨夜星辰✦
9 个月前
人工智能·系统架构·triton·推理引擎·tensorrt-llm
Triton Inference Server 架构原理上篇文章进行了 TensorRT-LLM & Triton Server 部署 ,本篇简单讲讲 Triton Inference Server 的架构原理,便于大家更好的做配置和开发。