技术栈
tensorrt-llm
我就是全世界
22 天前
人工智能
·
机器学习
·
性能优化
·
大模型
·
tensorrt-llm
TensorRT-LLM:大模型推理加速的核心技术与实践优势
大型语言模型推理就像让一头300公斤的大熊猫玩平衡木——显存消耗和计算效率这对双胞胎问题随时可能让表演翻车。以主流的7B参数模型为例,FP16精度下仅模型权重就吃掉14GB显存,这还没算上推理过程中不断膨胀的KV Cache——当处理2048长度的对话时,显存占用会像吹气球般再膨胀30-50%,让大多数消费级GPU直接"窒息"。
✦昨夜星辰✦
9 个月前
人工智能
·
系统架构
·
triton
·
推理引擎
·
tensorrt-llm
Triton Inference Server 架构原理
上篇文章进行了 TensorRT-LLM & Triton Server 部署 ,本篇简单讲讲 Triton Inference Server 的架构原理,便于大家更好的做配置和开发。