技术栈
推理优化
颜笑晏晏
1 天前
缓存
·
推理优化
·
sglang
·
ai infra
·
pd分离
长输入短输出场景下的 SGLang 推理性能实测前缀缓存、PD 分离配比与参数调优
我们产线上的推理请求,几乎是清一色的"长输入、短输出":几万 token 的资料或上下文喂进去,模型只吐回几百 token 的答案。RAG、长文档问答、代码库分析,本质上都是这个形状。
小何code
9 天前
vllm
·
大模型部署
·
推理优化
·
pagedattention
人工智能【第55篇】大模型推理优化:vLLM与推理加速技术
作者的话:随着大语言模型的规模不断增长,推理成本已成为AI应用落地的关键瓶颈。一个70B参数的模型,单次推理可能需要数GB显存和数秒延迟。vLLM等推理引擎通过PagedAttention、连续批处理等创新技术,将吞吐量提升了数十倍。本文将深入解析大模型推理优化的核心技术,并带你完成vLLM的实战部署!
一颗小树x
11 天前
加速
·
vla
·
推理优化
·
realtime-vla
《VLA 系列》realtime-vla | 论文解读 加速推理 30Hz+
本文分析 realtime-vla,在单张消费级 RTX 4090 GPU 上的实时推理,达成 30Hz 图像推理速率 、最高 480Hz 轨迹控制频率。
山顶夕景
1 个月前
agent
·
deepseek
·
推理优化
·
混合注意力
【LLM】DeepSeek-V4模型架构和训练流程
【ds v4】混合专家(Mixture-of-Experts, MoE)语言模型:DeepSeek-V4-Pro(总参数量 1.6T,激活参数量 49B)和 DeepSeek-V4-Flash(总参数量 284B,激活参数量 13B),二者均支持 百万 Token 的上下文长度。采用 MIT 许可证。
不爱说话的我
1 个月前
大语言模型
·
推理优化
·
gpu部署
SGLang吞吐量提升50%?GPU算力适配优化实战分析
你有没有遇到过这种情况?好不容易把一个几十亿参数的大模型部署上线,结果发现并发一高,响应就慢得像蜗牛,GPU算力明明没用满,但吞吐量就是上不去。更头疼的是,很多业务场景不只是简单的问答,比如多轮对话、任务规划、生成结构化数据,这些复杂逻辑写起来麻烦,跑起来效率还低。
亿风行
2 个月前
大语言模型
·
多轮对话
·
推理优化
·
sglang
实测SGLang的RadixAttention技术,缓存效率飙升
SGLang不是又一个LLM推理框架的简单复刻,而是一次针对真实部署瓶颈的精准手术。当多数框架还在优化单请求延迟时,SGLang把刀锋对准了更隐蔽也更致命的问题:KV缓存的重复计算与内存浪费。尤其在多轮对话、批量API调用、结构化输出等高频场景中,传统注意力机制像一辆不断空转的发动机——算力在反复咀嚼相同的历史token,GPU显存被冗余缓存填满,吞吐量卡在瓶颈线上纹丝不动。
大鹏的NLP博客
4 个月前
大模型
·
genai
·
推理优化
ONNX Runtime GenAI C++ GPU 推理完整指南
在使用 ONNX Runtime GenAI v0.12.0 进行 C++ GPU 推理时,遇到了多个挑战:
ariesjzj
6 个月前
大模型
·
llm
·
deepseek
·
推理优化
·
大规模ep
DeepSeek时代的Large-scale LLM推理
2025年底DeepSeek V3发布炸场,几乎为业界之后的LLM优化方向定了调,尤其是大规模推理优化方面。去年快年底时对LLM的推理优化技术做过一个简单的总结:《LLM时代中的AI推理优化》,现在看来已有很多变化。在DeepSeek V3问世快一年之际,这里简单整理总结一下业界与之相关的推理优化技术。
七夜zippoe
7 个月前
多模态大模型
·
图像理解
·
推理优化
·
deepseek-vl2
·
自动文案生成
实战DeepSeek-VL2:实现图片内容理解与自动文案生成的完整流程
目录摘要1 技术原理与架构设计1.1 DeepSeek-VL2模型架构深度解析1.2 视觉-语言对齐机制
九章云极AladdinEdu
8 个月前
vllm
·
kv缓存
·
推理优化
·
pagedattention
·
连续批处理
·
吞吐量对比
大模型推理服务优化:vLLM的PagedAttention与连续批处理实现
大型语言模型(LLM)推理面临两大核心矛盾:计算密度高(单次推理需数十亿次浮点运算)与内存消耗大。以LLaMA-13B为例,仅KV缓存(Key-Value Cache)存储单个序列就可能占用1.7GB内存,而传统推理系统(如HuggingFace Transformers、FasterTransformer)由于固定内存预分配策略,导致60%-80%的内存因碎片化和过度保留而被浪费。
山顶夕景
1 年前
大模型
·
llm
·
sft
·
拒绝采样微调
·
推理优化
【LLM】为何DeepSeek 弃用MST却采用Rejection采样
在提升大语言模型(LLM)推理能力时,拒绝采样(Rejection Sampling)和 马尔可夫搜索树(Markov Search Tree)是两个超强的技术。
我是有底线的