推理框架

Soonyang Zhang8 天前
vllm·推理框架·kv cache
vllm分析(八)——deepseek v4 Attention (SWA + CSA + HCA)DeepseekV4Attention DeepseekV4MultiHeadLatentAttentionWrapper
Soonyang Zhang9 天前
vllm·推理框架
vllm分析(七)——模型结构分析(llama, qwen3moe)模型权重 DeepSeek-R1-Distill-Llama-70B 模型参数 DeepSeek-R1-Distill-Llama-70B/config.json
Soonyang Zhang12 天前
推理框架·kv cache
FlexKV 分析(三)——缓存的异步读写操作KVTaskEngine 继承自 KVTaskManager,负责管理 KV 缓存的异步读写操作。 KVTaskEngine 中实现的缓存操作相关接口:
Soonyang Zhang19 天前
vllm·推理框架
vllm分析(六)——KV cache offloadKV cache offload到外部存储(比如本机cpu内存),依然使用connector接口。不管是pd分离场景的KV cache 传输]还是KV cache offload, KV cache需要有两个过程:store(存储到外部) 和 load(从外部加载)。为了处理load和store,vllm的scheduler和worker之间传递信息。pd分离场景的kv cache的处理,参考上一篇博客。
Soonyang Zhang1 个月前
人工智能·vllm·推理框架
vllm分析(二)——http request的入口处理创建流程代码调用output_handler代码: https://github.com/vllm-project/vllm/blob/v0.20.1/vllm/v1/engine/async_llm.py#L656 OutputProcessor.process_outputs代码: https://github.com/vllm-project/vllm/blob/v0.20.1/vllm/v1/engine/output_processor.py#L572
handsomestWei2 个月前
vllm·推理框架·kv cache·sglang
KV Cache与vLLM、SGLang推理框架全文链接 KV Cache与vLLM、SGLang推理框架本文介绍 KV Cache 在大模型推理中的地位与资源估算、vLLM 与 SGLang 的异同、二者对 KV Cache 的利用方式、使用策略与首字延迟的关系,以及基于两者部署小模型并进行对话验证的步骤。
Soonyang Zhang4 个月前
人工智能·算子·推理框架
flashinfer attention kernel分析[1] 万字长文详解FlashAttention v1/v2 [2] From Online Softmax to FlashAttention [3] flash attention1和2 [4] Flash Decoding 原理与实现 [5] FA2中Flash-decoding 第二阶段reduce sum计算公式推导 [6] VLLM 学习- Paged Attention Kernel 解析
Soonyang Zhang5 个月前
人工智能·推理框架
xllm源码分析(四)——pd分离处理流程[1] pd分离在vllm中用法 [2]vLLM PD分离方案入门:核心概念、优势与适应场景梳理xllm在pd分离场景中,主要逻辑集中在DisaggPDScheduler。
Soonyang Zhang5 个月前
推理框架
xllm源码分析(一)——服务启动xllm是使用c++语言构建的大模型推理服务器。  代码地址:https://gitee.com/mirrors/xllm  技术报告:https://arxiv.org/html/2510.14686v1
CodeDevMaster2 年前
语言模型·llm·部署·推理框架·xinference
Xorbits Inference(Xinference):一款性能强大且功能全面的大模型部署与分布式推理框架Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。
程序猿小三2 年前
推理框架
基础篇| 全网最全详解12个大模型推理框架01 什么是框架?开始介绍之前, 我们先了解一下什么是框架?xx框架-IT人经常听到的名词。但是又有多少人知道框架的意思?
爱听歌的周童鞋2 年前
设计模式·推理框架·cuda-bevfusion
八. 实战:CUDA-BEVFusion部署分析-学习CUDA-BEVFusion推理框架设计模式自动驾驶之心推出的 《CUDA与TensorRT部署实战课程》,链接。记录下个人学习笔记,仅供自己参考
Recitative2 年前
人工智能·笔记·深度学习·机器学习·单元测试·推理框架·google test
【Kuiperinfer】笔记03 张量(Tensor)类设计与实现,单元测试解析张量的数据按照channels,rows,cols的顺序排放,主要包含以下部分:Tensor类需要提供高效的矩阵计算算法,同时也应该在软件工程的层面上优化接口。
我是有底线的