技术栈
推理优化
ariesjzj
18 天前
大模型
·
llm
·
deepseek
·
推理优化
·
大规模ep
DeepSeek时代的Large-scale LLM推理
2025年底DeepSeek V3发布炸场,几乎为业界之后的LLM优化方向定了调,尤其是大规模推理优化方面。去年快年底时对LLM的推理优化技术做过一个简单的总结:《LLM时代中的AI推理优化》,现在看来已有很多变化。在DeepSeek V3问世快一年之际,这里简单整理总结一下业界与之相关的推理优化技术。
七夜zippoe
1 个月前
多模态大模型
·
图像理解
·
推理优化
·
deepseek-vl2
·
自动文案生成
实战DeepSeek-VL2:实现图片内容理解与自动文案生成的完整流程
目录摘要1 技术原理与架构设计1.1 DeepSeek-VL2模型架构深度解析1.2 视觉-语言对齐机制
九章云极AladdinEdu
2 个月前
vllm
·
kv缓存
·
推理优化
·
pagedattention
·
连续批处理
·
吞吐量对比
大模型推理服务优化:vLLM的PagedAttention与连续批处理实现
大型语言模型(LLM)推理面临两大核心矛盾:计算密度高(单次推理需数十亿次浮点运算)与内存消耗大。以LLaMA-13B为例,仅KV缓存(Key-Value Cache)存储单个序列就可能占用1.7GB内存,而传统推理系统(如HuggingFace Transformers、FasterTransformer)由于固定内存预分配策略,导致60%-80%的内存因碎片化和过度保留而被浪费。
山顶夕景
1 年前
大模型
·
llm
·
sft
·
拒绝采样微调
·
推理优化
【LLM】为何DeepSeek 弃用MST却采用Rejection采样
在提升大语言模型(LLM)推理能力时,拒绝采样(Rejection Sampling)和 马尔可夫搜索树(Markov Search Tree)是两个超强的技术。
我是有底线的