推理优化

大鹏的NLP博客

ONNX Runtime GenAI C++ GPU 推理完整指南在使用 ONNX Runtime GenAI v0.12.0 进行 C++ GPU 推理时，遇到了多个挑战：

DeepSeek时代的Large-scale LLM推理2025年底DeepSeek V3发布炸场，几乎为业界之后的LLM优化方向定了调，尤其是大规模推理优化方面。去年快年底时对LLM的推理优化技术做过一个简单的总结：《LLM时代中的AI推理优化》，现在看来已有很多变化。在DeepSeek V3问世快一年之际，这里简单整理总结一下业界与之相关的推理优化技术。

实战DeepSeek-VL2：实现图片内容理解与自动文案生成的完整流程目录摘要1 技术原理与架构设计1.1 DeepSeek-VL2模型架构深度解析1.2 视觉-语言对齐机制

九章云极AladdinEdu

大模型推理服务优化：vLLM的PagedAttention与连续批处理实现大型语言模型（LLM）推理面临两大核心矛盾：计算密度高（单次推理需数十亿次浮点运算）与内存消耗大。以LLaMA-13B为例，仅KV缓存（Key-Value Cache）存储单个序列就可能占用1.7GB内存，而传统推理系统（如HuggingFace Transformers、FasterTransformer）由于固定内存预分配策略，导致60%-80%的内存因碎片化和过度保留而被浪费。

【LLM】为何DeepSeek 弃用MST却采用Rejection采样在提升大语言模型（LLM）推理能力时，拒绝采样（Rejection Sampling）和马尔可夫搜索树（Markov Search Tree）是两个超强的技术。

我是有底线的