技术栈
模型加速
碳基硅坊
7 天前
人工智能
·
gemma
·
模型加速
·
gemma4
·
gemma4-31b
Gemma-4-31B推理加速:量化、框架与加速技术实战
Gemma-4-31B是Google发布的开源旗舰模型,307亿参数在多项基准测试中超越参数量远超自身的闭源模型。但62GB的显存需求让大多数消费级显卡望而却步。本文聚焦31B模型的推理加速,从量化压缩、框架选型、MTP推测解码、DFlash块扩散加速四个维度给出实战方案。
碳基硅坊
9 天前
人工智能
·
vllm
·
llama.cpp
·
模型加速
·
mtp
MTP在vLLM与llama.cpp上的性能对比:Qwen3.6与Gemma4实测
MTP(Multi-Token Prediction,多Token预测)是一项新兴的大模型推理优化技术。本文基于完整测试数据,对比vLLM和llama.cpp在MTP模式下的性能表现,并提供可操作的部署指南。
Dfreedom.
13 天前
人工智能
·
windows
·
部署
·
边缘计算
·
开发板
·
模型加速
Windows、虚拟机、开发板组网通信原理及调试通联步骤
本文基于双网口Windows主机 + Ubuntu虚拟机 + 开发板的算法调试场景,系统梳理三设备内网通信的底层逻辑,并提供从零开始的全互通实操步骤,帮助开发者快速解决板卡调试中的网络基础问题。
Dfreedom.
15 天前
人工智能
·
深度学习
·
算法
·
量化
·
模型加速
深度学习量化技术全景解析:从校准算法到量化算子的完整指南
本文系统梳理神经网络量化中的核心概念,并通过一个完整的数值示例,展示从 FP32 到 INT8 的完整转换过程。
Dfreedom.
21 天前
人工智能
·
深度学习
·
gpu
·
gpu加速
·
模型加速
·
算子融合
·
模型计算
算子融合:从硬件本质到性能飞跃的深度学习优化艺术
在深度学习模型部署中,我们经常遇到这样的困境:同样的模型,同样的硬件,为什么推理速度却有天壤之别?一个在GPU上需要20ms的模型,经过优化后可能只需要5ms。这背后的关键优化技术之一就是算子融合。
Dfreedom.
22 天前
人工智能
·
算法
·
机器学习
·
剪枝
·
模型加速
模型剪枝完全指南:从理论到实践,打造高效深度学习模型
模型剪枝作为模型压缩的核心技术之一,能够在不显著损失精度的前提下大幅减少模型大小和计算量。本文将从方法论、数学原理、实现细节到实践策略,全面解析模型剪枝技术,帮助读者深入理解并掌握这一关键技术。
破烂pan
6 个月前
llm
·
模型加速
模型推理加速技术全景解析:从基础优化到前沿创新
在2024-2025年间,大模型推理加速技术取得了显著突破,从传统的模型压缩到前沿的分页内存管理,再到革命性的投机解码,这些技术共同推动了大模型推理速度的质的飞跃。本报告将深入浅出地解析这些主流加速手段,结合一年内发布的代表性模型和框架,揭示它们如何在实际应用中实现推理加速,并提供相应的代码示例。
静心问道
10 个月前
人工智能
·
语言模型
·
模型加速
CacheBlend:结合缓存知识融合的快速RAG大语言模型推理服务
温馨提示: 本篇文章已同步至"AI专题精讲" CacheBlend:结合缓存知识融合的快速RAG大语言模型推理服务
静心问道
10 个月前
人工智能
·
模型加速
·
ai技术应用
Deja Vu: 利用上下文稀疏性提升大语言模型推理效率
温馨提示: 本篇文章已同步至"AI专题精讲" Deja Vu: 利用上下文稀疏性提升大语言模型推理效率
静心问道
10 个月前
人工智能
·
模型加速
·
ai技术应用
·
缓存压缩与传输
CacheGen:用于快速大语言模型推理服务的 KV 缓存压缩与流式传输
温馨提示: 本篇文章已同步至"AI专题精讲" CacheGen:用于快速大语言模型推理服务的 KV 缓存压缩与流式传输
静心问道
1 年前
人工智能
·
语言模型
·
模型加速
·
ai技术应用
BitDistiller:通过自蒸馏释放 Sub-4-Bit 大语言模型的潜力
温馨提示: 本篇文章已同步至"AI专题精讲" BitDistiller:通过自蒸馏释放 Sub-4-Bit 大语言模型的潜力
静心问道
1 年前
人工智能
·
模型加速
·
ai技术应用
DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 实现大语言模型的高吞吐文本生成
温馨提示: 本篇文章已同步至"AI专题精讲" DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 实现大语言模型的高吞吐文本生成
我是有底线的