技术栈

摩尔线程

摩尔线程
14 天前
算法·语言模型·大模型·gpu算力·gpu·摩尔线程
推测解码算法在 MTT GPU 的应用实践目前主流的大模型自回归解码每一步都只生成一个token, 尽管kv cache等技术可以提升解码的效率,但是单个样本的解码速度依然受限于访存瓶颈,即模型需要频繁从内存中读取和写入数据,此时GPU的利用率有限。为了解决这种问题,VLLM框架中提出的continues batching的推理方式则是充分利用批量推理来缓解或避免访存瓶颈,极大的提升了推理系统的吞吐量。不同于VLLM等框架在系统层面的加速优化,本文所想要介绍的推测解码(speculative decoding)技术则是聚焦于算法层面的加速优化,其
还是大剑师兰特
6 个月前
大剑师·摩尔线程
GPU 芯片知名公司:摩尔线程摩尔线程是一家专注于GPU(图形处理器)芯片设计与制造的高科技企业。以下是对摩尔线程的详细介绍:公司背景
摩尔线程
8 个月前
3d·xr·图形渲染·vr·摩尔线程
使用MTVerseXR SDK实现VR串流MTVerseXR SDK 是摩尔线程GPU加速的虚拟现实(VR)流媒体平台,专门用于从远程服务器流式传输基于标准OpenXR的应用程序。MTVerseXR可以通过Wi-Fi和USB流式将VR内容从Windows服务器流式传输到XR客户端设备, 使相对性能低的VR客户端可以使用高性能图形服务器的渲染能力。