混合精度

nju_spy13 天前
人工智能·lora·大模型·混合精度·混合专家模型 moe·densemlp·门控机制
南京大学LLM开发基础(四)MoE, LoRA, 数的精度 + MLP层实验https://njudeepengine.github.io/llm-course-lecture/2025/lecture8.html#1
九章云极AladdinEdu14 天前
人工智能·tensor core·tpu·混合精度·矩阵计算单元·wmma编程·脉动阵列
AI芯片微架构对比:从NVIDIA Tensor Core到Google TPU的矩阵计算单元人工智能计算的爆发式增长正在重塑现代计算架构的设计理念。在传统的CPU和GPU之外,专门为矩阵计算优化的AI加速器已成为推动深度学习发展的关键力量。在这场技术变革中,NVIDIA的Tensor Core和Google的TPU代表了两种截然不同但同样成功的设计哲学:前者追求在通用计算框架下的专用优化,后者则专注于数据中心推理和训练工作负载的极致效率。
九章云极AladdinEdu22 天前
人工智能·大模型训练·zero·显存优化·offload·激活重计算·混合精度
大模型训练显存优化全方案:ZeRO、Offload与重计算技术对比当大语言模型的参数量从亿级迈向万亿级,我们面临的不再仅仅是算力瓶颈,更是显存墙的严峻挑战。训练一个1750亿参数的模型,仅存储FP32格式的参数、梯度和优化器状态就需要超过2TB的显存,这远远超过了当前最强单卡GPU的容量。如何在有限的硬件条件下突破显存限制,让普通研究机构和开发者也能参与大模型训练,成为了AI领域亟待解决的核心问题。
我是有底线的