技术栈
atlas 800t
EterNity_TiMe_
20 天前
数据库
·
llama
·
昇腾
·
atlas 800t
·
实战部署
从 0 到 1:Llama 3-8B 在昇腾 Atlas 800T 上的推理调优与算力榨干指南
前言:前段时间在 GitCode 中注意到 Notebook 功能可以直接进行大模型开发,于是抱着试试看效果的心态,决定尝试在云端环境部署一次 Meta-Llama-3-8B-Instruct 模型。整个过程比预期顺利得多,但也遇到了一些容易踩坑的问题,因此整理成了本文,希望作为一份从零开始就能照着做的完整部署教程。
禁默
21 天前
llama
·
昇腾npu
·
atlas 800t
在昇腾 NPU上跑通 Llama 3-8B:从环境部署到 100% 算力满载
本文记录了在GitCode云端环境(Ascend )上部署 Meta-Llama-3-8B-Instruct 的全过程。涵盖了从环境自检、ModelScope 模型下载、推理代码实战到“算力满载”验证的详细步骤。本文不仅展示了 Llama 3 在国产算力上的代码实现,还通过后台监控揭示了 NPU 在推理时的真实负载表现。
禁默
21 天前
大模型
·
ascend
·
昇腾npu
·
atlas 800t
在昇腾 NPU上压测 Qwen1.5-MoE:AtomGit 云端部署全记录
Qwen1.5-MoE-A2.7B 是一个架构非常有趣的“怪兽”:它拥有 14.3B 的庞大身躯(显存占用大),但在干活时只动用 2.7B 的脑细胞(计算速度快)。
我是有底线的