用 llama.cpp 体验 Meta 的 Llama AI 模型

继续体验 Meta 开源的 Llama 模型,前篇 试用 Llama-3.1-8B-Instruct AI 模型 直接用 Python 的 Tranformers 和 PyTorch 库加载 Llama 模型进行推理。模型训练出来的精度是 float32, 加载时采用的精度是 torch.bfloat16。

注:数据类型 torch.float32, torch.bfloat16, 与 torch.float16 有不同的指数(Exponent),尾数(Fraction)宽度, 它们都有一位是符号位,所以剩下的分别为指数位和尾数位宽度, torch.float32(8, 23), torch.bfloat16(8, 7), torch.float16(5, 10)。

模型依赖于 GPU 的显存,根据经验, 采用 16 位浮点数加载模型的话,推理所需显存大小(以 GB 为单) 是模型参数量(以 10 亿计) 的两倍,如 3B 模型需要约 6G 显存。如果对模型进一步量化,如精度量化到 4 位整数,则所需显存大小降为原来的 1/4 到 1/3, 意味着 3B 模型只要 2 G 显存就能进行推理。所以我们可以把一个 3B 的模型塞到手机里去运行,如果是 1B 的模型 int4 量化后内存占用不到 1G(0.5 ~ 0.67)。

本文体验 llama.cpp 对模型进行推理,在 Hugging Face 的用户设置页面 Local Apps and Hardware, 可看到一些流行的跑模型的应用程序,分别是

  1. 生成文本的: llama.cpp, LM Studio, Jan, Backyard AI, Jellybox, RecurseChat, Msty, Sanctum, LocalAI, vLLM, node-llama-cpp, Ollama, TGI
  2. 文生图的: Draw Things, DiffusionBee, Invoke, JoyFusion

阅读全文 >>

相关推荐
Angelina_Jolie24 分钟前
ECCV 2024 | 加速图像超分辨率网络的像素级分类
人工智能·机器学习·分类
源大模型27 分钟前
NeuIPS 2024 | YOCO的高效解码器-解码器架构
人工智能·语言模型·transformer
yuluo_YX1 小时前
大模型专栏--Spring Ai Alibaba介绍和功能演示
java·人工智能·spring
weex_213342 小时前
WEEXNews「昨夜今晨重要资讯,11月27日
人工智能
ericliu20172 小时前
EfficientQAT: 大型语言模型的高效量化感知训练
人工智能·语言模型·自然语言处理
SpikeKing2 小时前
LLM - 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集 教程 (3)
llama
沐岩:)2 小时前
Llama模型分布式训练(微调)
分布式·llama
老艾的AI世界3 小时前
AI让照片跳舞,人人都能是舞王!Swan下载介绍
人工智能·深度学习·神经网络·目标检测·机器学习·ai·图像识别·ai生成视频·ai跳舞·ai视频生成
Dipeak数巅科技3 小时前
通过数巅能源大模型降本增效
大数据·数据库·人工智能·数据分析·能源