用 llama.cpp 体验 Meta 的 Llama AI 模型

继续体验 Meta 开源的 Llama 模型,前篇 试用 Llama-3.1-8B-Instruct AI 模型 直接用 Python 的 Tranformers 和 PyTorch 库加载 Llama 模型进行推理。模型训练出来的精度是 float32, 加载时采用的精度是 torch.bfloat16。

注:数据类型 torch.float32, torch.bfloat16, 与 torch.float16 有不同的指数(Exponent),尾数(Fraction)宽度, 它们都有一位是符号位,所以剩下的分别为指数位和尾数位宽度, torch.float32(8, 23), torch.bfloat16(8, 7), torch.float16(5, 10)。

模型依赖于 GPU 的显存,根据经验, 采用 16 位浮点数加载模型的话,推理所需显存大小(以 GB 为单) 是模型参数量(以 10 亿计) 的两倍,如 3B 模型需要约 6G 显存。如果对模型进一步量化,如精度量化到 4 位整数,则所需显存大小降为原来的 1/4 到 1/3, 意味着 3B 模型只要 2 G 显存就能进行推理。所以我们可以把一个 3B 的模型塞到手机里去运行,如果是 1B 的模型 int4 量化后内存占用不到 1G(0.5 ~ 0.67)。

本文体验 llama.cpp 对模型进行推理,在 Hugging Face 的用户设置页面 Local Apps and Hardware, 可看到一些流行的跑模型的应用程序,分别是

  1. 生成文本的: llama.cpp, LM Studio, Jan, Backyard AI, Jellybox, RecurseChat, Msty, Sanctum, LocalAI, vLLM, node-llama-cpp, Ollama, TGI
  2. 文生图的: Draw Things, DiffusionBee, Invoke, JoyFusion

阅读全文 >>

相关推荐
花间相见11 小时前
【AI工作流搭建】—— n8n 自部署完全指南:从 Docker 安装到第一个自动化工作流
人工智能·ai编程·n8n
天行健,君子而铎11 小时前
闭环式 AI 降噪成熟可靠型数据安全平台数据流转监测通用解决方案
大数据·人工智能
牢七11 小时前
AI Agent 基础
人工智能
yuhulkjv33511 小时前
Kimi如何导出pdf | AI导出鸭 独家深度测评
人工智能·ai·chatgpt·pdf·ai导出鸭
Swift社区11 小时前
鸿蒙游戏自动测试:AI 驱动的测试方案实战
人工智能·游戏·harmonyos
hai31524754311 小时前
从人脑的对称二分法说起:AI能否通过“照镜子”进化?
人工智能
人邮异步社区11 小时前
请问如何系统地学习深度学习所需的数学基础?
人工智能·深度学习·学习
孙高飞11 小时前
从0开始学AI测试系列-工具篇
人工智能·自动化·测试用例
金融Tech趋势派11 小时前
汽车经销服务如何提升咨询效率?企业微信AI SCRM实现标准化与即时化
人工智能
企业知识库布道者11 小时前
从 OCR 到文档结构理解:MinerU-Popo 对 RAG 文档解析链路的补全
人工智能·ocr·私有化部署·知识库·rag·企业知识库