gguf

掌握本地化大语言模型部署：llama.cpp 工作流与 GGUF 转换内核全面技术指南llama.cpp 不仅仅是一个软件工具，它更是一个关键的开源项目，其核心使命是推动大语言模型（LLM）的普及化。该项目秉持“CPU 优先”的设计哲学，通过精湛的 C++ 实现和底层优化，使得在没有昂贵高端图形处理单元（GPU）的消费级硬件上运行强大的语言模型成为可能。这一特性极大地降低了开发者、研究人员和技术爱好者探索和应用前沿人工智能技术的门槛，从而催生了一个活跃的本地化 AI 应用生态系统。

爱听歌的周童鞋

GGML源码逐行调试（下）学习 UP 主比飞鸟贵重的多_HKL 的 GGML源码逐行调试视频，记录下个人学习笔记，仅供自己参考😄

常见的 AI 模型格式来源：博客链接过去两年，开源 AI 社区一直在热烈讨论新 AI 模型的开发。每天都有越来越多的模型在 Hugging Face 上发布，并被用于实际应用中。然而，开发者在使用这些模型时面临的一个挑战是模型格式的多样性。

从文件到块: 提高 Hugging Face 存储效率Hugging Face 在 Git LFS 仓库中存储了超过 30 PB 的模型、数据集和 Spaces。由于 Git 在文件级别进行存储和版本控制，任何文件的修改都需要重新上传整个文件。这在 Hub 上会产生高昂的成本，因为平均每个 Parquet 和 CSV 文件大小在 200-300 MB 之间，Safetensor 文件约 1 GB，而 GGUF 文件甚至可能超过 8 GB。设想一下，仅仅修改 GGUF 文件中的一行元数据，就需要等待数 GB 大小的文件重新上传。除了耗费用户时间和传输成本外，

介绍 GGUF-my-LoRA随着 llama.cpp 对 LoRA 支持的重构，现在可以将任意 PEFT LoRA 适配器转换为 GGUF，并与 GGUF 基础模型一起加载运行。

制作并量化GGUF模型上传到HuggingFace和ModelScopellama.cpp 是 Ollama、LMStudio 和其他很多热门项目的底层实现，也是 GPUStack 所支持的推理引擎之一，它提供了 GGUF 模型文件格式。GGUF (General Gaussian U-Net Format) 是一种用于存储模型以进行推理的文件格式，旨在针对推理进行优化，可以快速加载和运行模型。

从加载到对话：使用 Llama-cpp-python 本地运行量化 LLM 大模型（GGUF）（无需显卡）使用 Llama-cpp-python 在本地加载具有 70 亿参数的 LLM 大语言模型，通过这篇文章你将学会用代码创建属于自己的 GPT。建议阅读完 19a 的「前言」和「模型下载」部分后再进行本文的阅读。

GPTQ vs AWQ vs GGUF（GGML）速览和 GGUF 文件命名规范简单介绍一下四者的区别。参考链接：GPTQ - 2210.17323 | AWQ - 2306.00978 | GGML | GGUF - docs | What is GGUF and GGML?

LLM - 使用 HuggingFace + Ollama 部署最新大模型 (GGUF 格式与 Llama 3.1)欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/141028040

Unsloth 微调 Llama 3本文参考： https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp 改编自：https://blog.csdn.net/qq_38628046/article/details/138906504

大模型预训练结果到底是什么？近日参加一个线下 AI 交流会议，会上有个非本行业的老师提问：“大家说的训练好的大模型到底是什么？是像 Word 软件一样可以直接使用的程序吗？” 这个问题看似简单，却一下把我问住了。的确，我们这些身处 AI 领域的人，每天都在谈论“预训练”、“微调”、“大模型”，却很少停下来思考，这些专业术语对于圈外人来说意味着什么。

我是有底线的