模型量化

Hoper.J2 个月前
人工智能·python·llm·llama·模型量化·gguf·模型本地部署
从加载到对话:使用 Llama-cpp-python 本地运行量化 LLM 大模型(GGUF)(无需显卡)使用 Llama-cpp-python 在本地加载具有 70 亿参数的 LLM 大语言模型,通过这篇文章你将学会用代码创建属于自己的 GPT。 建议阅读完 19a 的「前言」和「模型下载」部分后再进行本文的阅读。
Hoper.J3 个月前
模型量化·gptq·awq·gguf·ggml
GPTQ vs AWQ vs GGUF(GGML) 速览和 GGUF 文件命名规范简单介绍一下四者的区别。参考链接:GPTQ - 2210.17323 | AWQ - 2306.00978 | GGML | GGUF - docs | What is GGUF and GGML?
MonkeyKing_sunyuhua4 个月前
模型量化
模型量化方法-GPTQGPTQ 是一种高效的量化方法,用于大规模语言模型的量化和加速推理。GPTQ 主要目标是在不显著降低模型性能的情况下,最大限度地减少模型的计算复杂度和内存占用,从而使得这些模型可以在资源有限的硬件上运行。
湫然Quin7 个月前
大模型·llama·模型量化·llama.cpp·模型转换
llama.cpp 转化 huggingface 模型失败 解决路径./main -m ./models/book_q4_K_M -n 128报错:terminate called after throwing an instance of 'std::out_of_range' what(): unordered_map::at
BQW_10 个月前
自然语言处理·llm·模型量化·bitnet·高效推理
【自然语言处理】【大模型】BitNet:用1-bit Transformer训练LLM论文地址:https://arxiv.org/pdf/2310.11453.pdf相关博客 【自然语言处理】【大模型】BitNet:用1-bit Transformer训练LLM 【自然语言处理】BitNet b1.58:1bit LLM时代 【自然语言处理】【长文本处理】RMT:能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版) 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BLOOM模
BQW_10 个月前
自然语言处理·llm·大语言模型·模型量化·bitnet
【自然语言处理】BitNet b1.58:1bit LLM时代论文地址:https://arxiv.org/pdf/2402.17764.pdf相关博客 【自然语言处理】BitNet b1.58:1bit LLM时代 【自然语言处理】【长文本处理】RMT:能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版) 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BLOOM模型结构源码解析(单机版)
deephub1 年前
人工智能·深度学习·自然语言处理·大语言模型·模型量化
大语言模型量化方法对比:GPTQ、GGUF、AWQ在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。
新缸中之脑1 年前
模型量化
LLM大模型量化原理大型语言模型(LLM)可以用于文本生成、翻译、问答任务等。但是,LLM 也非常大(显然,大型语言模型)并且需要大量内存。 这对于手机和平板电脑等小型设备来说可能具有挑战性。
爱听歌的周童鞋1 年前
pytorch·模型量化·yolov7量化·quantization
TensorRT量化实战课YOLOv7量化:YOLOv7-PTQ量化(一)手写 AI 推出的全新 TensorRT 模型量化实战课程,链接。记录下个人学习笔记,仅供自己参考。该实战课程主要基于手写 AI 的 Latte 老师所出的 TensorRT下的模型量化,在其课程的基础上,所整理出的一些实战应用。
山阴少年1 年前
自然语言处理·bert·模型量化·optimum
NLP(六十八)使用Optimum进行模型量化本文将会介绍如何使用HuggingFace的Optimum,来对微调后的BERT模型进行量化(Quantization)。   在文章NLP(六十七)BERT模型训练后动态量化(PTDQ)中,我们使用PyTorch自带的PTDQ(Post Training Dynamic Quantization)量化策略对微调后的BERT模型进行量化,取得了模型推理性能的提升(大约1.5倍)。本文将尝试使用Optimum量化工具。
deephub1 年前
人工智能·pytorch·python·深度学习·模型量化
量化自定义PyTorch模型入门教程在以前Pytorch只有一种量化的方法,叫做“eager mode qunatization”,在量化我们自定定义模型时经常会产生奇怪的错误,并且很难解决。但是最近,PyTorch发布了一种称为“fx-graph-mode-qunatization”的方方法。在本文中我们将研究这个fx-graph-mode-qunatization”看看它能不能让我们的量化操作更容易,更稳定。