模型量化

带娃的IT创业者9 天前
ai·图像生成·模型量化·本地部署·低资源推理
单比特奇迹:如何在本地设备运行 4B 图像生成模型?在生成式 AI 爆发的今天,每一次技术的飞跃似乎都伴随着硬件门槛的提升。当我们谈论最新的图像生成模型时,往往绕不开昂贵的显存需求。H100、A100 这些企业级显卡对于普通开发者而言遥不可及,即便是消费级旗舰 RTX 4090,在面对动辄几十亿参数的大模型时,也常常捉襟见肘。这种“算力焦虑”成为了阻碍 AI 技术普及的高墙。
时光飞逝的日子13 天前
risc-v·模型量化·推理引擎·边缘 ai·向量扩展·低功耗优化
基于 RISC-V 架构的边缘 AI 推理引擎优化设计关键词:RISC-V、边缘 AI、推理引擎、向量扩展、模型量化、低功耗优化摘要:针对嵌入式边缘设备算力弱、内存稀缺、功耗受限的行业痛点,依托RISC-V开源指令集模块化、可定制的核心优势,设计一款支持INT8/FP16混合精度推理的轻量化边缘AI推理引擎。结合RVV向量扩展指令级优化、模型量化压缩算法、自适应内存调度策略,全方位优化CNN模型端侧推理效率,在极低精度损耗的前提下,大幅降低推理延迟与设备功耗,可高效落地于工业视觉检测、智能家居感知、端侧智能监控等主流边缘场景。
小何code14 天前
模型压缩·知识蒸馏·模型量化·深度学习优化·模型剪枝
人工智能【第47篇】深度学习优化:模型压缩与加速技术作者的话:随着深度学习模型越来越庞大(GPT-4有万亿级参数),如何在资源受限的设备上部署这些模型成为一个巨大挑战。模型压缩与加速技术能够在保持模型精度的同时,显著减小模型体积和提升推理速度。本文将深入解析这些技术的原理、方法和实战技巧!
时光飞逝的日子14 天前
rk3588·模型量化·llama-3·端侧大模型·qwen-1.5
嵌入式大模型部署:从 LLaMA-3 到 Qwen-1.5,在 RK3588 上实现本地 AI 推理(含模型量化教程)目前多数嵌入式AI场景仍采用云端推理+端侧采集的架构,这种方案在实际落地中存在诸多短板:网络传输延迟不可控、设备依赖网络、用户数据上传存在隐私风险、大规模部署流量成本高昂。
缘友一世4 个月前
模型量化·gptq
GPTQ大模型量化端到端实战:校准、压缩与部署评估通用流程数据准备 → 模型量化 → 效果评估 → 性能测试 → 部署测试。校准数据的处理思路:多数据源融合,针对不同业务场景进行数据配比优化。
人工智能培训4 个月前
语言模型·llm·数据采集·模型量化·多模态学习·具身智能·环境感知
具身智能如何在保证安全的前提下高效探索学习?具身智能的核心的是通过物理实体与环境的交互获取认知、优化行为,其探索学习本质是“试错—反馈—迭代”的循环。但物理交互的不可逆性(如机器人碰撞损坏、误触危险设备),使得“安全”与“高效”成为核心矛盾——过度强调安全会导致探索保守、学习低效,盲目追求高效则可能引发安全事故。结合当前技术研究成果,需从安全边界构建、学习范式优化、技术协同支撑三个层面系统设计,实现二者动态平衡,让具身智能既能“大胆探索”,也能“守住底线”。
阿杰学AI6 个月前
人工智能·ai·语言模型·自然语言处理·aigc·模型量化·ai-native
AI核心知识52——大语言模型之Model Quantization(简洁且通俗易懂版)模型量化 (Model Quantization) 是大语言模型落地应用中最实用、最接地气的技术。如果说预训练和微调是在打造一个“天才大脑”,那么量化就是给这个大脑做“瘦身手术”。
AndrewHZ6 个月前
pytorch·算法·芯片设计·模型量化·定点化·芯片算法·逻辑电路
【芯芯相印】什么是算法定点化?算法定点化(Algorithm Quantization)是将模型中32位/64位浮点数参数与计算过程转换为8位(或更低)整数的技术,核心价值在于降低算力消耗、减少内存占用、加速推理速度,是边缘设备部署与大模型轻量化的关键技术之一。本文从原理入手,结合PyTorch实战代码,详解定点化的实现流程、精度优化方法与工程实践要点,帮助开发者快速落地定点化模型。
缘友一世6 个月前
模型量化
大模型量化技术基础知识学习量化的主要优势包括:静态量化特别适用于以下场景:其中:x:原始浮点数q:量化后的整数scale:缩放因子
七夜zippoe6 个月前
性能优化·大模型·模型量化·ollama
使用Ollama在消费级硬件上运行大模型:从环境配置到企业级实战目录摘要1 技术原理与架构设计1.1 Ollama架构设计理念1.2 核心算法实现1.3 性能特性分析
玩电脑的辣条哥1 年前
大模型·模型量化·gptq·awq
模型量化AWQ和GPTQ哪种效果好?AWQGPTQ模型量化AWQ和GPTQ哪种效果好?关于AWQ(Adaptive Weight Quantization)和GPTQ(Generative Pre-trained Transformer Quantization)这两种量化方法的效果比较,具体优劣通常依赖于应用场景、模型结构和目标指标(如精度保持、推理速度、硬件支持等)。以下是两者的详细介绍与对比:
zhulangfly1 年前
模型量化·大模型压缩
模型压缩技术(二),模型量化让模型“轻装上阵”在人工智能蓬勃发展的浪潮下,大模型在自然语言处理、计算机视觉等诸多领域大放异彩,像知名的GPT以及各类开源大语言模型,其规模与复杂度持续攀升。然而,这一发展也带来了挑战,模型越大,对计算资源和存储资源的索求便越高。
Hoper.J2 年前
人工智能·python·llm·llama·模型量化·gguf·模型本地部署
从加载到对话:使用 Llama-cpp-python 本地运行量化 LLM 大模型(GGUF)(无需显卡)使用 Llama-cpp-python 在本地加载具有 70 亿参数的 LLM 大语言模型,通过这篇文章你将学会用代码创建属于自己的 GPT。 建议阅读完 19a 的「前言」和「模型下载」部分后再进行本文的阅读。
Hoper.J2 年前
模型量化·gptq·awq·gguf·ggml
GPTQ vs AWQ vs GGUF(GGML) 速览和 GGUF 文件命名规范简单介绍一下四者的区别。参考链接:GPTQ - 2210.17323 | AWQ - 2306.00978 | GGML | GGUF - docs | What is GGUF and GGML?
MonkeyKing_sunyuhua2 年前
模型量化
模型量化方法-GPTQGPTQ 是一种高效的量化方法,用于大规模语言模型的量化和加速推理。GPTQ 主要目标是在不显著降低模型性能的情况下,最大限度地减少模型的计算复杂度和内存占用,从而使得这些模型可以在资源有限的硬件上运行。
湫然Quin2 年前
大模型·llama·模型量化·llama.cpp·模型转换
llama.cpp 转化 huggingface 模型失败 解决路径./main -m ./models/book_q4_K_M -n 128报错:terminate called after throwing an instance of 'std::out_of_range' what(): unordered_map::at
BQW_2 年前
自然语言处理·llm·模型量化·bitnet·高效推理
【自然语言处理】【大模型】BitNet:用1-bit Transformer训练LLM论文地址:https://arxiv.org/pdf/2310.11453.pdf相关博客 【自然语言处理】【大模型】BitNet:用1-bit Transformer训练LLM 【自然语言处理】BitNet b1.58:1bit LLM时代 【自然语言处理】【长文本处理】RMT:能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版) 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BLOOM模
BQW_2 年前
自然语言处理·llm·大语言模型·模型量化·bitnet
【自然语言处理】BitNet b1.58:1bit LLM时代论文地址:https://arxiv.org/pdf/2402.17764.pdf相关博客 【自然语言处理】BitNet b1.58:1bit LLM时代 【自然语言处理】【长文本处理】RMT:能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版) 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BLOOM模型结构源码解析(单机版)
deephub3 年前
人工智能·深度学习·自然语言处理·大语言模型·模型量化
大语言模型量化方法对比:GPTQ、GGUF、AWQ在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。
新缸中之脑3 年前
模型量化
LLM大模型量化原理大型语言模型(LLM)可以用于文本生成、翻译、问答任务等。但是,LLM 也非常大(显然,大型语言模型)并且需要大量内存。 这对于手机和平板电脑等小型设备来说可能具有挑战性。