llama大模型部署

看模型加载的参数设置.

复制代码
import torch

# 初始化Half Tensor
h = torch.tensor([1.0,2.0,3.0], dtype=torch.half)
# h = torch.tensor([1.0,2.0,3.0], dtype=torch.float16) # 跟上面一行一样.

# 查看数据类型
print(h.dtype)
import accelerate
import bitsandbytes
from transformers import AutoTokenizer, AutoModelForCausalLM,TextIteratorStreamer
from transformers import AlbertTokenizer, AlbertModel
model = AlbertModel.from_pretrained('./albert',device_map='auto',torch_dtype=torch.float16,load_in_8bit=True,low_cpu_mem_usage=True)
# torch_dtype 模型本身的类型, 不写的话就自己根据权重文件查询出来.这个是权重文件本身决定的,一般在config.json里面
# load_in_8bit 会把模型转化为8bit类型.这个可以自己设置.

print(1)
  • low_cpu_mem_usage algorithm:

    复制代码
    This is an experimental function that loads the model using ~1x model size CPU memory
    
      Here is how it works:
    
      1. save which state_dict keys we have
      2. drop state_dict before the model is created, since the latter takes 1x model size CPU memory
      3. after the model has been instantiated switch to the meta device all params/buffers that
      are going to be replaced from the loaded state_dict
      4. load state_dict 2nd time
      5. replace the params/buffers from the state_dict
    
      Currently, it can't handle deepspeed ZeRO stage 3 and ignores loading errors

这个算法low_cpu_mem 如果设置True

那么他会进行.

把权重字典的keys保存下来.

然后把state_dict删除.

初始化模型.把需要加载的参数位置放到meta device里面.

再加载state_dict

可以节省cpu内存. 小内存时候需要打开.

相关推荐
@zulnger15 小时前
WebDriver API及对象识别技术
笔记·python·selenium
狒狒热知识15 小时前
赋能线下实体数字化转型178软文网GEO运营助力突破地域客源限制
大数据·人工智能
网络研究院15 小时前
人工智能行政命令为新的网络安全指令铺平道路
网络·人工智能·安全·指令·创新
知行产研15 小时前
森特股份:从BIPV龙头 到 零碳智慧矿山全栈服务商 的战略跃迁
人工智能
寻道码路16 小时前
LangChain4j Java AI 应用开发实战(十二):向量数据Chroma/Qdrant/Milvus实践对比
java·人工智能·ai·milvus
Wonderful U16 小时前
基于Python+Django的文件预览与转换系统:从架构设计到完整实现
后端·python·django
小二·16 小时前
AI API 调用优化实战
人工智能·ai
车车不吃香菇16 小时前
使用java实现即梦文生图 4.0,火山引擎「即梦 AI」文生图 Demo
人工智能·aigc·火山引擎
继续商行16 小时前
Go 内存逃逸分析与零内存分配优化:pprof 火焰图实战排查
人工智能
宝贝儿好16 小时前
【LLM】第四章:项目实操案例:文本情感分析
人工智能·深度学习·神经网络·机器学习·自然语言处理·lstm