llama大模型部署

看模型加载的参数设置.

复制代码
import torch

# 初始化Half Tensor
h = torch.tensor([1.0,2.0,3.0], dtype=torch.half)
# h = torch.tensor([1.0,2.0,3.0], dtype=torch.float16) # 跟上面一行一样.

# 查看数据类型
print(h.dtype)
import accelerate
import bitsandbytes
from transformers import AutoTokenizer, AutoModelForCausalLM,TextIteratorStreamer
from transformers import AlbertTokenizer, AlbertModel
model = AlbertModel.from_pretrained('./albert',device_map='auto',torch_dtype=torch.float16,load_in_8bit=True,low_cpu_mem_usage=True)
# torch_dtype 模型本身的类型, 不写的话就自己根据权重文件查询出来.这个是权重文件本身决定的,一般在config.json里面
# load_in_8bit 会把模型转化为8bit类型.这个可以自己设置.

print(1)
  • low_cpu_mem_usage algorithm:

    复制代码
    This is an experimental function that loads the model using ~1x model size CPU memory
    
      Here is how it works:
    
      1. save which state_dict keys we have
      2. drop state_dict before the model is created, since the latter takes 1x model size CPU memory
      3. after the model has been instantiated switch to the meta device all params/buffers that
      are going to be replaced from the loaded state_dict
      4. load state_dict 2nd time
      5. replace the params/buffers from the state_dict
    
      Currently, it can't handle deepspeed ZeRO stage 3 and ignores loading errors

这个算法low_cpu_mem 如果设置True

那么他会进行.

把权重字典的keys保存下来.

然后把state_dict删除.

初始化模型.把需要加载的参数位置放到meta device里面.

再加载state_dict

可以节省cpu内存. 小内存时候需要打开.

相关推荐
数据皮皮侠7 小时前
1095 《中国城市统计年鉴》面板数据整理
大数据·数据库·人工智能·算法·制造
cd_949217217 小时前
可信数字身份筑牢安全底座,护航“十五五”智慧医疗新生态
大数据·人工智能·物联网
无忧智库7 小时前
数字中国新引擎:产业经济大脑的全景式解构与深度洞察(PPT)
人工智能
. . . . .7 小时前
AI资源集
人工智能
小码农吗7 小时前
AI CAD应用场景实战分析
人工智能·cad·ai应用场景·图纸设计
happyprince8 小时前
2026年03月25日全球AI前沿动态
人工智能
Asuka_Langly8 小时前
谢赛宁访谈深度摘录:当变量成为路径
人工智能·agi
YakSue8 小时前
学习python通过Ollama调用大语言模型
人工智能
xixixi777778 小时前
安全前置设计:在智能体、模型、网络中嵌入零信任、隐私计算、智能体防护,避免“先建设后补安全”
人工智能·安全·网络安全·ai·信息安全·零信任·智能体
新新学长搞科研8 小时前
【高届数人工智能会议】第七届人工智能、网络与信息技术国际学术会议(AINIT 2026)
运维·网络·人工智能·计算机网络·自动化·信号处理·可信计算技术