ChatGLM2 大模型微调过程中遇到的一些坑及解决方法(更新中)

1. 模型下载问题

复制代码
OSError: We couldn't connect to 'https://huggingface.co' to load this file, couldn't find it in the cached files and it looks like bert-base-uncased is not the path to a directory containing a file named config.json.
Checkout your internet connection or see how to run the library in offline mode at 'https://huggingface.co/docs/transformers/installation#offline-mode'.

模型默认是从huggingface上下载的,需要科学上网。挂上梯子后即可下载,注意模型都帮你较大,会消耗很多流量。

2. 模型保存地址

下载后,会占用C盘大量空间,对于重复下载的模型文件,可以进行删除。以下是其存储路径。

Windows系统
复制代码
C:\Users\你的用户名\.cache\huggingface
Linux系统
复制代码
       ~/.cache/huggingface/
3. 模型无法量化

默认情况下,模型以 FP16 精度加载,运行上述代码需要大概 13GB 显存。如果你的 GPU 显存有限,可以尝试以量化方式加载模型,使用方法如下:

python 复制代码
model = AutoModel.from_pretrained("THUDM/chatglm2-6b-int4",trust_remote_code=True).cuda()
peft_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM, inference_mode=False,
    r=8,
    lora_alpha=32, lora_dropout=0.1,
)

model = get_peft_model(model, peft_config)

出现以下错误:

复制代码
ValueError: Target module QuantizedLinear() is not supported. Currently, only `torch.nn.Linear` and `Conv1D` are supported.

原因:以int4量化加载的模型是不支持进行微调的。

4. 分词器

以chatglm为例,有"chatglm2-6b" "chatglm2-6b-int8" "chatglm2-6b-int4" 三个版本,但是分词器tokenizer是共用的,不受模型量化加载方式改变。所以我们在加载tokenizer的时候,只需设置就可以了:

python 复制代码
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)
5. int-8量化的模型无法下载

在chatglm第一版里面,是提供int4 int8和fp16,三个版本的文件的,但是在chatglm2里,可以看到只给了fp16和int4两个版本的文件。

相关推荐
郝学胜-神的一滴1 分钟前
深度学习:CNN 与 RNN——解锁多模态处理能力
人工智能·python·rnn·深度学习·神经网络·cnn
CoderJia程序员甲5 分钟前
GitHub 热榜项目 - 日榜(2026-02-28)
人工智能·ai·大模型·github·ai教程
3DVisionary6 分钟前
汽车玻璃曲面偏差难控?蓝光3D扫描仪精准把关整车装配面差
人工智能·数码相机·计算机视觉·热失控·xtdic·xtom·动力电池测试
DevSecOps选型指南8 分钟前
直击AI全生命周期安全治理,悬镜正式发布原创多模态AIST新品
人工智能·安全·自然语言处理
jason_renyu9 分钟前
Windows平台高权限软件安全运行指南:虚拟机VMware与系统沙箱完整配置教程
人工智能·openclaw·windows安装虚拟机·vmware安装配置·windows沙箱使用说明
无心水14 分钟前
【OpenClaw:实战部署】6、一触即达:OpenClaw 统一接入飞书/钉钉/WhatsApp,打造你的随身AI指挥中心
人工智能·钉钉·飞书
颇有几分姿色14 分钟前
算力调度平台(四):训练项目容器化,构建专属训练镜像
人工智能
智能交通技术17 分钟前
iTSTech:世界模型的发展——在自动驾驶中的应用 2026
人工智能·机器学习·自动驾驶
爱打代码的小林17 分钟前
基于 Qwen2.5-1.5B 模型实现电影评论情感分类
人工智能·大模型
智算菩萨19 分钟前
元推理(Meta-Reasoning):让模型学会判断何时需要更深思考
人工智能·深度学习·机器学习·ai