ChatGLM2 大模型微调过程中遇到的一些坑及解决方法(更新中)

1. 模型下载问题

复制代码
OSError: We couldn't connect to 'https://huggingface.co' to load this file, couldn't find it in the cached files and it looks like bert-base-uncased is not the path to a directory containing a file named config.json.
Checkout your internet connection or see how to run the library in offline mode at 'https://huggingface.co/docs/transformers/installation#offline-mode'.

模型默认是从huggingface上下载的,需要科学上网。挂上梯子后即可下载,注意模型都帮你较大,会消耗很多流量。

2. 模型保存地址

下载后,会占用C盘大量空间,对于重复下载的模型文件,可以进行删除。以下是其存储路径。

Windows系统
复制代码
C:\Users\你的用户名\.cache\huggingface
Linux系统
复制代码
       ~/.cache/huggingface/
3. 模型无法量化

默认情况下,模型以 FP16 精度加载,运行上述代码需要大概 13GB 显存。如果你的 GPU 显存有限,可以尝试以量化方式加载模型,使用方法如下:

python 复制代码
model = AutoModel.from_pretrained("THUDM/chatglm2-6b-int4",trust_remote_code=True).cuda()
peft_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM, inference_mode=False,
    r=8,
    lora_alpha=32, lora_dropout=0.1,
)

model = get_peft_model(model, peft_config)

出现以下错误:

复制代码
ValueError: Target module QuantizedLinear() is not supported. Currently, only `torch.nn.Linear` and `Conv1D` are supported.

原因:以int4量化加载的模型是不支持进行微调的。

4. 分词器

以chatglm为例,有"chatglm2-6b" "chatglm2-6b-int8" "chatglm2-6b-int4" 三个版本,但是分词器tokenizer是共用的,不受模型量化加载方式改变。所以我们在加载tokenizer的时候,只需设置就可以了:

python 复制代码
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)
5. int-8量化的模型无法下载

在chatglm第一版里面,是提供int4 int8和fp16,三个版本的文件的,但是在chatglm2里,可以看到只给了fp16和int4两个版本的文件。

相关推荐
qinyia几秒前
AI助手基于应用集成平台9台服务器CPU与内存资源分析及重启方案制定
运维·服务器·人工智能
TENSORTEC腾视科技1 分钟前
腾视科技重磅发布AD03行车记录仪DashCam!全维守护,智驭出行新生态
大数据·网络·人工智能·科技·ai·无人叉车解决方案·无人叉车及智能调度系统解决方案
孙高飞2 分钟前
万字长文:如何用 harness 的理念设计一个 AI 驱动的 UI 自动化工程
人工智能·ui·自动化
容智信息2 分钟前
不写SQL,不拉Excel:数据分析用“问”的
数据库·人工智能·笔记·数据分析·excel·知识图谱·知识库
XMAIPC_Robot3 分钟前
180FPS AI相机模组,轻巧大算力, 高性能双目同步摄像模组+搭配RK3588
人工智能·嵌入式硬件·深度学习·数码相机·fpga开发
机器学习之心4 分钟前
电池SOH估计和RUL预测,基于GRU门控循环单元的锂电池健康状态估计和剩余寿命预测,MATLAB代码
深度学习·matlab·gru·门控循环单元·锂电池健康状态估计
海盗12346 分钟前
AI新闻完整摘要与链接汇总-2026年5月8日
人工智能
程序员小白条9 分钟前
AI 编程辅助,从入门到真香
java·开发语言·数据库·人工智能·面试·职场和发展
SKY -dada11 分钟前
【无标题】
人工智能·chatgpt·能源·双向赋能
code_pgf12 分钟前
SAM在机器人融合感知的泛化应用
人工智能·计算机视觉·机器人