快速验证哪个文件坏了模型文件损坏或不完整大语言模型开发 .llm

这个错误：

复制代码

safetensors_rust.SafetensorError: Error while deserializing header: MetadataIncompleteBuffer

发生在加载第 6/8 个分片时（进度 75%），几乎 100% 是因为模型文件损坏或不完整（corrupted / incomplete download）。

MetadataIncompleteBuffer 的核心含义：safetensors 文件的头部元数据（metadata）读取不完整，或者文件末尾的 tensor 数据偏移量没有覆盖整个文件（即文件被截断了，最后一个 tensor 的结束位置 ≠ 文件总大小）。
这通常不是代码问题，也不是 transformers / safetensors 库的 bug，而是文件本身有缺陷。

你加载到 6/8 说明前 5 个分片是完整的，第 6 个（model-00006-of-000008.safetensors）出了问题（最常见的就是这个分片下载中断或被覆盖/修改）。

快速验证哪个文件坏了

在终端运行：

bash 复制代码

# 检查所有分片的大小（官方标准大小大约是 8.2GB × 7 + 3.8GB × 1）
ls -lh /gemini/code/model/DeepSeek-R1-Qwen-32B/model-*.safetensors

# 如果你之前有下载记录，对比大小
# 官方 DeepSeek-R1-Distill-Qwen-32B 分片大小参考（从 HF 下载的）：
# 00001~00007: ~8.2-8.3 GB
# 00008: ~3.8-4.0 GB

# 额外检查文件是否能被 safetensors 库读取（安装 safetensors 如果没有）
pip install safetensors

python -c "
from safetensors import safe_open
files = ['/gemini/code/model/DeepSeek-R1-Qwen-32B/model-0000{}-of-000008.safetensors'.format(i) for i in range(1,9)]
for f in files:
    try:
        with safe_open(f, framework='pt') as ff:
            print(f'{f} OK, metadata: {ff.metadata()}')
    except Exception as e:
        print(f'{f} 损坏: {str(e)}')
"

这个小脚本会直接告诉你哪个分片抛出 MetadataIncompleteBuffer（大概率是 00006）。

推荐修复步骤（从最省事到最彻底）

最快：只重下坏掉的分片（推荐先试这个）

用 huggingface-cli 指定文件名重下（速度快，只下 8GB 左右）：
bash 复制代码
```
huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
  model-00006-of-000008.safetensors \
  --local-dir /gemini/code/model/DeepSeek-R1-Qwen-32B \
  --local-dir-use-symlinks False
```
- 如果不确定是第几个，就把 00006 改成 00001~00008 逐个试（或全下一次）。
- 下载完覆盖原文件后，再跑你的脚本。

如果不确定哪个坏了，或多个有问题 → 完整重新下载模型

bash 复制代码

# 先备份 tokenizer 等小文件（可选）
cp -r /gemini/code/model/DeepSeek-R1-Qwen-32B/{config.json,tokenizer*,generation_config.json} ~/backup/

# 删除旧的（小心！确认路径）
rm -rf /gemini/code/model/DeepSeek-R1-Qwen-32B/model-*.safetensors

# 用 huggingface-cli 全下（推荐，~65GB，但会校验完整性）
huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
  --local-dir /gemini/code/model/DeepSeek-R1-Distill-Qwen-32B \
  --local-dir-use-symlinks False

然后改脚本路径为 /gemini/code/model/DeepSeek-R1-Distill-Qwen-32B（注意加 Distill）。

如果下载总是中断（网络/代理问题）
- 加 --resume-download 参数（huggingface-cli 支持断点续传）
- 或者用 wget / aria2c 多线程下单个分片（从 https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B/blob/main/model-00006-of-000008.safetensors 下载链接）。
- 检查磁盘空间：至少留 100GB 空闲（下载 + 解压/加载都需要）。

加载时加容错参数（临时方案，不推荐长期用）

改脚本的 from_pretrained 加：

python 复制代码

model = AutoModelForCausalLM.from_pretrained(
    ...,
    ignore_mismatched_sizes=True,   # 有时能跳过轻微损坏
    force_download=False,
    resume_download=True,
)

但如果文件真的截断了，还是会失败。

小结

原因：safetensors 文件（大概率 model-00006-of-000008.safetensors）下载不完整或被损坏。
最有效解：用 huggingface-cli 重下坏的分片（或全模型）。
加载 32B 模型本来就慢（上次卡在 0% 是正常读盘），但这次是文件坏了导致中途崩溃。

跑完上面验证脚本或重下后，把结果/新错误贴出来，我继续帮你看。别急着跑完整 warmup，先确保模型能单独加载成功：

python 复制代码

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("/gemini/code/model/DeepSeek-R1-Qwen-32B", torch_dtype="bf16", device_map="auto")
print("加载成功！")

成功后再跑 warmup 脚本。

快速验证哪个文件坏了 模型文件损坏或不完整大语言模型开发 .llm

快速验证哪个文件坏了

推荐修复步骤（从最省事到最彻底）

小结

快速验证哪个文件坏了模型文件损坏或不完整大语言模型开发 .llm