自定义模型继承 Hugging 的 PreTrainedModel

问题背景

使用 HuggingFace 的 Trainer 进行训练,自定义模型继承 PreTrainedModel,希望能够通过 from_pretrained 容易地实现:从上次保存的 checkpoint 处继续训练。

问题描述

复制代码
Traceback (most recent call last):
  File "D:\PycharmProjects\gaze\SPIGA\train\train.py", line 60, in <module>
    .from_pretrained('checkpoint-1175')
  File "D:\Anaconda3\envs\transformers\lib\site-packages\transformers\modeling_utils.py", line 2535, in from_pretrained
    config, model_kwargs = cls.config_class.from_pretrained(
AttributeError: 'NoneType' object has no attribute 'from_pretrained'

问题分析

问题定位为:cls.config_class 为 None,结果导致 'NoneType' object has no attribute 'from_pretrained'

问题解决

自定义模型时,声明 config_class

python 复制代码
from transformers.configuration_utils import PretrainedConfig
from transformers.modeling)utils import PreTrainedModel

class CustomModel(PreTrainedModel):
	# 注意 1:在这里声明 config_class
    config_class = PretrainedConfig
    # 注意 2:重写的 __init__ 方法需要有 config 参数,不然会报错
    def __init__(self, config=PretrainedConfig(), num_landmarks=98, num_edges=15, steps=3, **kwargs):
        super().__init__(config=config)
        # .......
相关推荐
钟智强10 分钟前
线性映射(Linear Mapping)原理详解:机器学习中的数学基石
人工智能·算法·机器学习
PHOSKEY14 分钟前
光子精密QM系列闪测仪如何实现VR注塑外壳大型面平面度的秒级检测
机器学习·计算机视觉
红尘炼丹客18 分钟前
简析大模型(LLM)技术与量化交易
人工智能·金融
samroom22 分钟前
langchain+ollama+Next.js实现AI对话聊天框
javascript·人工智能·langchain
西西o27 分钟前
面向Agentic Coding的未来:豆包Doubao-Seed-Code模型深度测评与实战
人工智能
LO嘉嘉VE33 分钟前
学习笔记十六:多变量决策树
决策树·机器学习
行者常至为者常成38 分钟前
基于LangGraph的自我改进智能体:Reflection与Reflexion技术详解与实现
人工智能
菠菠萝宝1 小时前
【Java手搓RAGFlow】-9- RAG对话实现
java·开发语言·人工智能·llm·jenkins·openai
大佬,救命!!!2 小时前
最新的python3.14版本下仿真环境配置深度学习机器学习相关
开发语言·人工智能·python·深度学习·机器学习·学习笔记·环境配置
工业机器视觉设计和实现2 小时前
用caffe做个人脸识别
人工智能·深度学习·caffe