TensorFlow的transformer类模型文件转换为pytorch

在进行transformer类模型的训练或开发时,我们会在GitHub、huggingface等平台上下载已有的模型文件。个人习惯用pytorch框架进行代码编写,然而很多时候在下载模型文件时,会遇到TensorFlow的模型,这是就涉及到转换的问题。

首先说一说两个框架的模型文件的后缀名区别:

  1. 在TensorFlow中,模型文件常用.ckpt存储
  2. 在pytorch中,模型文件常用.bin存储

以下是TensorFlow转换为pytorch的指令:

bash 复制代码
transformers-cli convert \
--model_type <如bert>\
--tf_checkpoint <原TensorFlow的ckpt文件地址>\
--config <配置json文件地址>\
--pytorch_dump_output <目标pytorch的bin文件地址>

最后补充一下------Transformer类的模型文件 ,其目录下通常都会有:
①模型文件
②模型索引文件
③tokenizer文件
④模型配置的json文件(通常是config.json)
⑤vocab词表

相关推荐
掘金一周9 分钟前
你们觉得房贷多少,没有压力 | 沸点周刊 4.30
前端·人工智能·后端
美狐美颜SDK开放平台9 分钟前
多场景美颜SDK解决方案:直播APP(iOS/安卓)开发接入详解
android·人工智能·ios·音视频·美颜sdk·第三方美颜sdk·短视频美颜sdk
桜吹雪24 分钟前
Langchain.js官方文档:构建具备按需加载技能的 SQL 助手
javascript·人工智能·node.js
ting945200028 分钟前
深入解析 Social Fetch 机制:原理、架构、应用场景、实战落地与性能优化全攻略
人工智能·性能优化·架构
阿瑞说项目管理28 分钟前
2026 实战入门指南:企业 Agent 到底能解决哪些工作问题?
大数据·人工智能·agent·智能体·企业级ai
ZOOOOOOU29 分钟前
云边端协同架构下,门禁权限引擎的离线决策与策略续存实现
大数据·人工智能·架构
han_30 分钟前
一篇看懂国内外主流大模型:GPT、Claude、Gemini、DeepSeek、通义千问有什么区别?
前端·人工智能·llm
1892280486130 分钟前
EMMC32G-TA28闪存EMMCH26M78103CCR
大数据·人工智能·缓存
新知图书33 分钟前
工作分解结构辅助生成(使用千问)
人工智能·千问·高效办公
love530love38 分钟前
ComfyUI MediaPipe 终极填坑:解决 incompatible function arguments 报错,基于代理模式的猴子补丁升级版
人工智能·windows·comfyui·mediapipe·猴子补丁·monkey patch·python 3.12