NLP学习与踩坑记录(持续更新版)

NLP学习与踩坑记录(持续更新版)

  • [OSError: Can't load tokenizer for 'bert-base-uncased'.](#OSError: Can't load tokenizer for 'bert-base-uncased'.)
  • [google.protobuf.message.DecodeError: Error parsing message](#google.protobuf.message.DecodeError: Error parsing message)
  • Deepspeed

本博客记录了博主在学习NLP时遇到了各种各样的问题与解决方法,供大家参考,希望踩过的坑不踩第二次!

OSError: Can't load tokenizer for 'bert-base-uncased'.

python 复制代码
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased", truncation_side=truncation_side)

博主在调用上述代码时出现此报错,原因是在国内因为网络问题无法下载huggingface上的模型。

解决办法一:检查自己的网络,在国内需要使用VPN保证可以访问huggingface,然后重新运行代码。若不行,将模型下载到本地,再重新运行代码。

bash 复制代码
huggingface-cli download --resume-download google-bert/bert-base-cased --local-dir /home/user/bert-base-cased

解决办法二:使用modelscope上的镜像,速度较快,但可能存在一些huggingface上的模型modelscope上没有。

python 复制代码
# pip install modelscope
from modelscope.hub.snapshot_download import snapshot_download
llm = snapshot_download('AI-ModelScope/bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained(llm, truncation_side=truncation_side)

解决办法三:Colab下载转移至Google Drive上,再从Google Drive上下载。

google.protobuf.message.DecodeError: Error parsing message

原因是通过git clone命令直接下载,并没有下载到正确的模型参数文件,只是一个文本文档,解决方法是下载huggingface上的模型需要使用huggingface-cli工具。

bash 复制代码
# 错误的下载方式
git clone https://huggingface.co/bert-base-uncased
# 正确的下载方式
pip install huggingface_hub
huggingface-cli download --resume-download [model_name] --local-dir [local path] 
# eg: huggingface-cli download --resume-download google-bert/bert-base-cased --local-dir /home/user/

Deepspeed

相关推荐
Amd7941 天前
Nuxt框架中内置组件详解及使用指南(二)
前端·vue·教程·开发·组件·代码·nuxt3
花生糖@2 天前
AI老照片生成视频
人工智能·ai·代码·ai实战
学霸小羊13 天前
【代码】c++几个常用的函数
开发语言·c++·笔记·算法·代码
Gamma and Beta1 个月前
MVSnet 代码详解(pytorch)
人工智能·深度学习·计算机视觉·代码·mvsnet
king_machine design2 个月前
verilog中输入序列不连续的序列检测
fpga开发·verilog·代码·输入序列不连续的序列检测
xflySnail2 个月前
ubuntu部署sonar与windows下使用sonar-scanner
linux·windows·ubuntu·代码·sonar·sonar-scanner
淘源码d3 个月前
SpringCloud +UniApp技术开发saas模式的智慧工地云平台源码,支持可视化大屏端、手机端、平板端、PC端
spring·spring cloud·uni-app·源码·智慧工地·代码·工地管理系统
老华带你飞3 个月前
社区养老服务系统|基于springboot社区养老服务系统设计与实现(源码+数据库+文档)
java·数据库·spring boot·论文·代码·毕设答疑·社区养老服务系统
懷淰メ3 个月前
python3--lxml pytoml.core.TomlError expected_equals报错解决
爬虫·python·报错解决·lxml