NLP学习与踩坑记录(持续更新版)

NLP学习与踩坑记录(持续更新版)

  • [OSError: Can't load tokenizer for 'bert-base-uncased'.](#OSError: Can't load tokenizer for 'bert-base-uncased'.)
  • [google.protobuf.message.DecodeError: Error parsing message](#google.protobuf.message.DecodeError: Error parsing message)
  • Deepspeed

本博客记录了博主在学习NLP时遇到了各种各样的问题与解决方法,供大家参考,希望踩过的坑不踩第二次!

OSError: Can't load tokenizer for 'bert-base-uncased'.

python 复制代码
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased", truncation_side=truncation_side)

博主在调用上述代码时出现此报错,原因是在国内因为网络问题无法下载huggingface上的模型。

解决办法一:检查自己的网络,在国内需要使用VPN保证可以访问huggingface,然后重新运行代码。若不行,将模型下载到本地,再重新运行代码。

bash 复制代码
huggingface-cli download --resume-download google-bert/bert-base-cased --local-dir /home/user/bert-base-cased

解决办法二:使用modelscope上的镜像,速度较快,但可能存在一些huggingface上的模型modelscope上没有。

python 复制代码
# pip install modelscope
from modelscope.hub.snapshot_download import snapshot_download
llm = snapshot_download('AI-ModelScope/bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained(llm, truncation_side=truncation_side)

解决办法三:Colab下载转移至Google Drive上,再从Google Drive上下载。

google.protobuf.message.DecodeError: Error parsing message

原因是通过git clone命令直接下载,并没有下载到正确的模型参数文件,只是一个文本文档,解决方法是下载huggingface上的模型需要使用huggingface-cli工具。

bash 复制代码
# 错误的下载方式
git clone https://huggingface.co/bert-base-uncased
# 正确的下载方式
pip install huggingface_hub
huggingface-cli download --resume-download [model_name] --local-dir [local path] 
# eg: huggingface-cli download --resume-download google-bert/bert-base-cased --local-dir /home/user/

Deepspeed

相关推荐
网络研究院16 天前
对 JavaScript 说“不”
开发语言·javascript·typescript·ecmascript·编程·代码
程序员鱼皮21 天前
网站刚上线,就被 DDoS 攻击炸了!
后端·计算机·互联网·网站·代码·编程经验
禾乃儿_xiuer1 个月前
《用Python画蔡徐坤:艺术与编程的结合》
开发语言·python·信息可视化·表白·代码·美术·简单代码
winfredzhang1 个月前
解决 Docker Desktop 启动报错:Docker Desktop is unable to detect a Hypervisor
docker·desktop·报错解决
程序员鱼皮2 个月前
1024 程序员节,我做了个闯关小游戏!
前端·后端·计算机·程序员·互联网·编程·网站·代码
程序员鱼皮2 个月前
程序员攻占小猿口算,炸哭小学生!
python·程序员·互联网·编程·网站·代码
soso19683 个月前
【AI自然语言处理应用】通过API调用通义晓蜜CCAI-对话分析AIO应用
人工智能·自然语言·ccai
网络研究院3 个月前
由于安全风险,安全领导者考虑禁止人工智能编码
人工智能·安全·开源·开发·风险·技术·代码
AI研习星球3 个月前
Pycharm配置ssh远程服务器解析器
服务器·人工智能·pycharm·自然语言·autodl·论文辅导·算法辅导
京东零售技术3 个月前
《代码整洁之道》-大师眼中的整洁代码是什么样
后端·代码