NLP学习与踩坑记录(持续更新版)

NLP学习与踩坑记录(持续更新版)

  • [OSError: Can't load tokenizer for 'bert-base-uncased'.](#OSError: Can't load tokenizer for 'bert-base-uncased'.)
  • [google.protobuf.message.DecodeError: Error parsing message](#google.protobuf.message.DecodeError: Error parsing message)
  • Deepspeed

本博客记录了博主在学习NLP时遇到了各种各样的问题与解决方法,供大家参考,希望踩过的坑不踩第二次!

OSError: Can't load tokenizer for 'bert-base-uncased'.

python 复制代码
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased", truncation_side=truncation_side)

博主在调用上述代码时出现此报错,原因是在国内因为网络问题无法下载huggingface上的模型。

解决办法一:检查自己的网络,在国内需要使用VPN保证可以访问huggingface,然后重新运行代码。若不行,将模型下载到本地,再重新运行代码。

bash 复制代码
huggingface-cli download --resume-download google-bert/bert-base-cased --local-dir /home/user/bert-base-cased

解决办法二:使用modelscope上的镜像,速度较快,但可能存在一些huggingface上的模型modelscope上没有。

python 复制代码
# pip install modelscope
from modelscope.hub.snapshot_download import snapshot_download
llm = snapshot_download('AI-ModelScope/bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained(llm, truncation_side=truncation_side)

解决办法三:Colab下载转移至Google Drive上,再从Google Drive上下载。

google.protobuf.message.DecodeError: Error parsing message

原因是通过git clone命令直接下载,并没有下载到正确的模型参数文件,只是一个文本文档,解决方法是下载huggingface上的模型需要使用huggingface-cli工具。

bash 复制代码
# 错误的下载方式
git clone https://huggingface.co/bert-base-uncased
# 正确的下载方式
pip install huggingface_hub
huggingface-cli download --resume-download [model_name] --local-dir [local path] 
# eg: huggingface-cli download --resume-download google-bert/bert-base-cased --local-dir /home/user/

Deepspeed

相关推荐
程序员鱼皮16 天前
1024 程序员节,我做了个闯关小游戏!
前端·后端·计算机·程序员·互联网·编程·网站·代码
程序员鱼皮25 天前
程序员攻占小猿口算,炸哭小学生!
python·程序员·互联网·编程·网站·代码
soso19681 个月前
【AI自然语言处理应用】通过API调用通义晓蜜CCAI-对话分析AIO应用
人工智能·自然语言·ccai
网络研究院2 个月前
由于安全风险,安全领导者考虑禁止人工智能编码
人工智能·安全·开源·开发·风险·技术·代码
AI研习星球2 个月前
Pycharm配置ssh远程服务器解析器
服务器·人工智能·pycharm·自然语言·autodl·论文辅导·算法辅导
京东零售技术2 个月前
《代码整洁之道》-大师眼中的整洁代码是什么样
后端·代码
文心快码 Baidu Comate3 个月前
文心快码 Baidu Comate 前端工程师观点分享:以文心快码 Baidu Comate为例,智能代码助手需要什么(一)
人工智能·ai编程·代码·文心快码·智能编程助手
程序员鱼皮3 个月前
网易云音乐故障 2 小时,这次到底谁背锅?(今天记得领补偿)
前端·后端·计算机·程序员·互联网·编程·代码
Fulin_Gao3 个月前
【多模态大模型】LLaMA in arXiv 2023
llama·原理·代码·rope·rmsnorm·swiglu·flashattention
cxylay3 个月前
【matlab版】如何利用代码计算声音信号的声压级
开发语言·matlab·代码·波形图·声压·声压级·声压级图