bert模型笔记

1.各预训练模型说明

BERT模型在英文数据集上提供了两种大小的模型,Base和Large。Uncased是意味着输入的词都会转变成小写,cased是意味着输入的词会保存其大写(在命名实体识别等项目上需要)。Multilingual是支持多语言的,最后一个是中文预训练模型。

复制代码
在这里我们选择BERT-Base,Uncased。下载下来之后是一个zip文件,解压后有ckpt文件,一个模型参数的json文件,一个词汇表txt文件。

2.参数错误

复制代码
当输出出现 args = parser.parse_args()标红时,将 args = parser.parse_args() 替换为:args, unknown = parser.parse_known_args()

3.命令行转换模型(tf到pytorch)chinese_L-12_H-768_A-12

复制代码
安装:pip install pytorch-pretrained-bert
解压地址:export BERT_BASE_DIR=/path/to/bert/chinese_L-12_H-768_A-12

(地址拼接)转换模型:pytorch_pretrained_bert convert_tf_checkpoint_to_pytorch BERT_BASE_DIR/bert_model.ckpt BERT_BASE_DIR/bert_config.json $BERT_BASE_DIR/pytorch_model.bin

4.bert模型的标签

复制代码
标签默认为0,1,2...n的方式标注,否则需转换。
相关推荐
副露のmagic9 分钟前
草履虫级 Transformer code by hand
深度学习·bert·transformer
橘子师兄11 分钟前
C++AI大模型接入SDK—ChatSDK封装
开发语言·c++·人工智能·后端
桂花很香,旭很美13 分钟前
基于 MCP 的 LLM Agent 实战:架构设计与工具编排
人工智能·nlp
Christo314 分钟前
TFS-2026《Fuzzy Multi-Subspace Clustering 》
人工智能·算法·机器学习·数据挖掘
五点钟科技22 分钟前
Deepseek-OCR:《DeepSeek-OCR: Contexts Optical Compression》 论文要点解读
人工智能·llm·ocr·论文·大语言模型·deepseek·deepseek-ocr
人工智能AI技术25 分钟前
【C#程序员入门AI】本地大模型落地:用Ollama+C#在本地运行Llama 3/Phi-3,无需云端
人工智能·c#
Agentcometoo34 分钟前
智能体来了从 0 到 1:规则、流程与模型的工程化协作顺序
人工智能·从0到1·智能体来了·时代趋势
工程师老罗37 分钟前
什么是目标检测?
人工智能·目标检测·计算机视觉
jarreyer38 分钟前
【AI 编程工具】
人工智能·编程工具
阿杰学AI39 分钟前
AI核心知识75——大语言模型之MAS (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·agent·多智能体协作·mas