AI搭建preparationの(transformers01)BertTokenizer实现分词编码

一、下载

bert-base-chinese镜像下载

二、简介作用:

|-----------|-------------------|----------------|-----------------|--------|------|
| 模型 | 每个参数占用的字节大小 | 模型大小 | 模型大小 | 层数 | 头数 |
| GPT-1 | 4 个字节的 FP32 精度浮点数 | 117M | 446MB | 12 | 12 |
| GPT-2 | 2 个字节的 FP16 | 1.5亿到1.75亿 | 0.5GB到1.5GB | 48 | 16 |
| GPT-3 | 2 个字节的 FP16 | 1.75万亿(17500亿) | 350GB | 175 | 96个头 |

BERT(Bidirectional Encoder Representations from Transformers)

针对中文语言,HuggingFace 团队推出了 bert-base-chinese 模型,提供语言处理能力。

Transformers提供两大类的模型架构,一类用于语言生成NLG任务,比如GPT、GPT-2、Transformer-XL、XLNet和XLM,

另一类主要用于**语言理解任务** ,如Bert、DistilBert、RoBERTa、XLM.

三、环境依赖

pip install transformers==4.20.0

transformers · PyPI

四、实践

1、 vocab.txt 是已经设定好的词表

2、分词编码

利用transformers库中的BertTokenizer实现分词编码

python 复制代码
from transformers import BertTokenizer#111
bert_name = './bert-base-chinese'
tokenizer = BertTokenizer.from_pretrained(bert_name)
text = '窗前明月光,'
input_ids = tokenizer.encode(
    text,#需要编码的文本;
add_special_tokens=True,#是否添加特殊token,即CLS分类token和SEP分隔token;
max_length=128,#文本的最大长度
truncation=True,#使用truncation=True来明确地将示例截断为最大长度。
padding='max_length',#将批次中所有序列填充到最长序列的长度
return_tensors='pt'# 返回的tensor类型,有4种为 ['pt', 'tf', 'np', 'jax'] 分别代表 pytorch tensor、tensorflow tensor、int32数组形式和 jax tensor;
)
print('text:\n', text)
print('text字符数:', len(text))
print('input_ids:\n', input_ids)
print('input_ids大小:', input_ids.size())

3、特殊标记

整个词表的大小为21128个字,共有5种特殊token标记:

PAD\]: 填充标记,编码为0; \[UNK\]: 未知字符标记,即该字不在所定义的词表中,编码为100; \[CLS\]: 分类标记,蕴含整个文本的含义,编码为101; \[SEP\]: 分隔字符标记,用于断开两句话,编码为102; \[MASK\]: 掩码标记,该字被遮挡,编码为103; *** ** * ** *** ### 4、补充: 某些transformers版本 或者会产生一些提醒,但是可以正常运行,我们可以加上以下语句来清除警告 > from transformers import logging > > logging.set_verbosity_error()

相关推荐
用户51914958484536 分钟前
cURL变量管理中的缓冲区越界读取漏洞分析
人工智能·aigc
iFlow_AI44 分钟前
增强AI编程助手效能:使用开源Litho(deepwiki-rs)深度上下文赋能iFlow
人工智能·ai·ai编程·命令模式·iflow·iflow cli·心流ai助手
AI街潜水的八角1 小时前
深度学习杂草分割系统1:数据集说明(含下载链接)
人工智能·深度学习·分类
TG:@yunlaoda360 云老大1 小时前
谷歌云发布 Document AI Workbench 最新功能:自定义文档拆分器实现复杂文档处理自动化
运维·人工智能·自动化·googlecloud
苍何1 小时前
国内也有 GPT 质感的 App 了,阿里做到了。
人工智能
美团技术团队1 小时前
美团 LongCat 团队发布全模态一站式评测基准UNO-Bench
人工智能
top_designer2 小时前
Firefly 样式参考:AI 驱动的 UI 资产“无限”生成
前端·人工智能·ui·aigc·ux·设计师
强盛小灵通专卖员2 小时前
Airsim仿真、无人机、无人车、Lidar深度相机应用研究!
人工智能·无人机·sci·深度强化学习·airsim·小论文
MatrixOrigin2 小时前
矩阵起源成功登陆深圳“专精特新”专板,加速 AI 数据智能新进程!
人工智能
陈天伟教授2 小时前
人工智能技术- 语音语言- 02 机器诗人
人工智能