Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
落叶,听雪2 分钟前
河南AI建站选哪家
人工智能·python
悟能不能悟4 分钟前
目前流行的AI IDE都有哪些
ide·人工智能
小霖家的混江龙6 分钟前
不再费脑, 写给 AI 爱好者的矩阵 (Matrix) 入门指南
人工智能·llm·aigc
小龙8 分钟前
【学习笔记】PyTorch 中.pth文件格式解析与可视化
人工智能·pytorch·笔记·学习
Gavin在路上9 分钟前
AI学习之AI应用框架选型篇
人工智能·学习
云和数据.ChenGuang9 分钟前
人工智能岗位面试题
人工智能
悟道心9 分钟前
3.自然语言处理NLP - RNN及其变体
人工智能·rnn·自然语言处理
jimmyleeee9 分钟前
大模型安全:Jailbreak
人工智能·安全
in12345lllp10 分钟前
IT运维AI化转型:系统性AI认证选择
运维·人工智能
艾莉丝努力练剑10 分钟前
【Linux进程(六)】程序地址空间深度实证:从内存布局验证到虚拟化理解的基石
大数据·linux·运维·服务器·人工智能·windows·centos