Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
小王毕业啦2 分钟前
(1990-2024年)个股交易活跃度、个股换手率
大数据·人工智能·数据挖掘·数据分析·区块链·社科数据
F_U_N_5 分钟前
新手不会搭建知识平台 手把手教你 PandaWiki 零基础快速部署
人工智能·开源
N串7 分钟前
2.7 公司内部的“阶级”是什么
大数据·人工智能
guo_xiao_xiao_10 分钟前
YOLOv11果园果树苹果目标检测数据集-52张-apple-1_4
人工智能·yolo·目标检测
派星11 分钟前
Jetson Orin Nano连接CSI摄像头并实现Gstreamer推流
人工智能·后端
XingshiXu18 分钟前
【NWAFU×KUL】不打扰,也能看懂一头牛:非接触式技术正在改变精准畜牧
人工智能·python·深度学习·目标检测·机器学习·计算机视觉·目标跟踪
hrhcode19 分钟前
DeepSeek-V4 全面解析:百万上下文时代的架构革命
人工智能·云计算·deepseekv4
配奇21 分钟前
自然语言处理基础
人工智能·自然语言处理
Evand J22 分钟前
课题介绍:基于 EKF 与 UKF 的二维雷达目标跟踪仿真与性能对比
人工智能·计算机视觉·目标跟踪