Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
陈天伟教授12 分钟前
人工智能应用-机器视觉:绘画大师 04.基于风格迁移的绘画大师
人工智能·神经网络·数码相机·生成对抗网络·dnn
爱打代码的小林15 分钟前
opencv基础(轮廓检测、绘制与特征)
人工智能·opencv·计算机视觉
AI浩20 分钟前
面向无监督多场景行人重识别的图像-文本知识建模
人工智能·目标检测
Takoony37 分钟前
深度学习多卡训练必须使用偶数张GPU吗?原理深度解析
人工智能·深度学习
翱翔的苍鹰41 分钟前
通俗、生动的方式 来讲解“卷积神经网络(CNN)
人工智能·神经网络·cnn
Irene.ll42 分钟前
DAY31 文件的拆分方法和规范
人工智能·机器学习
真上帝的左手43 分钟前
26. AI-大语言模型应用发展
人工智能
Coder_Boy_1 小时前
基于SpringAI的在线考试系统-阅卷评分模块时序图
java·人工智能·spring boot
小快说网安1 小时前
AI 短剧平台的 “保命符”:高防 IP 如何抵御流量攻击与业务中断风险
人工智能·网络协议·tcp/ip
Cigaretter71 小时前
Day 51 神经网络调参指南
人工智能·深度学习·神经网络