Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
罗必答2 小时前
意得辑ABSJU202优惠15%啦,新用户注册直减哦
人工智能
羞儿3 小时前
【读点论文】基于二维伽马函数的光照不均匀图像自适应校正算法
人工智能·算法·计算机视觉
SEU-WYL4 小时前
基于深度学习的文本框检测
人工智能·深度学习·dnn
电商运营花4 小时前
告别盲目跟风!1688竞品数据分析实战指南(图文解析)
大数据·人工智能·经验分享·笔记·数据挖掘·数据分析
Rjdeng4 小时前
【AI大模型】驱动的未来:穿戴设备如何革新血液、皮肤检测与营养健康管理
人工智能·ai·穿戴设备·血液分析·营养健康
baivfhpwxf20235 小时前
select_shape 借助形状特征选择区域
人工智能·笔记
夕小瑶5 小时前
守口如瓶,OpenAI刻意隐瞒的黑客攻击事件时隔一年被证实
人工智能·深度学习·机器学习·自然语言处理
啊取名真困难5 小时前
AI艺术创作机器人:探索科技与艺术的交汇点
人工智能·科技·机器人
龙的爹23335 小时前
论文 | Measuring and Narrowing the Compositionality Gap in Language Models
人工智能·深度学习·机器学习
樱花的浪漫5 小时前
将大型语言模型模块化打造协作智能体
人工智能·深度学习·语言模型·自然语言处理·知识图谱·agent