Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
哔哩哔哩技术7 分钟前
RIVAL:面向机器翻译的迭代对抗强化学习
人工智能
大模型真好玩12 分钟前
低代码Agent开发框架使用指南(六)—Coze 变量与长期记忆
人工智能·coze·mcp
金融Tech趋势派15 分钟前
企业微信私有化服务商怎么选?从数据安全与定制化需求看适配方向
大数据·人工智能·金融·企业微信·零售
IT_陈寒24 分钟前
Python开发者必看:这5个鲜为人知的Pandas技巧让你的数据处理效率提升50%
前端·人工智能·后端
YF云飞29 分钟前
AI编程:氛围狂欢还是工程灾难?
人工智能
光锥智能34 分钟前
具身智能3D数字人开放平台「星云」发布:魔珐科技让AI第一次拥有“身体”
人工智能·科技·3d
sendnews42 分钟前
红松APP首秀北京老博会,“有温度的科技”赋能退休兴趣生活
人工智能·物联网
美团技术团队1 小时前
ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享
人工智能
wwlsm_zql1 小时前
百度文心大模型再攀高峰:飞桨赋能AI,深度学习实力见证
人工智能·百度·paddlepaddle
王者鳜錸1 小时前
基于Selenium和AI的图像处理
图像处理·人工智能·selenium