Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
YJlio1 分钟前
2025 我用 Sysinternals 打通 Windows 排障“证据链”:开机慢 / 安装失败 / 磁盘暴涨(三个真实案例复盘)
人工智能·windows·笔记
Felaim3 分钟前
【自动驾驶】SparseWorld-TC 论文总结(理想)
人工智能·机器学习·自动驾驶
2401_841495647 分钟前
【自然语言处理】自然语言理解的 “问题识别之术”
人工智能·自然语言处理·情感分类·决策·自动问答·自然语言理解·多源信息
Coder_Boy_7 分钟前
【人工智能应用技术】-基础实战-小程序应用(基于springAI+百度语音技术)智能语音开关
人工智能·百度·小程序
Coder_Boy_9 分钟前
【人工智能应用技术】-基础实战-小程序应用(基于springAI+百度语音技术)智能语音控制-Java部分核心逻辑
java·开发语言·人工智能·单片机
zhengfei61111 分钟前
全网第一款用于渗透测试和保护大型语言模型系统——DeepTeam
人工智能
爱笑的眼睛1115 分钟前
Flask上下文API:从并发陷阱到架构原理解析
java·人工智能·python·ai
科创致远18 分钟前
esop系统可量化 ROI 投资回报率客户案例故事-案例1:宁波某精密制造企业
大数据·人工智能·制造·精益工程
阿杰学AI19 分钟前
AI核心知识60——大语言模型之NLP(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·nlp·aigc·agi