Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
DuHz4 分钟前
汽车雷达高级信号处理和建模技术简介——文章精读(上)
linux·论文阅读·人工智能·汽车·信号处理
得一录7 分钟前
星图·微调试&全参数调试qwen3.1-B对比
人工智能·深度学习·机器学习·aigc·transformer
Clarence Liu14 分钟前
用大白话讲解人工智能(5) SVM支持向量机:找一条“最宽的分隔线“
人工智能·算法·支持向量机
宇擎智脑科技25 分钟前
Crawl4AI:面向大语言模型的开源智能网页爬虫框架深度解析
人工智能·爬虫·语言模型
冰西瓜60025 分钟前
深度学习的数学原理(六)—— 梯度消失与激活函数
人工智能·深度学习
青铜弟弟28 分钟前
LSTM与Transformer
人工智能·lstm·transformer
紫微AI30 分钟前
深度综述:Effective Harnesses for Long-Running Agents
人工智能·claude·anthropic
袁气满满~_~33 分钟前
深度学习笔记四
人工智能·笔记·深度学习
乌萨奇53733 分钟前
【2025考研复试】深度学习扩展知识:从ViT到多模态,以及简历项目挖掘策略(第11章复盘)
人工智能·深度学习·考研·计算机视觉·nlp·多模态
nimadan1237 分钟前
**免费专业的小说创作软件2025推荐,解锁高效写作新体验*
人工智能·python