Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
智算菩萨28 分钟前
走向通用智能的大语言模型:具身、符号落地、因果与记忆的统一认知视角
人工智能·语言模型·自然语言处理
算家计算31 分钟前
千问一周破千万下载背后:AI应用需求的爆发与生态竞赛
人工智能·aigc·资讯
算家计算32 分钟前
基于GitHub Actions与算力平台API:构建端到端的模型自动训练与部署流水线
人工智能·机器学习
CharlieWang41 分钟前
AI Elements Vue,帮助你更快的构建 AI 应用程序
前端·人工智能·chatgpt
人工智能训练43 分钟前
在Windows系统Docker中使用wsl2、容器、windows文件路径三种不同挂载方式的区别和性能差异
运维·服务器·人工智能·windows·docker·容器·wsl2
数据智研1 小时前
【数据分享】中国税务年鉴(1993-2024)(1998缺失)
大数据·人工智能·信息可视化·数据分析
麻雀无能为力1 小时前
多媒体常用特征处理技术梳理
人工智能·深度学习·神经网络
居然JuRan2 小时前
部署大模型需要多少GPU显存?一文教你精准计算
人工智能
数据库知识分享者小北2 小时前
阿里云「RDS AI助手」正式上线:大模型驱动的数据库智能运维Copilot
人工智能
zstar-_2 小时前
我用AI做了一个3D六子棋游戏
人工智能·游戏