Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
new【一个】对象13 小时前
Python 包管理器uv
人工智能·windows·python
智塑未来13 小时前
高精度3D室内定位设备如何赋能机器人科研创新
人工智能·安全
captain_AIouo13 小时前
Captain AI全功能矩阵覆盖OZON运营每一个关键节点
大数据·人工智能·经验分享·矩阵·aigc
机器之心13 小时前
OpenAI杀疯了!砸40亿美元成立新公司、还祭出网络防御利器Daybreak
人工智能·openai
Kiyra13 小时前
限流不是加个计数器就行:用 Lua 脚本实现多维度原子限流
开发语言·人工智能·网络协议·职场和发展·架构·lua·ai-native
生物信息与育种13 小时前
生信数据格式,是否该为人工智能重新设计了?
人工智能
killerbasd13 小时前
总结 5.11
人工智能·机器学习
一只AI打工虾的自我修养13 小时前
DeepSeek V4.1 vs Ollama vs LocalClaw:Mac本地AI工具横评
人工智能·windows·macos
chen_ever13 小时前
大模型学习规划
人工智能·python·学习
是有头发的程序猿13 小时前
供应商风控调研:1688店铺资质详情API Python调用实战教程
大数据·人工智能·python