Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
梦帮科技13 小时前
量子计算+AI:下一代智能的终极形态?(第二部分)
人工智能·机器学习·ai编程·量子计算
周杰伦_Jay13 小时前
【深度拆解智能体技术底层逻辑】从架构到实现的完整解析
人工智能·机器学习·架构·开源·论文·peai2026
EXtreme3513 小时前
【DL】从零构建智能:神经网络前向传播、反向传播与激活函数深度解密
人工智能·深度学习·神经网络·梯度下降·反向传播·链式法则
Gsen281913 小时前
AI大模型从0到1记录学习 大模型技术之机器学习 day60-day69
人工智能·学习·机器学习
“初生”13 小时前
2026 最新指南:国内如何使用 Claude Pro?Claude 4.5 中文版镜像站全攻略
人工智能·ai编程
SCBAiotAigc13 小时前
在Ubuntu上使用docker compose安装普通(不支持GPU)的Ollama服务
人工智能·python·ubuntu·ollama
拓端研究室13 小时前
专题:2025游戏行业全景报告:VC投资、AI应用、用户行为|附200+份报告PDF、数据、可视化模板汇总下载
人工智能
l1t13 小时前
DeepSeek对Oracle 数据库新特性 SQL 宏的总结
数据库·人工智能·sql·oracle
码界奇点13 小时前
基于Go语言的AI接口管理与分发系统设计与实现
开发语言·人工智能·ai·golang·毕业设计·go语言·源代码管理
Robot侠14 小时前
ROS1从入门到精通 8:Launch文件编写(多节点协同管理)
人工智能·机器学习·机器人·ros·机器人操作系统