Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
墨染天姬几秒前
【AI】AI时代驱动工程师的发展规划
人工智能
翼龙云_cloud3 分钟前
腾讯云代理商:腾讯云qGPU+TRTC实时音视频 AI 处理的黄金组合
人工智能·腾讯云·实时音视频·ai算力·腾讯云qgpu
MuYiLuck3 分钟前
01-AI 编程方式全景指南
人工智能·ai·ai编程
Cosolar7 分钟前
大模型量化技术全景深度解析:从FP16到INT4的完整演进与实战落地
人工智能·面试·架构
gz927cool9 分钟前
【系统架构】可观测性设计及其应用——面向智能体开发视角
人工智能·学习·ai·系统架构
llilian_1612 分钟前
如何甄选专业级失真度测量仪校准装置
人工智能·功能测试·单片机·嵌入式硬件·测试工具·51单片机
K姐研究社14 分钟前
国产大模型Vibe Coding横评:DeepSeek V4和GLM-5.1实测对比
大数据·人工智能
风落无尘15 分钟前
第六章《从感知到认知》 完整学习资料
人工智能·python·卷积神经网络·循环神经网络
XD74297163615 分钟前
科技晚报|2026年5月8日:AI 开始争夺默认入口与治理层
人工智能·科技·开发者工具·科技晚报
肖有米XTKF864616 分钟前
肖有米开发:双迹水肽新零售系统(现成模式)
大数据·人工智能·团队开发·零售