Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
我是无敌小恐龙3 分钟前
Java SE 零基础入门 Day05 类与对象核心详解(封装+构造方法+内存+变量)
java·开发语言·人工智能·python·机器学习·计算机视觉·数据挖掘
~央千澈~8 分钟前
《2026鸿蒙NEXT纯血开发与AI辅助》第五章:选择成熟方案,创建第一个鸿蒙应用并成功运行-卓伊凡
人工智能·华为·harmonyos·harmony·harmony os
ting94520009 分钟前
Kimi-VL-A3B-Thinking 技术全解
人工智能·架构
monkeyhlj11 分钟前
AI Agent开发课程笔记记录 - 提升篇 About RAG
人工智能·笔记
qq_4112624213 分钟前
四博 AI 智能音箱 4G S3架构方案
人工智能·架构·智能音箱
skywalk816316 分钟前
基于 Kotti CMS 的 AI 共创社区插件 —— 实现 AI 资源共享、协作交流和项目孵化(先放弃)
人工智能
qq_4112624216 分钟前
四博AI智能拍学机方案设计
人工智能·智能音箱
格林威18 分钟前
面阵相机 vs 线阵相机:堡盟与Basler选型差异全解析 +C# 实战演示
开发语言·人工智能·数码相机·计算机视觉·c#·视觉检测·工业相机
爱上好庆祝23 分钟前
学习js的第三天
前端·css·人工智能·学习·计算机外设·js