Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
HyperAI超神经1 分钟前
具身智能资源汇总:机器人学习数据集,在线体验世界建模模型,英伟达/字节/小米等最新研究论文
人工智能·深度学习·学习·机器学习·机器人·ai编程·图形生成
地球没有花2 分钟前
调整warmup的batch优化tensorflow serving P99耗时毛刺
人工智能·python·tensorflow
道可云20 分钟前
道可云AI元宇宙平台入选2025年度视听系统典型案例
人工智能
AI-小柒1 小时前
从零入门大语言模型(LLM):系统学习路线与实践指南
大数据·开发语言·人工智能·学习·信息可视化·语言模型·自然语言处理
才聚PMP1 小时前
NPI项目如何用控制计划(CP)锁死 “量产一致性”?
人工智能
marteker1 小时前
现代租赁汽车的原厂锁车和解锁警报声替换成科基蛙的叫声
人工智能
remender9991 小时前
降本增效双赋能,IT人力外包成企业破局新路径
大数据·人工智能·物联网
Peter·Pan爱编程1 小时前
RegexBox:让正则表达式变得简单,AI 驱动的正则工具箱
人工智能·正则表达式
马士兵教育1 小时前
AI大模型通用智能体项目从原理到落地:Agent Skills 的核心逻辑与中间件 + 动态工具实践方案+架构项目实战!
人工智能·中间件·架构
C++ 老炮儿的技术栈1 小时前
KUKA机器人程序抓料
linux·运维·c语言·人工智能·机器人·库卡