Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
zzh940773 分钟前
2026年国外四大主流镜像大模型深度对比:chatGPT、Gemini、Claude、Grok
人工智能·chatgpt
唐天下闻化5 分钟前
2026跨平台开发工具横评:从App到超级应用
人工智能
jinanwuhuaguo5 分钟前
《OpenClaw v2026.3.24-beta.1 深度技术分析报告》
运维·服务器·人工智能·openclaw
媒体人8886 分钟前
营口首家生成式引擎优化企业正式落地 辽宁粤穗科技开辟 AI 营销新赛道
人工智能·科技·搜索引擎·生成式引擎优化·geo优化
lisw0513 分钟前
AI科学中奇点的概念、研究现状与展望!
人工智能·深度学习·机器学习
qq_54702617917 分钟前
LangChain 消息与对话(Messages & Chat)
人工智能·microsoft·langchain
2601_9507607919 分钟前
FGF-basic蛋白的结构特征与生物学功能研究
人工智能·深度学习·蛋白
databook20 分钟前
数据团队该醒醒了:AI智能体不是你的下一个仪表盘
人工智能·数据分析·agent
互联网科技看点21 分钟前
2025-2026年研发管理软件推荐:产品研发全流程一体化靠谱解决方案评测
服务器·数据库·人工智能
imbackneverdie21 分钟前
如何从海量文献中跨界汲取创新灵感?
论文阅读·人工智能·ai·自然语言处理·aigc·ai写作·ai工具