Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
人生都在赌2 分钟前
AI Agent从工具到生态的秘密:我们踩过的坑和3个月实践教训
人工智能·ci/cd·devops
北极的树6 分钟前
大模型上下文工程之Prefix Caching技术详解
人工智能·ai编程
奇舞精选8 分钟前
prompt的参数调优入门指南 - 小白也能轻松掌握
人工智能·aigc
DisonTangor8 分钟前
商汤InternLM发布最先进的开源多模态推理模型——Intern-S1
人工智能·深度学习·开源·aigc
wayman_he_何大民9 分钟前
RAG系统架构:让AI学会"查资料"的魔法
人工智能
泽安AI研习社10 分钟前
Coze 开源了,送上保姆级私有化部署方案【建议收藏】
人工智能
阿鼎081510 分钟前
揭秘大语言模型:从文字到数字,token 是如何变成向量的?
人工智能·算法
用户13951188112415 分钟前
AI日报 - 2025年07月26日
人工智能
大模型真好玩15 分钟前
深入浅出LangChain AI Agent智能体开发教程(四)—LangChain记忆存储与多轮对话机器人搭建
前端·人工智能·python
双向3315 分钟前
多智能体系统设计:协作、竞争与涌现行为
人工智能