Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
祝威廉6 小时前
摘下数据分析的皇冠:机器学习,InfiniSynapse 金融评分卡案例
人工智能·机器学习·金融·数据挖掘·数据分析
产品何同学6 小时前
复刻DeepSeek与GPT!AI智能对话Web高保真原型设计全解析
人工智能·gpt·墨刀·高保真原型·deepseek·ai智能写作·ai智能对话
杭州泽沃电子科技有限公司6 小时前
变流器与变压器:风电并网智能监测的“守护神”与“稳定锚”
人工智能·智能监测·发电
中國龍在廣州6 小时前
“太空数据中心”成AI必争之地?
人工智能·深度学习·算法·机器学习·机器人
多则惑少则明6 小时前
AI大模型实用(三)Java快速实现智能体整理(Springboot+LangChain4j)
人工智能·spring ai·langchain4j
恒星科通6 小时前
隧道高清晰广播系统,破解隧道声学难题 为司乘安全加码
人工智能·安全
qq_12498707536 小时前
基于Spring Boot的社区医院管理系统的设计与实现(源码+论文+部署+安装)
java·数据库·人工智能·spring boot·毕业设计
北邮刘老师6 小时前
语音、文本、图形,哪个才是最适合智能体的UI形式?
人工智能·智能体
光羽隹衡6 小时前
机器学习——逻辑回归
人工智能·机器学习·逻辑回归
薛不痒6 小时前
机器学习算法之逻辑回归下
人工智能·机器学习·逻辑回归