Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
高锰酸钾_14 分钟前
机器学习基础 | KNN(K-近邻)
人工智能·机器学习
人邮异步社区14 分钟前
想要系统地学习扩散模型,应该怎么去做?
人工智能·学习·程序员·扩散模型
1***y17817 分钟前
区块链跨链桥、 跨链桥到底在解决什么问题?
大数据·人工智能·区块链
腾飞开源18 分钟前
09_Spring AI 干货笔记之多模态
图像处理·人工智能·spring ai·多模态大语言模型·多模态api·媒体输入·文本响应
CM莫问30 分钟前
详解机器学习经典模型(原理及应用)——岭回归
人工智能·python·算法·机器学习·回归
七牛云行业应用31 分钟前
告别RLHF?DeepSeek过程奖励(PRM)架构解析与推理数据流设计
人工智能·强化学习·大模型架构·deepseek
xcLeigh32 分钟前
AI的提示词专栏:Prompt 与传统机器学习特征工程的异同
人工智能·机器学习·ai·prompt·提示词
DuHz32 分钟前
论文阅读——Edge Impulse:面向微型机器学习的MLOps平台
论文阅读·人工智能·物联网·算法·机器学习·edge·边缘计算
诚丞成33 分钟前
机器学习——生成对抗网络(GANs):原理、进展与应用前景分析
人工智能·机器学习·生成对抗网络
盼小辉丶33 分钟前
图机器学习(7)——图神经网络 (Graph Neural Network, GNN)
人工智能·神经网络·图神经网络·图机器学习