Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
NAGNIP9 小时前
轻松搞懂全连接神经网络结构!
人工智能·算法·面试
moshuying10 小时前
别让AI焦虑,偷走你本该有的底气
前端·人工智能
董董灿是个攻城狮11 小时前
零基础带你用 AI 搞定命令行
人工智能
喝拿铁写前端13 小时前
Dify 构建 FE 工作流:前端团队可复用 AI 工作流实战
前端·人工智能
阿里云大数据AI技术14 小时前
阿里云 EMR Serverless Spark + DataWorks 技术实践:引领企业 Data+AI 一体化转型
人工智能
billhan201614 小时前
MCP 深入理解:协议原理与自定义开发
人工智能
Jahzo14 小时前
openclaw桌面端体验--ClawX
人工智能·github
billhan201614 小时前
Agent 开发全流程:从概念到生产
人工智能
threerocks14 小时前
过了个年,AI 圈变天了?但没人告诉你为什么
人工智能