Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
有一个好名字13 分钟前
Spring AI ——Java开发者的AI集成神器
java·人工智能·spring
WordPress学习笔记13 分钟前
专业建外贸网站公司推荐
大数据·前端·人工智能
p***950027 分钟前
DeepSeek R1 简易指南:架构、本地部署和硬件要求
人工智能·架构
John_ToDebug33 分钟前
AI时代的浏览器内核开发:从“渲染引擎”到“智能中枢”的范式革命
人工智能·chrome
Julian.zhou34 分钟前
Anthropic破解长程任务难题:长期运行智能体的高效控制机制
大数据·人工智能
唯道行41 分钟前
计算机图形学·19 Shadings in OpenGL
人工智能·算法·计算机视觉·几何学·计算机图形学·opengl
陈奕昆1 小时前
n8n实战营Day2:复杂逻辑控制·HTTP请求+条件分支节点实操
网络·人工智能·python·网络协议·n8n
丝斯20111 小时前
AI学习笔记整理(22)—— AI核心技术(深度学习6)
人工智能·笔记·学习
liushangzaibeijing1 小时前
用 bert-base-chinese 做一个能上线的 AI 应用
人工智能·bert-base
依米s1 小时前
2021年人工智能大会核心议题《智联世界 众智成城》
人工智能·waic·人工智能大会+