Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
易观Analysys8 小时前
重构与崛起——OpenClaw时代的中国Agent产业生态报告
人工智能
kishu_iOS&AI8 小时前
NLP —— 英译法实例
人工智能·ai·自然语言处理
Alter12308 小时前
从“力大砖飞”到“拟态共生”,新华三定义AI基础设施的系统级进化
大数据·运维·人工智能
哔哩哔哩技术8 小时前
bili-fe-workflow —商业化智能开发工作流实践
人工智能
王木风9 小时前
终端里的编程副驾:DeepSeek-TUI-项目深度拆解,实测与原理分析
linux·运维·人工智能·rust·node.js
IT_陈寒9 小时前
为什么你应该学习JavaScript?
前端·人工智能·后端
Java技术小馆9 小时前
我用 30 分钟构建了 100% 数据主权的私有化健康库
人工智能
tq10869 小时前
认知连续性与组织墙的崩塌:AI原生时代的架构重构
人工智能·架构
Phodal9 小时前
AI 解决繁杂任务:从 /goal 到长时间异步 Agent 运行
人工智能
tedcloud1239 小时前
ppt-master部署教程:快速搭建智能演示文稿系统
服务器·人工智能·系统架构·游戏引擎·powerpoint