Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
MiaoChuAI几秒前
豆包AI PPT与秒出PPT对比评测:谁更适合你?
人工智能·powerpoint
%KT%18 分钟前
简单聊聊多模态大语言模型MLLM
人工智能·语言模型·自然语言处理
唐某人丶27 分钟前
教你如何用 JS 实现一个 Agent 系统(1)—— 认识 Agentic System
前端·人工智能
泡泡茶壶_ovo33 分钟前
RORPCAP: retrieval-based objects and relations prompt for image captioning
人工智能·深度学习·计算机视觉·语言模型·prompt·多模态·imagecaptioning
MaxCode-138 分钟前
单智能体篇:Prompt工程艺术
大数据·人工智能·prompt
小鹿的工作手帐1 小时前
有鹿机器人:智慧清洁新时代的引领者
人工智能·科技·机器人
这张生成的图像能检测吗1 小时前
(论文速读)Logits DeConfusion-CLIP少样本学习
人工智能·计算机视觉·图像分类·clip
居然JuRan2 小时前
RAG系统开发中的12大痛点及应对策略
人工智能
sinat_286945192 小时前
AI服务器介绍
服务器·人工智能·算法·chatgpt·transformer
Kusunoki_D2 小时前
PyTorch 环境配置
人工智能·pytorch·python