Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
&Darker几秒前
十三、大语言模型微调
人工智能·python·语言模型
DisonTangor3 分钟前
【腾讯拥抱开源】腾讯开源全新紧凑型视觉语言模型——企鹅VL
人工智能·计算机视觉·自然语言处理·视觉检测
北京耐用通信3 分钟前
耐达讯自动化CC-Link IE转Profinet网关:破解协议壁垒,赋能电机智控升级
人工智能·科技·物联网·网络协议·自动化·信息与通信
鲨鱼辣椒 �4 分钟前
openclaw在windows和mac上的安装以及AI技术中的几个关键概念,包括大模型、MCP协议、Skills、智能体和OpenClaw。
人工智能
nn在炼金5 分钟前
大语言模型 Agent 技术详解
人工智能·语言模型·自然语言处理
知秋丶8 分钟前
LangGraph 实战:如何用“双图编排”将多模态 OCR-RAG 做到生产级落地
人工智能·langchain·ocr
技术小甜甜13 分钟前
[AI工程化] 一个适合封闭内网环境的AI实战配置建议:Qwen + Dify + 本地AI自动化
人工智能·ai·自动化·创业创新·工作流
普密斯科技13 分钟前
精准把控每一处细节——FPGA焊点高度精准检测实施方案
人工智能·深度学习·数码相机·计算机视觉·fpga开发·测量
QYR_1116 分钟前
细胞涂片机行业深度解析:自动化技术如何赋能临床诊断与癌症筛查?
大数据·人工智能
EasyDSS16 分钟前
生态构建:视频直播点播视频会议EasyDSS如何打造一站式音视频服务生态
人工智能·m3u8·点播技术·智能转码