Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
chem411114 分钟前
玩客云 边缘AI模型 本地搭建部署 llama.cpp qwen
linux·人工智能·llama
清 晨16 分钟前
TikTok Shop 跨境卖家最新合规与增长应对:从“内容冲量”升级为“商品与履约可控”
大数据·人工智能·跨境电商·tiktok·营销策略
轴测君18 分钟前
MobileNet V1
人工智能·pytorch·笔记
ASS-ASH29 分钟前
霸王色霸气的本质概括分析
人工智能·python·机器学习·大脑·脑电波
bst@微胖子33 分钟前
LlamaIndex数据准备 + Hugging Face模型微调 + LlamaIndex RAG集成实现企业产品知识库微调
人工智能·机器学习
CoCo的编程之路1 小时前
从“手写UI”到“智能生成”的工具深度评测
人工智能·ai编程·comate·智能编程助手·文心快码baiducomate
YH12312359h1 小时前
YOLOv8_PST模型玉米生长阶段自动识别与分类
人工智能·yolo·分类
水如烟1 小时前
孤能子视角:“隋唐“
人工智能
Aliex_git1 小时前
Claude Code 使用笔记(一)- 配置和基础
人工智能·笔记·学习·ai编程
组合缺一1 小时前
开发 Java MCP 就像写 Controller 一样简单,还支持 Java 8
java·人工智能·llm·solon·java8·mcp