Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
flyfox5 分钟前
OpenClaw(龙虾) Skills 实战开发指南
人工智能·python·源码
用户5191495848455 分钟前
Rust命令注入漏洞演示工具 (CVE-2024-24576)
人工智能·aigc
心痛的小鱼6 分钟前
OpenClaw 本地部署避坑指南:从 VPS 迁移到废旧笔记本
人工智能
AI探路者13 分钟前
深入理解AI Agent架构:从理论到MCP协议实践
人工智能
lovingsoft17 分钟前
Cursor IDE Claude 编辑模式全解析
人工智能
OpenCSG17 分钟前
OpenCSG重磅开源|CIMD开源,打造垂类数据集
人工智能·开源·大模型·数据集·opencsg·cimd
太难了啊21 分钟前
深入理解智能体 Reflection 模式:自我反思与迭代改进的实践指南
人工智能·后端
深藏功yu名26 分钟前
Day27:LangGraph 实战落地|Tool_RAG + 并行子图 + 持久化部署,打造工业级 AI Agent
人工智能·python·ai·pycharm·rag·langgrap
tq108635 分钟前
基于新一代报表世界观的报表系统架构
人工智能
帐篷Li38 分钟前
AI Token Platform:打造企业级 AI 服务计费平台,从零到一完整指南
人工智能