Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
阿豪Jeremy11 小时前
bert-base-chinese-ner微调总结——针对“领域实体微调”及“增量实体微调”任务
人工智能·深度学习·bert
KG_LLM图谱增强大模型11 小时前
知识图谱+大模型“驱动的生物制药企业下一代主数据管理:Neo4j知识图谱与GraphRAG及GenAI的深度整合
人工智能·大模型·知识图谱
DisonTangor11 小时前
【DeepSeek拥抱开源】通过可扩展查找实现的条件记忆:大型语言模型稀疏性的新维度
人工智能·语言模型·自然语言处理
lkbhua莱克瓦2411 小时前
稠密、稀疏与MoE:大模型时代的三重架构革命
人工智能·深度学习·机器学习·ai·架构
反向跟单策略11 小时前
期货反向跟单-贵金属牛市中的反向跟单密码
大数据·人工智能·学习·数据分析·区块链
K姐研究社11 小时前
实测百度文库AI PPT制作,一键排版美化生成专业PPT
人工智能·百度·powerpoint
万邦科技Lafite11 小时前
阿里巴巴商品详情API返回值:电商精准营销的关键
大数据·数据库·人工智能·电商开放平台
TMT星球11 小时前
康迪科技携核心电动产品亮相AIMExpo,渠道拓展再提速
人工智能·科技
kingmax5421200811 小时前
NOAI和IOAI竞赛学习路径
人工智能·学习·青少年编程
说私域11 小时前
基于AI智能名片链动2+1模式服务预约小程序的旅拍消费需求激发路径研究
大数据·人工智能·小程序