Bert 将长段分成句子放在一个batch输入

bash 复制代码
from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里

使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐
Codebee7 小时前
当软件从"工具"进化为"伙伴"ooderAgent 产品设计解析
人工智能
GISer_Jing7 小时前
Claude Code的「渐进式披露」——让AI Agent从“信息过载”到“精准高效”
前端·人工智能·aigc
猫咪老师7 小时前
发现一篇非常好的AI Memory综述!
人工智能·agent
贵慜_Derek7 小时前
RAG 检索老翻车?很多时候是切块把话说「半截」
人工智能
江汉似年7 小时前
World Model 发展,从生成、控制到表征的范式之争
人工智能·具身智能
zandy10117 小时前
指标管理的AI自治之路:衡石平台如何实现异常检测、血缘分析与智能推荐的自动化治理
运维·人工智能·自动化
曾小蛙7 小时前
【 AI 编程】Claude Code / Codex / Gemini CLI 全方位辅助工具
人工智能·claude·codex·cc-switch
龙文浩_7 小时前
AI机器学习中NumPy随机种子的应用
人工智能·python·深度学习·神经网络·机器学习
AI先驱体验官7 小时前
数字人时代来临:实时互动数字人解决方案深度解析
大数据·网络·人工智能·深度学习·机器学习·重构·实时互动
万里鹏程转瞬至7 小时前
LLM训练基本知识的深入浅出
人工智能·深度学习·aigc