bert-base-chinese 判断上下句

利用BERT等模型来实现语义分割。BERT等模型在预训练的时候采用了NSP(next sentence prediction)的训练任务,因此BERT完全可以判断两个句子(段落)是否具有语义衔接关系。这里我们可以设置相似度阈值 MERGE_RATIO ,从前往后依次判断相邻两个段落的相似度分数是否大于MERGE_RATIO ,如果大于则合并,否则断开。

python 复制代码
import torch
from transformers import BertModel,BertTokenizer
#加载字典和分词工具,即tokenizer
tokenizer= BertTokenizer.from_pretrained('bert-base-chinese')  # 要跟预训练模型相匹配
#加载预训练模型
model= BertModel.from_pretrained('bert-base-chinese')
TEMPERATURE = 1 #温度函数 自定义
MERGE_RATIO = 0.9 #阈值分数 自定义

def is_nextsent(sent, next_sent):

        encoding = tokenizer(sent, next_sent, return_tensors="pt",truncation=True, padding=False)

        with torch.no_grad():
            outputs = model(**encoding, labels=torch.LongTensor([1]))
            logits = outputs.logits
            probs = torch.softmax(logits/TEMPERATURE, dim=1)
            next_sentence_prob = probs[:, 0].item()

        if next_sentence_prob <= MERGE_RATIO:

            return False
        else:
            return True
相关推荐
2401_841495649 小时前
【自然语言处理】“bert-base-chinese”的基本用法及实战案例
人工智能·python·自然语言处理·bert·文本预处理·特征提取·训练验证
斐夷所非1 天前
自然语言处理中字节级与令牌级 Transformer 模型的对比分析
nlp
新兴ICT项目支撑2 天前
BERT文本分类超参数优化实战:从13小时到83秒的性能飞跃
人工智能·分类·bert
2401_841495642 天前
预训练基础模型简介
gpt·语言模型·自然语言处理·bert·transformer·大语言模型·预训练
AI人工智能+2 天前
文档抽取技术作为AI和自然语言处理的核心应用,正成为企业数字化转型的关键工具
人工智能·nlp·ocr·文档抽取
马诗剑3 天前
🚀 Qwen2.5-Coder 情感分析微调教程
nlp·通义灵码
Youkre4 天前
注意力机制:让神经网络学会“重点回顾”
nlp
Youkre4 天前
Seq2Seq:教神经网络“中译英”——从一句话到一段话
nlp
风雨中的小七4 天前
解密prompt系列61. 手搓代码沙箱与FastAPI-MCP实战
llm·nlp
Youkre5 天前
改进Word2Vec:从“暴力计算”到“聪明学习”
nlp