bert-base-chinese 判断上下句

利用BERT等模型来实现语义分割。BERT等模型在预训练的时候采用了NSP(next sentence prediction)的训练任务,因此BERT完全可以判断两个句子(段落)是否具有语义衔接关系。这里我们可以设置相似度阈值 MERGE_RATIO ,从前往后依次判断相邻两个段落的相似度分数是否大于MERGE_RATIO ,如果大于则合并,否则断开。

python 复制代码
import torch
from transformers import BertModel,BertTokenizer
#加载字典和分词工具,即tokenizer
tokenizer= BertTokenizer.from_pretrained('bert-base-chinese')  # 要跟预训练模型相匹配
#加载预训练模型
model= BertModel.from_pretrained('bert-base-chinese')
TEMPERATURE = 1 #温度函数 自定义
MERGE_RATIO = 0.9 #阈值分数 自定义

def is_nextsent(sent, next_sent):

        encoding = tokenizer(sent, next_sent, return_tensors="pt",truncation=True, padding=False)

        with torch.no_grad():
            outputs = model(**encoding, labels=torch.LongTensor([1]))
            logits = outputs.logits
            probs = torch.softmax(logits/TEMPERATURE, dim=1)
            next_sentence_prob = probs[:, 0].item()

        if next_sentence_prob <= MERGE_RATIO:

            return False
        else:
            return True
相关推荐
平凡之路无尽路17 小时前
智能体设计模式:构建智能系统的实践指南
人工智能·设计模式·自然语言处理·nlp·aigc·vllm
平凡之路无尽路19 小时前
google11月agent发展白皮书
人工智能·语言模型·自然语言处理·nlp·aigc·ai编程·agi
峰兄1983053 天前
拆解国际大厂 Buck 型 DCDC 电路:LTC3542 的逆向探索之旅
nlp
渣渣苏4 天前
NLP从入门到精通
ai·大模型·nlp·lstm·transform
云雾J视界5 天前
当算法试图解决一切:技术解决方案主义的诱惑与陷阱
算法·google·bert·transformer·attention·算法治理
鹿角片ljp6 天前
基于 BERT 实现文本相似度打分:完整项目实战
人工智能·深度学习·bert
jerryinwuhan6 天前
情节节点对齐(Narrative Anchor Alignment)——叙事学方法
nlp
鹿角片ljp7 天前
基于 BiLSTM 的中文文本相似度计算项目实现
python·nlp·lstm
Francek Chen7 天前
【自然语言处理】预训练10:预训练BERT
人工智能·pytorch·深度学习·自然语言处理·bert