bert-base-chinese 判断上下句

利用BERT等模型来实现语义分割。BERT等模型在预训练的时候采用了NSP(next sentence prediction)的训练任务,因此BERT完全可以判断两个句子(段落)是否具有语义衔接关系。这里我们可以设置相似度阈值 MERGE_RATIO ,从前往后依次判断相邻两个段落的相似度分数是否大于MERGE_RATIO ,如果大于则合并,否则断开。

python 复制代码
import torch
from transformers import BertModel,BertTokenizer
#加载字典和分词工具,即tokenizer
tokenizer= BertTokenizer.from_pretrained('bert-base-chinese')  # 要跟预训练模型相匹配
#加载预训练模型
model= BertModel.from_pretrained('bert-base-chinese')
TEMPERATURE = 1 #温度函数 自定义
MERGE_RATIO = 0.9 #阈值分数 自定义

def is_nextsent(sent, next_sent):

        encoding = tokenizer(sent, next_sent, return_tensors="pt",truncation=True, padding=False)

        with torch.no_grad():
            outputs = model(**encoding, labels=torch.LongTensor([1]))
            logits = outputs.logits
            probs = torch.softmax(logits/TEMPERATURE, dim=1)
            next_sentence_prob = probs[:, 0].item()

        if next_sentence_prob <= MERGE_RATIO:

            return False
        else:
            return True
相关推荐
Jackson@ML13 小时前
自然语言处理概要
人工智能·自然语言处理·nlp
aiguangyuan2 天前
多模态AI实战:CLIP模型原理与代码深度剖析
人工智能·python·机器学习·nlp
啊巴矲2 天前
小白从零开始勇闯人工智能:bert自然语言框架(2)
人工智能·深度学习·bert
这张生成的图像能检测吗2 天前
(论文速读)Performer
计算机视觉·大模型·nlp·注意力机制
这张生成的图像能检测吗3 天前
(论文速读)GPT3:语言模型是一次性学习者
人工智能·深度学习·计算机视觉·自然语言处理·大模型·nlp·注意力机制
小鸡吃米…3 天前
自然语言处理的应用
人工智能·自然语言处理·nlp
小鸡吃米…3 天前
自然语言处理 —— 信息检索
人工智能·自然语言处理·nlp
Le0v1n3 天前
分词核心逻辑+BERT实操全指南
人工智能·bert·easyui
华农DrLai3 天前
OpenClaw vs 普通 API 调用:从编排者到委托者的根本性范式转变
人工智能·自然语言处理·大模型·nlp·transformer
All The Way North-4 天前
【硬核实战】基于GRU + 注意力机制 的Seq2Seq机器翻译模型——从数据预处理到训练推理全解析
pytorch·gru·nlp·机器翻译·注意力机制·seq2seq·teacher forcing