bert-base-chinese 判断上下句

利用BERT等模型来实现语义分割。BERT等模型在预训练的时候采用了NSP(next sentence prediction)的训练任务,因此BERT完全可以判断两个句子(段落)是否具有语义衔接关系。这里我们可以设置相似度阈值 MERGE_RATIO ,从前往后依次判断相邻两个段落的相似度分数是否大于MERGE_RATIO ,如果大于则合并,否则断开。

python 复制代码
import torch
from transformers import BertModel,BertTokenizer
#加载字典和分词工具,即tokenizer
tokenizer= BertTokenizer.from_pretrained('bert-base-chinese')  # 要跟预训练模型相匹配
#加载预训练模型
model= BertModel.from_pretrained('bert-base-chinese')
TEMPERATURE = 1 #温度函数 自定义
MERGE_RATIO = 0.9 #阈值分数 自定义

def is_nextsent(sent, next_sent):

        encoding = tokenizer(sent, next_sent, return_tensors="pt",truncation=True, padding=False)

        with torch.no_grad():
            outputs = model(**encoding, labels=torch.LongTensor([1]))
            logits = outputs.logits
            probs = torch.softmax(logits/TEMPERATURE, dim=1)
            next_sentence_prob = probs[:, 0].item()

        if next_sentence_prob <= MERGE_RATIO:

            return False
        else:
            return True
相关推荐
HXR_plume3 天前
【论文精读】生成式预训练之BART
人工智能·gpt·bert
神仙别闹4 天前
基于 Python 实现 BERT 的情感分析模型
开发语言·python·bert
小敬爱吃饭5 天前
知识图谱实战第一章:知识图谱全景解析其定义、技术演进与十大应用场景
人工智能·python·目标检测·自然语言处理·flask·nlp·知识图谱
Hello未来6 天前
llamafactory 的使用和安装
python·深度学习·语言模型·自然语言处理·nlp
user_admin_god12 天前
Opencode常见问题与优化排查
java·人工智能·自然语言处理·nlp·idea
天地沧海13 天前
GPT、BERT、LLaMA 这些模型类别怎么区分
gpt·bert·llama
深圳市快瞳科技有限公司13 天前
医保OCR与医保审核系统融合:智能校验规则设计与实现
nlp·ocr
王_teacher15 天前
RNN 循环神经网络 计算过程(通俗+公式版+运行实例)
人工智能·rnn·nlp
庚昀◟16 天前
NLP投满分项目梳理
人工智能·深度学习·自然语言处理·bert·多分类