NLP之Bert介绍和简单示例

文章目录

  • [1. Bert 介绍](#1. Bert 介绍)
  • [2. 代码示例](#2. 代码示例)
    • [2.1 代码流程](#2.1 代码流程)

1. Bert 介绍






2. 代码示例

python 复制代码
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
input_ids = tokenizer.encode('欢迎来到Bert世界', return_tensors='tf')
print(input_ids)

输出内容:

python 复制代码
tf.Tensor([[ 101 3614 6816 3341 1168  100  686 4518  102]], shape=(1, 9), dtype=int32)

2.1 代码流程

代码片段涉及到了使用transformers库来加载一个预训练的BERT模型的分词器,并用它来对一段文本进行编码。以下是整体流程和目的的分步说明:

  1. 导入AutoTokenizer类:
    from transformers import AutoTokenizer这行代码导入了transformers库中的AutoTokenizer类。这个类可以自动检测并加载与给定模型相对应的分词器(tokenizer)。

  2. 加载分词器:
    tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")这行代码创建了一个分词器的实例。from_pretrained方法用于加载预先训练好的分词器,这里是"bert-base-chinese",专门为中文文本设计的BERT模型的分词器。

  3. 文本编码:
    input_ids = tokenizer.encode('欢迎来到Bert世界', return_tensors='tf')这行代码用分词器将提供的中文字符串'欢迎来到Bert世界'转换成BERT模型能够理解的输入格式,即一系列的数字ID。每个ID对应原始文本中的一个词或子词单位。return_tensors='tf'指定返回的格式为TensorFlow张量。

  4. 打印输出:
    print(input_ids)这行代码输出编码后的input_ids。这个输出是用于后续的模型预测或者微调过程的输入。

    python 复制代码
    tf.Tensor([[ 101 3614 6816 3341 1168  100  686 4518  102]], shape=(1, 9), dtype=int32)

目的:

这段代码的主要目的是为了准备数据,将自然语言文本转换为BERT模型可以接受的格式,这是使用BERT模型进行任务(如分类、问答等)前的标准步骤。

相关推荐
快乐非自愿1 分钟前
4月AI王炸:GPT-6、量子AI、具身智能,三大风口重构技术未来
人工智能·gpt·重构
G***技1 分钟前
面向边缘AI视觉的高性能算力模组解决方案——杰和科技LM2-100-V0深度解析
人工智能·ai边缘计算·嵌入式边缘ai
scott1985123 分钟前
VAE与扩散模型的reconstruction–generation dilemma
人工智能·扩散模型·生成式
思绪无限3 分钟前
YOLOv5至YOLOv12升级:草莓成熟度检测系统的设计与实现(完整代码+界面+数据集项目)
深度学习·yolo·目标检测·草莓成熟度检测·yolov12·yolo全家桶
今日说"法"7 分钟前
线性代数与矩阵运算:向量、矩阵、特征值、SVD 在 AI 中的全面应用
人工智能·线性代数·矩阵
前端技术7 分钟前
[特殊字符]️ Spring AI Alibaba Advisor基础应用
java·人工智能·spring
实在智能RPA10 分钟前
电商运营自动化AI工具有哪些?哪个最好用?——2026年全链路智能体选型深度指南
大数据·人工智能·ai·自动化
刘佬GEO11 分钟前
没时间写内容还能做 GEO:方法、流程与可操作方案
大数据·网络·人工智能·搜索引擎·ai
星速云11 分钟前
开源AI工具生态全景:20+工具如何对接统一API网关
人工智能·gpt·开源·api·claude
今日说"法"11 分钟前
线性代数与矩阵运算:AI 背后的数学基石
人工智能·线性代数·矩阵