BERT 大模型

cpuCode2025-02-19 9:45

BERT 大模型

Embedding
Transformer
预微调模块
预训练任务

BERT 特点 :

优点 : 在语言理解相关任务中表现很好
缺点 : 更适合 NLU 任务，不适合 NLG 任务

BERT 架构：双向编码模型 :

Embedding 模块
Transformer 模块
预微调模块

Embedding

Embedding 组成 :

Token Embeddings：词嵌入张量，第一个单词是CLS标志，用于分类任务
Segment Embeddings：句子分段嵌入张量，用于两个句子为输入的预训练任务
Position Embeddings：位置编码张量
输出张量 : 这3个张量的直接加和结果

Transformer

Transformer :

只用 Transformer 的 Encoder 部分 , 舍弃 Decoder
预训练任务集中在训练 Transformer 中

预微调模块

根据任务不同需求调整最后一层
对于sequence-level的分类任务，取第一个[CLS]token的final hidden state，加一层全连接层后进行softmax预测标签

预训练任务

MaskedLM（带 mask 的语言模型训练）

输入句子中随机抽取 15% 的 token 作为训练对象
80% 概率用 MASK 标记替换 token ，10% 概率用随机单词替换 token，10% 概率保持 token 不变

NextSentencePrediction（下一句话预测任务）

输入句子对 (A , B) ，预测句子B是否是句子A的真实下一句
50% 的 B 是原始文本中真实跟随A的下一句（正样本），50% 的 B 是随机抽取的一句话（负样本）

上一篇：大模型工具大比拼：SGLang、Ollama、VLLM、LLaMA.cpp 如何选择？

下一篇：开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B-LoRA微调-LLaMA-Factory-单机单卡-V100（一）

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 04BongoCat - 跨平台键盘猫动画工具 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Labelme从安装到标注：零基础完整指南 08《大数据技术原理与应用》实验报告三熟悉HBase常用操作 09jdk21下载、安装（Windows、Linux、macOS）10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南