BERT 大模型

BERT 大模型

BERT 特点 :

  • 优点 : 在语言理解相关任务中表现很好
  • 缺点 : 更适合 NLU 任务,不适合 NLG 任务

BERT 架构:双向编码模型 :

  • Embedding 模块
  • Transformer 模块
  • 预微调模块

Embedding

Embedding 组成 :

  • Token Embeddings:词嵌入张量,第一个单词是CLS标志,用于分类任务
  • Segment Embeddings:句子分段嵌入张量,用于两个句子为输入的预训练任务
  • Position Embeddings:位置编码张量
  • 输出张量 : 这3个张量的直接加和结果

Transformer

Transformer :

  • 只用 Transformer 的 Encoder 部分 , 舍弃 Decoder
  • 预训练任务集中在训练 Transformer 中

预微调模块

  • 根据任务不同需求调整最后一层
  • 对于sequence-level的分类任务,取第一个[CLS]token的final hidden state,加一层全连接层后进行softmax预测标签

预训练任务

MaskedLM(带 mask 的语言模型训练)

  • 输入句子中随机抽取 15% 的 token 作为训练对象
  • 80% 概率用 MASK 标记替换 token ,10% 概率用随机单词替换 token,10% 概率保持 token 不变

NextSentencePrediction(下一句话预测任务)

  • 输入句子对 (A , B) ,预测句子B是否是句子A的真实下一句
  • 50% 的 B 是原始文本中真实跟随A的下一句(正样本),50% 的 B 是随机抽取的一句话(负样本)
相关推荐
xsddys10 分钟前
极大似然估计与机器学习
人工智能·机器学习
jndingxin22 分钟前
OpenCV CUDA模块图像过滤------用于创建一个最大值盒式滤波器(Max Box Filter)函数createBoxMaxFilter()
人工智能·opencv·计算机视觉
未来智慧谷27 分钟前
微软 Build 2025:开启 AI 智能体时代的产业革命
人工智能·microsoft·英伟达
SunStriKE37 分钟前
SgLang代码细读-3. Cache
llm·源码阅读·推理
明似水39 分钟前
选择合适的AI模型:解析Trae编辑器中的多款模型及其应用场景
人工智能·编辑器
Listennnn1 小时前
LVLM-AFAH论文精读
人工智能·深度学习·机器学习
quququ_21381 小时前
互联网大厂内容社区业务场景Java面试实录:Spring全家桶、消息队列与AI赋能的深度探讨
java·spring boot·spring cloud·ai·面试·消息队列·内容社区
喜葵1 小时前
前端开发遇到 Bug,怎么办?如何利用 AI 高效解决问题
人工智能·bug
九河云1 小时前
电力设备制造企业数字化转型路径研究:从生产优化到生态重构
人工智能·科技·重构·制造
jdyzzy1 小时前
什么是 ERP、MES、PLM,生产制造中如何应用
大数据·人工智能·制造