BERT 大模型

BERT 大模型

BERT 特点 :

  • 优点 : 在语言理解相关任务中表现很好
  • 缺点 : 更适合 NLU 任务,不适合 NLG 任务

BERT 架构:双向编码模型 :

  • Embedding 模块
  • Transformer 模块
  • 预微调模块

Embedding

Embedding 组成 :

  • Token Embeddings:词嵌入张量,第一个单词是CLS标志,用于分类任务
  • Segment Embeddings:句子分段嵌入张量,用于两个句子为输入的预训练任务
  • Position Embeddings:位置编码张量
  • 输出张量 : 这3个张量的直接加和结果

Transformer

Transformer :

  • 只用 Transformer 的 Encoder 部分 , 舍弃 Decoder
  • 预训练任务集中在训练 Transformer 中

预微调模块

  • 根据任务不同需求调整最后一层
  • 对于sequence-level的分类任务,取第一个[CLS]token的final hidden state,加一层全连接层后进行softmax预测标签

预训练任务

MaskedLM(带 mask 的语言模型训练)

  • 输入句子中随机抽取 15% 的 token 作为训练对象
  • 80% 概率用 MASK 标记替换 token ,10% 概率用随机单词替换 token,10% 概率保持 token 不变

NextSentencePrediction(下一句话预测任务)

  • 输入句子对 (A , B) ,预测句子B是否是句子A的真实下一句
  • 50% 的 B 是原始文本中真实跟随A的下一句(正样本),50% 的 B 是随机抽取的一句话(负样本)
相关推荐
51WORLD官方账号38 分钟前
AI时代智慧园区新标杆:华为联合51WORLD打造智能运营中心2.0
人工智能·数字孪生
RockLiu@8055 小时前
PlainUSR|LIA: 追求更快的卷积网络实现高效的超分辨率重建
网络·人工智能·超分辨率重建
蹦蹦跳跳真可爱5896 小时前
Python----计算机视觉处理(Opencv:直方图均衡化)
人工智能·python·opencv·计算机视觉
胡耀超6 小时前
7.模型选择与评估:构建科学的参数调优与性能评估体系——Python数据挖掘代码实践
开发语言·人工智能·python·机器学习·数据挖掘
果冻人工智能6 小时前
课堂里的人工智能,或者说,狂野西部闯进了教育界
人工智能
wd2099886 小时前
PPT制作,分享下2025年国内外做PPT的AI工具,一健生成PPT
人工智能·ppt
百锦再7 小时前
DeepSeek与GPT的全方位对比及其为编程工作带来的巨大变革
人工智能·python·gpt·nlp·deepseek
Wnq100727 小时前
企业为何青睐数字孪生大屏?技术驱动与价值重构的双重逻辑
人工智能·机器学习·计算机视觉·重构·机器人·aigc
技能咖7 小时前
AI赋能职教革新:生成式人工智能(GAI)认证重构技能人才培养新范式
人工智能
灵途科技7 小时前
AWE 2025 |AI科技引领智能生活,传感器赋能智慧时代
人工智能·科技·生活