BERT 大模型

BERT 大模型

BERT 特点 :

  • 优点 : 在语言理解相关任务中表现很好
  • 缺点 : 更适合 NLU 任务,不适合 NLG 任务

BERT 架构:双向编码模型 :

  • Embedding 模块
  • Transformer 模块
  • 预微调模块

Embedding

Embedding 组成 :

  • Token Embeddings:词嵌入张量,第一个单词是CLS标志,用于分类任务
  • Segment Embeddings:句子分段嵌入张量,用于两个句子为输入的预训练任务
  • Position Embeddings:位置编码张量
  • 输出张量 : 这3个张量的直接加和结果

Transformer

Transformer :

  • 只用 Transformer 的 Encoder 部分 , 舍弃 Decoder
  • 预训练任务集中在训练 Transformer 中

预微调模块

  • 根据任务不同需求调整最后一层
  • 对于sequence-level的分类任务,取第一个[CLS]token的final hidden state,加一层全连接层后进行softmax预测标签

预训练任务

MaskedLM(带 mask 的语言模型训练)

  • 输入句子中随机抽取 15% 的 token 作为训练对象
  • 80% 概率用 MASK 标记替换 token ,10% 概率用随机单词替换 token,10% 概率保持 token 不变

NextSentencePrediction(下一句话预测任务)

  • 输入句子对 (A , B) ,预测句子B是否是句子A的真实下一句
  • 50% 的 B 是原始文本中真实跟随A的下一句(正样本),50% 的 B 是随机抽取的一句话(负样本)
相关推荐
aneasystone本尊2 小时前
实战 LiteLLM 与监控告警系统的集成
人工智能
Xiaoxiaoxiao02092 小时前
GAEA:打造情感智能 AI 与 Web3 社区的未来
人工智能·web3·区块链
DO_Community2 小时前
碾压GPT-5,Qwen3-VL开源多模态新标杆:99.5%长视频定位准确率
人工智能·gpt·开源·llm·音视频
ChrisitineTX2 小时前
万字硬核拆解:Gemini 3.0 架构革新,多模态原生模型的天花板被捅破了?(1)
人工智能·架构
小白狮ww2 小时前
从几秒走向几分钟:长视频生成进入 LongCat 时刻
人工智能·深度学习·音视频·文生视频·图片处理·视频生成·图生视频
zhangfeng11332 小时前
百度免费大模型API深度解析 大厂llm大模型市场国产大模型API免费全平台对比指南,薅羊毛指南与实战建议 政策深度解析与
人工智能·百度·dubbo·生物信息
ar01232 小时前
智慧医疗下的AR远程协助应用前景
人工智能·ar
IT观测2 小时前
估图数科“闪估”AI智能体平台,荣膺2025年人工智能大模型金融创新大赛“标杆解决方案”
人工智能·金融
love530love2 小时前
【实践指南】Windows 下 Stable Diffusion WebUI 与 ComfyUI 模型库“完美共存”指南
人工智能·windows·python·stable diffusion·大模型·aigc·comfyui
数新网络2 小时前
CyberAI多模态数据平台焕新升级!七大核心功能解锁高效管理新体验
java·网络·人工智能