BERT 大模型

BERT 大模型

BERT 特点 :

  • 优点 : 在语言理解相关任务中表现很好
  • 缺点 : 更适合 NLU 任务,不适合 NLG 任务

BERT 架构:双向编码模型 :

  • Embedding 模块
  • Transformer 模块
  • 预微调模块

Embedding

Embedding 组成 :

  • Token Embeddings:词嵌入张量,第一个单词是CLS标志,用于分类任务
  • Segment Embeddings:句子分段嵌入张量,用于两个句子为输入的预训练任务
  • Position Embeddings:位置编码张量
  • 输出张量 : 这3个张量的直接加和结果

Transformer

Transformer :

  • 只用 Transformer 的 Encoder 部分 , 舍弃 Decoder
  • 预训练任务集中在训练 Transformer 中

预微调模块

  • 根据任务不同需求调整最后一层
  • 对于sequence-level的分类任务,取第一个CLStoken的final hidden state,加一层全连接层后进行softmax预测标签

预训练任务

MaskedLM(带 mask 的语言模型训练)

  • 输入句子中随机抽取 15% 的 token 作为训练对象
  • 80% 概率用 MASK 标记替换 token ,10% 概率用随机单词替换 token,10% 概率保持 token 不变

NextSentencePrediction(下一句话预测任务)

  • 输入句子对 (A , B) ,预测句子B是否是句子A的真实下一句
  • 50% 的 B 是原始文本中真实跟随A的下一句(正样本),50% 的 B 是随机抽取的一句话(负样本)
相关推荐
冬奇Lab13 小时前
Workflow 系列(02):设计范式——四层架构、三种 Context 传递模式与确认门设计
人工智能·agent·工作流引擎
冬奇Lab13 小时前
每日一个开源项目(第145篇):Trellis - 把项目记忆、规范和任务上下文持久化进代码仓库
人工智能·开源·资讯
有道AI情报局13 小时前
Harness即产品
人工智能·agent
罗西的思考14 小时前
机器人 / 强化学习】HIL-SERL:人类在环驱动的具身智能进化框架
人工智能·算法·机器学习
IT_陈寒15 小时前
SpringBoot自动配置的坑,我的API突然就404了
前端·人工智能·后端
笃行35015 小时前
从零到上线:用 EdgeOne Makers + CodeBuddy 搭一个「对账核对员」AI Agent
人工智能
用户68563262086916 小时前
Claude Code 乱猜字段名?我给它写了一个"数据库查询约束 Skill"
人工智能
你_好16 小时前
# 给你的产品嵌入一个「会操作界面的 AI 助手」
人工智能
ShallWeL16 小时前
【机器学习】(3)—— 线性回归:梯度下降
人工智能·机器学习
陈广亮16 小时前
Prompt、Context、Harness、Agentic:LLM 应用四层嵌套结构,搞清自己卡在哪一层
人工智能