预训练模型

来自https://datawhalechina.github.io/base-llm/#/chapter5/13_Bert

BERT仅采用Transfromer中的编码器结构构建,其核心优势在于双向性,适用于语言理解

因为它在预测时能看到整个输入序列,而生成模型(以GPT为代表的),在预测下一个词时,必须严格遵守单向规则("只能看到过去")

BERT可以作为一个词向量生成工具,也是一个强大的预训练语言模型

BERT的工作范式

分为预训练和微调两个阶段

!\[Pasted image 20260117234907.png]

微调阶段以BERT模型作为 任务模型的基础结构,根据具体任务在BERT模型上增加一个小的、任务相关的输出层,最后在自己的任务数据集上对整个模型或仅对顶部的输出层进行训练

这种预训练+微调的训练范式,属于迁移学习的一种实现

从海量数据中学到的通用语言知识迁移到数据量有限的特定任务中

相关推荐
winfredzhang24 分钟前
用 MediaPipe 手势数字识别一键打开下载夹里的图片(Python + OpenCV 实战)
人工智能·python·opencv·google·mediapipe
Jooolin5 小时前
从 DeepSeek、Qwen 到 GPT:一次企业级 AI 知识库项目的模型选型复盘
人工智能·云原生·ai编程
不羁的木木5 小时前
HarmonyOS AI开发提效工具:DevEco Code & DevEco CLI - 实战:端侧AI文字识别应用
人工智能·华为·harmonyos
蓝速科技5 小时前
蓝速科技 AI 数字人导办能力实测与人机协同价值评估
人工智能·科技
云和数据.ChenGuang5 小时前
T5大模型
人工智能·机器人·pandas·数据预处理·数据训练
哈哈,柳暗花明5 小时前
人工智能专业术语详解(O)
人工智能·专业术语
不羁的木木5 小时前
HarmonyOS AI开发提效工具:DevEco Code & DevEco CLI - 初识与配置指南
人工智能·华为·harmonyos
Kagol5 小时前
Superpowers GSD gstack AgentSkills深度测评
前端·人工智能
一切皆是因缘际会6 小时前
存算一体芯片软件双模式:单字符驱动网络(普通CPU也能跑)
人工智能·物联网·ai·系统架构·架构设计·发布订阅·存算一体
字节逆旅6 小时前
Claude Code Router 接入过程的爬坑记录
人工智能·claude