预训练模型

来自https://datawhalechina.github.io/base-llm/#/chapter5/13_Bert

BERT仅采用Transfromer中的编码器结构构建,其核心优势在于双向性,适用于语言理解

因为它在预测时能看到整个输入序列,而生成模型(以GPT为代表的),在预测下一个词时,必须严格遵守单向规则("只能看到过去")

BERT可以作为一个词向量生成工具,也是一个强大的预训练语言模型

BERT的工作范式

分为预训练和微调两个阶段

![[Pasted image 20260117234907.png]]

微调阶段以BERT模型作为 任务模型的基础结构,根据具体任务在BERT模型上增加一个小的、任务相关的输出层,最后在自己的任务数据集上对整个模型或仅对顶部的输出层进行训练

这种预训练+微调的训练范式,属于迁移学习的一种实现

从海量数据中学到的通用语言知识迁移到数据量有限的特定任务中

相关推荐
冻感糕人~4 小时前
【珍藏必备】ReAct框架实战指南:从零开始构建AI智能体,让大模型学会思考与行动
java·前端·人工智能·react.js·大模型·就业·大模型学习
hopsky4 小时前
openclaw AI 学会操作浏览器抓取数据
人工智能
慢半拍iii4 小时前
对比源码解读:ops-nn中卷积算子的硬件加速实现原理
人工智能·深度学习·ai·cann
晚烛4 小时前
CANN 赋能智慧医疗:构建合规、高效、可靠的医学影像 AI 推理系统
人工智能·flutter·零售
小白|4 小时前
CANN在自动驾驶感知中的应用:构建低延迟、高可靠多传感器融合推理系统
人工智能·机器学习·自动驾驶
一枕眠秋雨>o<5 小时前
深度解读 CANN ops-nn:昇腾 AI 神经网络算子库的核心引擎
人工智能·深度学习·神经网络
ringking1235 小时前
autoware-1:安装环境cuda/cudnn/tensorRT库函数的判断
人工智能·算法·机器学习
●VON5 小时前
CANN模型量化:从FP32到INT4的极致压缩与精度守护实战
人工智能
算法狗25 小时前
大模型面试题:混合精度训练的缺点是什么
人工智能·深度学习·机器学习·语言模型
收菜福星5 小时前
当AI Agent成为大学标配:2026年学习模式的深层变革
人工智能·学习