预训练模型

来自https://datawhalechina.github.io/base-llm/#/chapter5/13_Bert

BERT仅采用Transfromer中的编码器结构构建,其核心优势在于双向性,适用于语言理解

因为它在预测时能看到整个输入序列,而生成模型(以GPT为代表的),在预测下一个词时,必须严格遵守单向规则("只能看到过去")

BERT可以作为一个词向量生成工具,也是一个强大的预训练语言模型

BERT的工作范式

分为预训练和微调两个阶段

![[Pasted image 20260117234907.png]]

微调阶段以BERT模型作为 任务模型的基础结构,根据具体任务在BERT模型上增加一个小的、任务相关的输出层,最后在自己的任务数据集上对整个模型或仅对顶部的输出层进行训练

这种预训练+微调的训练范式,属于迁移学习的一种实现

从海量数据中学到的通用语言知识迁移到数据量有限的特定任务中

相关推荐
V搜xhliang0246几秒前
人工智能在医学教育中的革新潜力与挑战
人工智能
带娃的IT创业者1 分钟前
MLP vs Transformer:不同问题用不同工具
人工智能·深度学习·神经网络·transformer·架构设计·mlp
l14372332672 分钟前
AI电影解说的技术链路拆解:从视频理解到自动剪辑
人工智能·音视频
不知名的老吴5 分钟前
Web开发方向之人工智能核心技术线
人工智能
easy_coder6 分钟前
AI Agent 真正的上限,不在 Skill 数量,而在边界设计
人工智能·云计算
咚咚王者6 分钟前
人工智能之知识处理 知识推理 第四章 神经符号融合
人工智能
easyCesium12 分钟前
无人机平台-ai及智能体
人工智能·无人机
liliangcsdn12 分钟前
ChromaDB距离计算公式示例
人工智能·算法·机器学习
lifallen15 分钟前
Flink Agent:RunnerContext 注入与装配演进分析
java·大数据·人工智能·语言模型·flink
搬砖者(视觉算法工程师)15 分钟前
下一代人工智能技术:从大语言模型(LLM)到世界模型(WM)
人工智能