预训练模型

来自https://datawhalechina.github.io/base-llm/#/chapter5/13_Bert

BERT仅采用Transfromer中的编码器结构构建,其核心优势在于双向性,适用于语言理解

因为它在预测时能看到整个输入序列,而生成模型(以GPT为代表的),在预测下一个词时,必须严格遵守单向规则("只能看到过去")

BERT可以作为一个词向量生成工具,也是一个强大的预训练语言模型

BERT的工作范式

分为预训练和微调两个阶段

![[Pasted image 20260117234907.png]]

微调阶段以BERT模型作为 任务模型的基础结构,根据具体任务在BERT模型上增加一个小的、任务相关的输出层,最后在自己的任务数据集上对整个模型或仅对顶部的输出层进行训练

这种预训练+微调的训练范式,属于迁移学习的一种实现

从海量数据中学到的通用语言知识迁移到数据量有限的特定任务中

相关推荐
syounger2 小时前
日本云 ERP 市场加速升温:数字化转型进入深水区
人工智能
人工智能AI技术2 小时前
【Agent从入门到实践】08 主流Agent框架与平台:不用从零造轮子,快速上手开发
人工智能
edisao2 小时前
二。星链真正危险的地方,不在天上,而在网络底层
大数据·网络·人工智能·python·科技·机器学习
Python_Study20252 小时前
TOB机械制造企业获客困境与技术解决方案:从传统模式到数字化营销的架构升级
大数据·人工智能·架构
Gofarlic_OMS2 小时前
如何将MATLAB网络并发许可证闲置率降至10%以下
大数据·运维·服务器·开发语言·人工智能·matlab·制造
行业探路者2 小时前
提升产品宣传效果的二维码应用新趋势
大数据·人工智能·学习·二维码·产品介绍
点云SLAM2 小时前
Appearing 英文单词学习
人工智能·英文单词学习·雅思备考·呈现 / 表现·出现 / 显现·appearing·正在出现
一个会的不多的人2 小时前
人工智能基础篇:概念性名词浅谈(第二十九讲)
人工智能·制造·数字化转型
永远都不秃头的程序员(互关)2 小时前
【K-Means深度探索(三)】告别“初始陷阱”:K-Means++优化质心初始化全解析!
算法·机器学习·kmeans