预训练模型

来自https://datawhalechina.github.io/base-llm/#/chapter5/13_Bert

BERT仅采用Transfromer中的编码器结构构建,其核心优势在于双向性,适用于语言理解

因为它在预测时能看到整个输入序列,而生成模型(以GPT为代表的),在预测下一个词时,必须严格遵守单向规则("只能看到过去")

BERT可以作为一个词向量生成工具,也是一个强大的预训练语言模型

BERT的工作范式

分为预训练和微调两个阶段

![[Pasted image 20260117234907.png]]

微调阶段以BERT模型作为 任务模型的基础结构,根据具体任务在BERT模型上增加一个小的、任务相关的输出层,最后在自己的任务数据集上对整个模型或仅对顶部的输出层进行训练

这种预训练+微调的训练范式,属于迁移学习的一种实现

从海量数据中学到的通用语言知识迁移到数据量有限的特定任务中

相关推荐
甲维斯1 分钟前
Claude Code的六种种授权模式!安全和效率控制
人工智能·ai编程
curd_boy10 分钟前
【AI】生产级 Graph RAG 落地架构
人工智能·架构
夏天想14 分钟前
人类将从“执行者“变为“总导演”,学习Ai知识
人工智能·学习
yangshicong16 分钟前
第11章:结构化输出与数据提取 —— 让 AI 直接返回你想要的数据格式
数据库·人工智能·redis·python·langchain·ai编程
@PHARAOH20 分钟前
WHAT - AI 领域的 hermes 和 harnes
人工智能
kevin 121 分钟前
财务报销智能审核怎么落地?DocFlux 智能分类抽取,全过程溯源
人工智能·ocr
言之。29 分钟前
【Python】免费的中文 AI 配音方案
开发语言·人工智能·python
zhangxingchao31 分钟前
AI应用开发七:可以替代 RAG 的技术
前端·人工智能·后端
黎阳之光1 小时前
黎阳之光:以视频孪生重构智能监盘,为燃机打造新一代智慧电厂大脑
大数据·人工智能·算法·安全·数字孪生
汽车仪器仪表相关领域1 小时前
Kvaser Hybrid Pro 2xCAN/LIN 双通道可编程CAN/LIN通讯接口:一机双模可编程,汽车车身混合总线测试专用设备
人工智能·功能测试·安全·fpga开发·汽车·压力测试