预训练模型

来自https://datawhalechina.github.io/base-llm/#/chapter5/13_Bert

BERT仅采用Transfromer中的编码器结构构建,其核心优势在于双向性,适用于语言理解

因为它在预测时能看到整个输入序列,而生成模型(以GPT为代表的),在预测下一个词时,必须严格遵守单向规则("只能看到过去")

BERT可以作为一个词向量生成工具,也是一个强大的预训练语言模型

BERT的工作范式

分为预训练和微调两个阶段

![[Pasted image 20260117234907.png]]

微调阶段以BERT模型作为 任务模型的基础结构,根据具体任务在BERT模型上增加一个小的、任务相关的输出层,最后在自己的任务数据集上对整个模型或仅对顶部的输出层进行训练

这种预训练+微调的训练范式,属于迁移学习的一种实现

从海量数据中学到的通用语言知识迁移到数据量有限的特定任务中

相关推荐
飞哥数智坊17 小时前
openclaw 不是全站第一!但它的爆发,足以引人深思
人工智能
zone773918 小时前
001:LangChain的LCEL语法学习
人工智能·后端·面试
程序员鱼皮18 小时前
微软竟然出了免费的 AI 应用开发课?!我已经学上了
人工智能·程序员·ai编程
DevnullCoffe18 小时前
基于 OpenClaw + Pangolinfo API 的 Amazon 价格监控系统:架构设计与最佳实践
人工智能·架构
Baihai_IDP18 小时前
回头看 RLHF、PPO、DPO、GRPO 与 RLVR 的发展路径
人工智能·llm·强化学习
aristotle19 小时前
Openclow安装保姆级教程
人工智能·程序员
明明如月学长19 小时前
从 Subagent 到 Team:Claude Code 把 AI 协同玩明白了
人工智能
叶落阁主19 小时前
揭秘 Happy:如何实现 AI 编程助手输出的实时同步
人工智能·claude·vibecoding
王鑫星19 小时前
Anthropic 把自己发明的协议捐了:MCP 入驻 Linux 基金会,OpenAI 竟然也签了名
人工智能
陈少波AI应用笔记19 小时前
OpenClaw安全实测:4种攻击方式与防护指南
人工智能