李宏毅机器学习笔记25

目录

摘要

[1.Self-supervised Learning](#1.Self-supervised Learning)

2.BERT

MASKING

[Next sentence predition](#Next sentence predition)

3.Fine-tune


摘要

本篇文章继续学习李宏毅老师2025春季机器学习课程,学习内容是Self-supervised Learning的基础概念以及BERT训练方式和BERT用在下游任务的例子

1.Self-supervised Learning

首先supervised是什么?就是一个model,输入一个x输出一个y,要让输出的y是我们所期待的,就要有label的资料,用label的资料去训练。

那什么是self-supervised呢?假设我们现在有一堆文章但是没有标注,我们把资料分为两部分,一部分作为模型的输入,一部分作为模型的标注。然后输出的y让他跟作为标注的资料对比,越接近越好。这就是self-supervised learning。

2.BERT

BERT其实就是transformer的encoder,通常用在自然语言处理上,所以它的输入一般为文字。

MASKING

假设输入一段文字,我们随机盖住一些文字,即将文字换为特殊符号(mask),或者随机替换为其他文字。之后用盖住部分对应的BERT输出的向量,做一个linear transform(乘一个矩阵),再做softmax,得到包含所有中文字(常见,自己设定的长向量)一个分布。

那么BERT需要训练的是,这个盖住部分对应的BERT输出的向量,要与原本被盖住前的字越接近越好。训练时BERT和Linear一起训练,这个训练方法叫做masking。

Next sentence predition

另一个方法叫做Next sentence predition,意思是从资料库拿出两个句子,再两个句子间加入特殊的分隔符号(SEP),再两个句子的最前面加入一个特别的符号(CLS),把两个句子和符号一起丢入BERT,我们只取CLS对应的输出,做linear transform,它要做的是一个二元分类的问题,输出yes或no,他要预测的就是这两个句子是否是相接的。

3.Fine-tune

虽然BERT训练时,表现只是会做填空题或者判断两个句子是否可以拼接,但是它可以完成的任务不只是这样而已,还有downstream tasks,但是需要一些有标注的资料。

例子1,在sentiment analysis问题上,输入判断的句子,输出一个类别。

例子2,输入一个句子,输出一个句子但是他们长度相同,例如词性标注问题。

例子3,输入两个句子,输出一个类别,解决分类的问题。例如natural language inference(NLI),就是一个句子是前提,另一个句子是假设,机器要判断这个前提能不能推出这个假设,他们是否矛盾。

例子4,假设答案一定在文章中的问答系统,输入D,Q假设是中文字,那么每个d和q都代表一个中文字,输入是整篇文章D和问题Q,输出是两个正整数s,e。根据s,e从文章中截取出来的文字就是答案。

模型要做的事情就是训练两个向量,下图表示为一个橙色,一个蓝色,与文章中的每个文字进行inner product,选出最后得出的分数最高的,一个为起始位置,一个为末尾位置。

相关推荐
m0_380167145 小时前
面向开发者的Top10加密货币数据API(2026年最新)
大数据·人工智能·区块链
yyxx4121235 小时前
上海企业如何选择专业的钉钉服务商
java·大数据·人工智能·钉钉
未来和明天5 小时前
领嵌iLeadE-588边缘计算盒子,兼容Modbus、DLT645、OPC UA等多种行业协议,支持第三方平台对接。
人工智能·边缘计算
幂律智能5 小时前
盖章是合同的开始,那最后一步是什么
人工智能
大山佬5 小时前
RTOS 内存管理:从静态分配到堆碎片治理的工程实践
人工智能
chase_my_dream5 小时前
Cartographer详细讲解
c++·人工智能·自动驾驶
阿米亚波5 小时前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
AIHR数智引擎5 小时前
KPI物理失效:AI原生组织的效能重构与技能度量
人工智能·经验分享·职场和发展·重构·ai-native·aihr
自传.5 小时前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding
β添砖java5 小时前
深度学习(22)网络中的网络NiN
人工智能·深度学习