李宏毅机器学习笔记25

目录

摘要

[1.Self-supervised Learning](#1.Self-supervised Learning)

2.BERT

MASKING

[Next sentence predition](#Next sentence predition)

3.Fine-tune


摘要

本篇文章继续学习李宏毅老师2025春季机器学习课程,学习内容是Self-supervised Learning的基础概念以及BERT训练方式和BERT用在下游任务的例子

1.Self-supervised Learning

首先supervised是什么?就是一个model,输入一个x输出一个y,要让输出的y是我们所期待的,就要有label的资料,用label的资料去训练。

那什么是self-supervised呢?假设我们现在有一堆文章但是没有标注,我们把资料分为两部分,一部分作为模型的输入,一部分作为模型的标注。然后输出的y让他跟作为标注的资料对比,越接近越好。这就是self-supervised learning。

2.BERT

BERT其实就是transformer的encoder,通常用在自然语言处理上,所以它的输入一般为文字。

MASKING

假设输入一段文字,我们随机盖住一些文字,即将文字换为特殊符号(mask),或者随机替换为其他文字。之后用盖住部分对应的BERT输出的向量,做一个linear transform(乘一个矩阵),再做softmax,得到包含所有中文字(常见,自己设定的长向量)一个分布。

那么BERT需要训练的是,这个盖住部分对应的BERT输出的向量,要与原本被盖住前的字越接近越好。训练时BERT和Linear一起训练,这个训练方法叫做masking。

Next sentence predition

另一个方法叫做Next sentence predition,意思是从资料库拿出两个句子,再两个句子间加入特殊的分隔符号(SEP),再两个句子的最前面加入一个特别的符号(CLS),把两个句子和符号一起丢入BERT,我们只取CLS对应的输出,做linear transform,它要做的是一个二元分类的问题,输出yes或no,他要预测的就是这两个句子是否是相接的。

3.Fine-tune

虽然BERT训练时,表现只是会做填空题或者判断两个句子是否可以拼接,但是它可以完成的任务不只是这样而已,还有downstream tasks,但是需要一些有标注的资料。

例子1,在sentiment analysis问题上,输入判断的句子,输出一个类别。

例子2,输入一个句子,输出一个句子但是他们长度相同,例如词性标注问题。

例子3,输入两个句子,输出一个类别,解决分类的问题。例如natural language inference(NLI),就是一个句子是前提,另一个句子是假设,机器要判断这个前提能不能推出这个假设,他们是否矛盾。

例子4,假设答案一定在文章中的问答系统,输入D,Q假设是中文字,那么每个d和q都代表一个中文字,输入是整篇文章D和问题Q,输出是两个正整数s,e。根据s,e从文章中截取出来的文字就是答案。

模型要做的事情就是训练两个向量,下图表示为一个橙色,一个蓝色,与文章中的每个文字进行inner product,选出最后得出的分数最高的,一个为起始位置,一个为末尾位置。

相关推荐
Hcoco_me18 分钟前
RNN(循环神经网络)
人工智能·rnn·深度学习
踏浪无痕26 分钟前
AI 时代架构师如何有效成长?
人工智能·后端·架构
AI 智能服务26 分钟前
第6课__本地工具调用(文件操作)
服务器·人工智能·windows·php
clorisqqq1 小时前
人工智能现代方法笔记 第1章 绪论(1/2)
人工智能·笔记
kisshuan123961 小时前
YOLO11-RepHGNetV2实现甘蔗田杂草与作物区域识别详解
人工智能·计算机视觉·目标跟踪
charlie1145141911 小时前
嵌入式现代C++教程: 构造函数优化:初始化列表 vs 成员赋值
开发语言·c++·笔记·学习·嵌入式·现代c++
焦耳热科技前沿1 小时前
北京科技大学/理化所ACS Nano:混合价态Cu₂Sb金属间化合物实现高效尿素电合成
大数据·人工智能·自动化·能源·材料工程
C+-C资深大佬1 小时前
Creo 11.0 全功能解析:多体设计 + 仿真制造,机械设计效率翻倍下载安装
人工智能
浔川python社1 小时前
【维护期间重要提醒】请勿使用浔川 AI 翻译 v6.0 翻译违规内容
人工智能
CS创新实验室2 小时前
AI 与编程
人工智能·编程·编程语言