李宏毅机器学习笔记21

目录

摘要

Abstract

1.Transformer基本概念

2.Encoder


摘要

本篇文章继续学习李宏毅老师2025春季机器学习课程,学习内容是Transformer的基本概念以及Transformer中encoder的基本架构。

Abstract

This article continues the study of Prof. Hung-yi Lee's 2025 Spring Machine Learning Course , focusing on the fundamental concepts of the Transformer and the basic architecture of its encoder.

1.Transformer基本概念

transformer实际上就是我们之前提到过的sequence to sequence的model,即输入一个句子输出一个句子,输入和输出的长度不固定,例如下图的语音识别,句子翻译,语音翻译等。

sequence to sequence的基本架构如下图,需要一个encoder处理输入,一个decoder处理输出。

实际上与Transformer的架构相似,Transformer的架构如下图

2.Encoder

encoder实际上要做的事情就是给一排向量输出另一排向量。

在encoder中会分成很多的block,输入一排向量给第一个block,第一个block输出给第二个block作为输入一直到最后一个block输出最终的向量。在transformer中一个block做的事情就是,先做一个self-attention考虑整个句子的资讯,输出另一排向量,再丢到fully connected的network中输出。

在原来的transformer中做的事情是更复杂的,在self-attention中加入了一个设计叫做residual connection,即输入self-attention的向量假设为b,输出的向量假设为a,在经过self-attention后将输入与输出合并起来,即a+b作为新的输出。

在得到residual的结果后进行normalization,用到的是layer normalization,它比batch normalization更简单,layer normalization就是输入一个向量输出一个向量,它计算输入向量均值和标准差,用向量中的每个数值减去均值后除标准差,最后得出的结果才是fully connected的输入。

在fully connected中同样也需要用residual,在得到residual的结果后也需要进行normalization。最后的输出才是block的输出。

transformer总体的encoder流程如下图右侧部分,输入可能还需要加入位置讯息(positional encoding),经过N个block输出最后的结果。

相关推荐
56AI9 小时前
2026 企业级AI智能体开发平台推荐:聚焦底层安全与准确率的智能体平台
人工智能·安全·智能体
沫儿笙9 小时前
库卡弧焊机器人白车身焊接节气装置
人工智能·机器人
AI智图坊9 小时前
多件装组合SKU图的批量生产效率分析:从PS手工到AI自动化的工作流改造
大数据·运维·人工智能·gpt·ai作画·自动化·aigc
threelab9 小时前
Three.js 物理模拟着色器 | 三维可视化 / AI 提示词
开发语言·前端·javascript·人工智能·3d·着色器
RSTJ_16259 小时前
PYTHON+AI LLM DAY SEVENTY-ONE
人工智能
圣殿骑士-Khtangc10 小时前
单智能体落地实战:从 ReAct 到 Production-Ready AI Agent 全链路解析
人工智能·react.js
云烟成雨TD10 小时前
Spring AI 1.x 系列【56】用大模型评判大模型:递归顾问实现自动化评估方案
人工智能·spring·自动化
AI客栈10 小时前
K8s 自定义控制器中 WorkQueue 队列优化实践:基于 IPVS 转发原理的状态变化处理
人工智能
0xR3lativ1ty10 小时前
每周AI工具新动态
人工智能
jerryinwuhan10 小时前
面向产业带与中小企业数字化转型的电商运营人才培养模式
大数据·人工智能