视觉/深度学习/机器学习相关面经总结(2)(持续更新)

目录

    • 1、跨模态对齐的方案
    • 2、位置编码方式
      • [1. **正弦和余弦位置编码(Sinusoidal Positional Encoding)**](#1. 正弦和余弦位置编码(Sinusoidal Positional Encoding))
      • [2. **可学习的位置编码(Learnable Positional Encoding)**](#2. 可学习的位置编码(Learnable Positional Encoding))
      • [3. **相对位置编码(Relative Positional Encoding)**](#3. 相对位置编码(Relative Positional Encoding))
      • [4. **线性位置编码(Linear Positional Encoding)**](#4. 线性位置编码(Linear Positional Encoding))
      • [5. **一热编码(One-hot Encoding)**](#5. 一热编码(One-hot Encoding))
      • [6. **动态位置编码(Dynamic Positional Encoding)**](#6. 动态位置编码(Dynamic Positional Encoding))
    • 3、

1、跨模态对齐的方案

  • 嵌入空间对齐
    来自不同模态的数据(如图像和文本)被映射到一个共享的嵌入空间,例如CLIP通过对图像和文本进行对比学习,使得图像和文本的嵌入向量在同一空间中更具可比性,从而实现跨模态对齐。
  • 多模态注意力机制
    注意力机制,模型能够聚焦于不同模态中最相关的部分,并对其进行对齐融合。
    Q(查询):表示我们希望学习到的特征。
    K, V(键值):表示我们用来计算注意力的特征。
  • 。。。。。

2、位置编码方式

1. 正弦和余弦位置编码(Sinusoidal Positional Encoding)

  • 概述:由Vaswani等人在Transformer模型中提出,正弦和余弦位置编码通过不同频率的正弦和余弦函数对序列中的每个位置进行编码。
  • 计算方式 :对每个位置i和维度2k,使用正弦函数和余弦函数进行编码:
  • 优点:位置编码是固定的,不依赖于训练数据,可以适用于任意长度的序列。编码的顺序信息是通过周期性函数显式表达的。

2. 可学习的位置编码(Learnable Positional Encoding)

  • 概述:可学习的位置编码将位置编码作为可训练的参数直接嵌入到模型中。这些编码通过反向传播进行优化,随着训练的进行不断调整。
  • 计算方式:每个位置对应一个向量,和模型中的其他权重一样,这些位置向量通过训练进行优化。
  • 优点:通过学习获得的位置编码可以根据具体任务进行优化,能够更好地适应特定任务的需求。

3. 相对位置编码(Relative Positional Encoding)

  • 概述:相对位置编码通过编码序列中元素之间的相对位置,而不是绝对位置。它在一些Transformer变种(如Transformer-XL)中被使用,旨在改进长序列建模。
  • 计算方式:对于序列中的任意两个位置 ( i ) 和 ( j ),编码表示它们之间的相对位置 ( |i - j| )。
  • 优点:适合处理长序列,尤其是在序列长度较大时,相对位置编码比绝对位置编码表现更好。

4. 线性位置编码(Linear Positional Encoding)

  • 概述:线性位置编码是一种简单的编码方法,通过线性增加的位置向量来表达位置关系。
  • 计算方式:位置编码可以简单地通过位置的线性映射(例如直接使用位置作为编码向量)来完成。
  • 优点:实现简单,但通常效果不如其他复杂的编码方式。

5. 一热编码(One-hot Encoding)

  • 概述:对于每个位置,使用一个独热向量来表示该位置的存在。这种编码方式是最简单的一种,但通常只用于短序列或其他简单任务。
  • 计算方式:每个位置有一个对应的独热向量,表示该位置的唯一性。
  • 优点:简单直观,但不保留位置信息的连贯性和顺序。

6. 动态位置编码(Dynamic Positional Encoding)

  • 概述:与固定位置编码不同,动态位置编码基于输入的序列动态计算位置编码,通常结合其他特征(如上下文信息)。
  • 优点:更加灵活,可以根据具体输入序列的上下文动态调整。

3、

相关推荐
武子康3 分钟前
AI研究-117 特斯拉 FSD 视觉解析:多摄像头 - 3D占用网络 - 车机渲染,盲区与低速复杂路况安全指南
人工智能·科技·计算机视觉·3d·视觉检测·特斯拉·model y
Geoking.10 分钟前
PyTorch torch.unique() 基础与实战
人工智能·pytorch·python
Fr2ed0m14 分钟前
卡尔曼滤波算法原理详解:核心公式、C 语言代码实现及电机控制 / 目标追踪应用
c语言·人工智能·算法
熊猫_豆豆29 分钟前
神经网络的科普,功能用途,包含的数学知识
人工智能·深度学习·神经网络
笨蛋不要掉眼泪39 分钟前
deepseek封装结合websocket实现与ai对话
人工智能·websocket·网络协议
hesorchen1 小时前
算力与数据驱动的 AI 技术演进全景(1999-2024):模型范式、Infra 数据、语言模型与多模态的关键突破
人工智能·语言模型·自然语言处理
你也渴望鸡哥的力量么1 小时前
基于边缘信息提取的遥感图像开放集飞机检测方法
人工智能·计算机视觉
xian_wwq1 小时前
【学习笔记】深度学习中梯度消失和爆炸问题及其解决方案研究
人工智能·深度学习·梯度
StarRocks_labs1 小时前
StarRocks 4.0:Real-Time Intelligence on Lakehouse
starrocks·人工智能·json·数据湖·存算分离
Tracy9732 小时前
DNR6521x_VC1:革新音频体验的AI降噪处理器
人工智能·音视频·xmos模组固件