自监督深度学习技术

一、定义

自监督学习(SSL)是机器学习的一种范式,用于处理未标记数据以获取有用的表示,以帮助下游学习任务。SSL方法最显著的特点是它们不需要人类标注的标签,这意味着它的训练完全基于由未标记的数据样本组成的数据集。典型的SSL流程包括在第一阶段学习监督信号(自动生成的标签),这些监督信号将用于后续阶段中的某些监督学习任务。因此,SSL可以视为无监督学习和监督学习的中间形式。

自监督学习的核心思想是从输入数据中创建虚拟的监督信号,然后使用这些虚拟标签来训练模型。在训练过程中,模型根据虚拟标签进行优化,以学习数据中的有用特征和模式。这些虚拟标签可以是从原始数据中自动生成的,例如从图像中移除一部分内容并让模型预测缺失的内容,或者从文本中掩盖部分单词并让模型填补缺失的单词。

自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。 也就是说,自监督学习不需要任何的外部标记数据,这些标签是从输入数据自身中得到的。

自监督学习的模式仍然是Pretrain-Fintune的模式,即先在pretext上进行预训练,然后将学习到的参数迁移到下游任务网络中,进行微调得到最终的网络。

二、方法

自监督学习的方法主要可以分为 3 类:

  1. 基于上下文(Context based)

基于数据本身的上下文信息,可以构造很多任务,比如在 NLP 领域中Word2vec 主要是利用语句的顺序,例如 CBOW 通过前后的词来预测中间的词,而 Skip-Gram 通过中间的词来预测前后的词。;在图像中,图像拼图、图像修复、图像着色、图像旋转等任务都是典型的作为pretext的例子。

  1. 基于时序(Temporal Based)

样本间具有很多约束关系,最能体现时序的数据类型就是视频了。例如,对于视频中的每一帧,其实存在着特征相似的概念,简单来说我们可以认为视频中的相邻帧特征是相似的,而相隔较远的视频帧是不相似的,通过构建这种相似(position)和不相似(negative)的样本来进行自监督约束。或者可以设计一个模型,来判断当前的视频序列是否是正确的顺序。

  1. 基于对比(Contrastive Based)

对比约束,它通过学习对两个事物的相似或不相似进行编码来构建表征。通过构建正样本(positive)和负样本(negative),然后度量正负样本的距离来实现自监督学习,即样本和正样本之间的距离远远大于样本和负样本之间的距离,可以使用点积的方式构造距离函数,然后构造一个 softmax 分类器,以正确分类正样本和负样本。

https://zhuanlan.zhihu.com/p/108906502https://zhuanlan.zhihu.com/p/108906502

https://www.cnblogs.com/polly333/p/17791786.htmlhttps://www.cnblogs.com/polly333/p/17791786.html自监督学习分类:

三、自监督VIO

  • SelfVIO: Self-supervised deep monocular Visual--Inertial Odometry and depth estimation:GAN网络,位姿估计与深度估计组合进行,开源
  • DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints:端到端的单目VIO,从双目中获取监督信息
  • Vision-Aided Absolute Trajectory Estimation Using an Unsupervised Deep Network with Online Error Correction:VIOLearner,在网络训练过程中加入传统模型的引导,开源
  • CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth:通过原始图像和级联稀疏深度图预测稠密的深度图及其不确定度的编码网络+通过对深度信息进行编码得到用于 VIO 优化的深度向量的变分自编码器
  • BoomVIO: bootstrapped monocular visual-inertial odometry with absolute trajectory estimation through unsupervised deep learning
  • Unsupervised monocular visual- inertial odometry network
  • Unsupervised Learning of Depth and Pose Based on Monocular Camera and Inertial Measurement Unit (IMU)
  • Scale-Aware Visual-Inertial Depth Estimation and Odometry Using Monocular Self-Supervised Learning
  • Attention Guided Unsupervised learning of Monocular Visual-inertial Odometry
  • CoVIO: Online Continual Learning for Visual-Inertial Odometry
  • Unsupervised Deep Visual-Inertial Odometry with Online Error Correction for RGB-D Imagery
相关推荐
千寻girling1 小时前
Python 是用来做 AI 人工智能 的 , 不适合开发 Web 网站 | 《Web框架》
人工智能·后端·算法
AI攻城狮1 小时前
OpenClaw 里 TAVILY_API_KEY 明明写在 ~/.bashrc,为什么还是失效?一次完整排查与修复
人工智能·云原生·aigc
stark张宇1 小时前
构建第一个AI聊天机器人:Flask+DeepSeek+Postgres实战
人工智能·postgresql·flask
yiyu07162 小时前
3分钟搞懂深度学习AI:自我进化的最简五步法
人工智能·深度学习
浪浪山_大橙子4 小时前
OpenClaw 十分钟快速,安装与接入完全指南 - 推荐使用trae 官方 skills 安装
前端·人工智能
火山引擎开发者社区4 小时前
OpenClaw 快速上手:把云手机变成你的 7×24 小时 AI 手机助手
人工智能
Qlly4 小时前
DDD 架构为什么适合 MCP Server 开发?
人工智能·后端·架构
Lee川4 小时前
从零构建智能对话系统:AI Agent 实战指南
人工智能
冬奇Lab5 小时前
一天一个开源项目(第43篇):Star-Office-UI - 像素风格的 AI 办公室看板,让 AI 助手的工作状态可视化
人工智能·开源·资讯
风象南5 小时前
纯文本模型竟然也能直接“画图”,而且还很好用
前端·人工智能·后端