对比学习

互信息和InfoNCE的关系简单来说，InfoNCE 是互信息的一个可计算的下界估计器。通过优化 InfoNCE 损失，我们实际上是在最大化互信息的一个紧下界。

对比学习综合参考视频链接：https://www.bilibili.com/video/BV19S4y1M7hm/?spm_id_from=333.1387.favlist.content.click&vd_source=cdb0bc0dda1dccea0b8dc91485ef3e74 论文链接在：https://github.com/mli/paper-reading/

推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation（二）目录一、方法论模板说明视觉笔记表示多模态笔记表示后期融合关键点编辑二、实验2.1 性能评估2.2 增强型MLRM的显著性分数分析

泡泡茶壶_ovo

PixCLIP：通过任意粒度像素-文本对齐学习实现细粒度视觉语言理解研究方向：Image Captioning论文全名：《PixCLIP: Achieving Fine-grained Visual Language Understanding via Any-granularity Pixel-Text Alignment Learning》

推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation（一）目录一、摘要二、介绍三、相关工作I2I 推荐技术概述内容驱动的I2I推荐大语言模型（LLMs）的应用潜力

推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation（二）目录一、方法论1.1 NoteLLM框架1.2 笔记压缩提示编辑特殊令牌与占位符说明分类生成的具体内容定义

推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation（三）目录一、实验1.1 数据集与实验设置1.2 离线性能评估1.3 不同曝光量笔记的效果1.4 消融实验1.5 CSFT模块中数据多样性的影响

关键词解释：对比学习（Contrastive Learning）摘要：对比学习是一种自监督表示学习范式，其核心思想是通过拉近语义相似样本（正样本对）、推开语义不同样本（负样本对），使模型学到具有判别性的特征表示。它无需人工标签，仅利用数据自身的结构或增强策略构建监督信号，在计算机视觉、自然语言处理和多模态学习中取得了突破性进展。

【multi-model】DINOv2（包含iBOT）& 问答一、DINOv2 1、数据集： LVD-142M数据集，由公开数据集和网络数据集组成，数据集经过PCA哈希去重，NSFW过滤和人脸模糊，整合汇总之后生成1.2亿的数据集； 2、DINOv2的去重方式叫copy detection pipeline（SSCD） ①自去重：去除数据内部冗余第一步：特征提取，提取图片的特征向量第二步：计算余弦相似度，计算每张图片最相近的k=64张图片第三步：只保留相似度大于0.6的近邻对第四步：并查集算法将相似数据连接在一起，形成一个连通分量，每个连通分量只保留一张图片

【multi-model】moco系列&SimCLR&BEiTmoco和SimCLR都属于对比学习，对比学习是属于无监督学习，不需要手动标注label，通过对原图像进行增强，产生新的图像，和其他图像做对比来计算loss，使同一张图片增强之后的两者之间的loss更近，不同图片之间的loss更远；一、moco 关键词：内存银行、动量更新、队列流程结构：注意： 1、x_q和x_k是x0经过的不同的图像增强 2、Encoder和Momentum encoder的结构是一样的，为了保证编码的维度一致 3、Momentum encoder更新公式：θ_k = m*θ_k

九章云极AladdinEdu

论文分享 |重新思考3D分割：Unified-Lift——端到端的高斯泼溅场景分割新范式引言：三维世界的“像素级”理解之梦在虚拟现实、增强现实、机器人导航和数字孪生等前沿领域，让机器像人类一样理解和交互三维环境是核心挑战之一。其中，3D场景分割——即为三维场景中的每一个点（或基本单元）赋予一个语义标签并区分出不同的物体实例——是实现深度场景理解的关键技术。想象一下，在AR应用中，你可以直接“拿起”虚拟桌子上的一个真实杯子；或者在机器人视野里，它能清晰地知道哪个是门、哪个是障碍物，并精确规划路径。这一切，都离不开精准、高效的3D分割技术。

EEG-CLIP：通过自然语言描述学习脑电图表征用于脑电图（EEG）解码的深度网络通常仅针对单一任务（如病理或年龄解码）进行训练。本研究提出一种任务无关的通用方法：训练深度网络将临床EEG记录与其对应的文本医疗报告进行匹配。该方法借鉴计算机视觉领域对齐图像与文本描述的技术，通过文本类别提示实现零样本解码。本文开发了对比学习框架EEG-CLIP，在共享嵌入空间中对齐EEG时间序列和临床文本描述，并评估了其在多种少样本和零样本场景下的性能。结果表明，EEG-CLIP能有效对齐文本与EEG表征，为学习通用EEG表征提供了新思路，可通过零样本解码或使用更少训练

【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation论文地址：Contrastive Clustering Learning for Multi-Behavior Recommendation | ACM Transactions on Information Systems

对比学习（Contrastive Learning）对比学习（Contrastive Learning）是一种自监督学习（Self-Supervised Learning）方法，其核心思想是通过相似样本靠近，不同样本远离的方式学习数据的潜在表示。它广泛用于无标签数据的特征提取，特别是在计算机视觉、自然语言处理和图数据分析等任务中。

对比学习损失函数 - InfoNCE对比学习中的InfoNCE损失函数是自监督学习领域的重要进展，它通过最大化正样本对之间的相似度并最小化负样本对的相似度，有效地引导模型学习到数据的本质特征。InfoNCE不仅提高了表示学习的质量，还为下游任务如分类、聚类等提供了强大的基础。

GGD证明推导学习这篇文章，建议先看相关的论文。这篇是我读证明的感悟，因此，不会论文的主体内容首先，给出命题：给定一个图： G = { X ∈ R N × D , A ∈ R N × N } \mathcal{G}=\{\mathbf{X}\in\mathbb{R}^{N\times D},\mathbf{A}\in\mathbb{R}^{N\times N}\} G={X∈RN×D,A∈RN×N}，以及一个GNN编码器 g g g，我们将其嵌入表示为： H = σ ( g ( G ) ) \mathbf{H}=\sigm

HeterGCL 论文写作分析这篇文章，由于理论证明较少，因此写作风格了polygcl是两种风格的。polygcl偏向理论的写作风格，而hetergcl就是实践派的风格

Graph Contrastive Learningwith Reinforcement AugmentationIJCAI24 推荐指数： #paper/⭐⭐⭐ 领域：图增强+强化学习不愧是清华组的论文，这个实验的目的是利用强化学习去生成对比学习的增强视图。但是，其仍然有一些小问题：其本质实际是对以往的图增强方法套了一层强化学习的壳（因此好像也没有获得oral或者spotlight)，个人觉得提升应该不明显。但是明显是一个有趣的方向

Phoenixtree_DongZhao

Img-Diff: 多模态大型语言模型的对比数据合成ArxivGitHubHigh-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive le

【读点论文】All-In-One Image Restoration for Unknown Corruption用对比学习统一方法实现多种噪声图片的有效处理单幅图像复原旨在从给定的劣化对应关系（例如嘈杂、下雨或朦胧的图像）中生成视觉上令人愉悦的高质量图像。在过去的几年中，图像复原已广泛应用于从自动驾驶到医学成像和监控等许多现实世界应用中。尽管在去噪、去模糊、去雨和去雾等特定领域已经取得了有希望的成果，但图像恢复在实践中遇到了以下障碍。一方面，有必要了解正确的损坏（即退化）以选择有竞争力的模型，因为几乎所有现有方法都只能处理特定的退化。一旦退化类型甚至损坏率发生变化，由于实际情况与模型构建或训练所采用的先验不一致，模型将获得不理想的性能。