[论文阅读]SimCSE: Simple Contrastive Learning of Sentence Embeddings

SimCSE:句子嵌入的简单对比学习

SimCSE: Simple Contrastive Learning of Sentence Embeddings

http://arxiv.org/abs/2104.08821

EMNLP 2021

文章介绍了SimCSE,这是一种简单的对比学习框架,采用了自监督来提升模型的句子表示能力

而自监督最关键的问题是构建正负例

对于无监督来说,作者使用了Droupout来构建正例,将一个样本经过encoder两次,就得到了一个正例对,负例则是同一个batch里的其它句子。

对于有监督则采用了SNLI数据集天然的结构,对立类别的是负例,另外两个类别的就是正例

对比学习旨在通过将语义上接近的邻居拉在一起并推开非邻居来学习有效的表示

图像上的对比学习方案:对同一个图像进行两次随机转换(例如裁剪、翻转、扭曲和旋转等)。文本上采用类似的方案:单词删除、重排序和替换等增强技术,但是由于文本的离散型,文本数据增强本质上是很困难的,简单地在中间表示上使用标准dropout优于这些离散运算符。

无监督SImCSE:

使用droupout来对文本增加噪音,从而构造一个正样本对,而负样本对则是在batch中选取的其它句子

有监督SimCSE:

这一部分的句子对直接采用了NLI数据集的数据,因为其中有天然的正负例句子对。

详细请参考这篇文章:
无监督对比学习SIMCSE理解和中文实验操作-CSDN博客

相关推荐
觉醒大王36 分钟前
强女思维:着急,是贪欲外显的相。
java·论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
张较瘦_3 小时前
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路
论文阅读·人工智能·机器学习
m0_6501082419 小时前
IntNet:面向协同自动驾驶的通信驱动多智能体强化学习框架
论文阅读·marl·多智能体系统·网联自动驾驶·意图共享·自适应通讯·端到端协同
m0_650108241 天前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
快降重科研小助手1 天前
前瞻与规范:AIGC降重API的技术演进与负责任使用
论文阅读·aigc·ai写作·降重·降ai·快降重
源于花海2 天前
IEEE TIE期刊论文学习——基于元学习与小样本重训练的锂离子电池健康状态估计方法
论文阅读·元学习·电池健康管理·并行网络·小样本重训练
m0_650108242 天前
UniDrive-WM:自动驾驶领域的统一理解、规划与生成世界模型
论文阅读·自动驾驶·轨迹规划·感知、规划与生成融合·场景理解·未来图像生成
蓝田生玉1232 天前
LLaMA论文阅读笔记
论文阅读·笔记·llama
*西瓜2 天前
基于深度学习的视觉水位识别技术与装备
论文阅读·深度学习
大模型最新论文速读2 天前
BAR-RAG: 通过边界感知训练让单轮 RAG 效果媲美深度研究
论文阅读·人工智能·深度学习·机器学习·自然语言处理