long-tailed data

机器学习常见的sampling策略附PyTorch实现首先介绍三种简单采样策略：它们可抽象为：\(p_j\)表示从j类采样数据的概率；\(C\)表示类别数量；\(n_j\)表示j类样本数；\(q\in\{1,0,\frac{1}{2}\}\) Instance-balanced sampling 最常见的数据采样方式，其中每个训练样本被选择的概率相等（\(q=1\)）。j类被采样的概率\(p^{\mathbf{IB}}_j\)与j类样本数\(n_j\)成正比，即\(p^{\mathbf{IB}}_j=\frac{n_j}{\sum_{i=1}^Cn_i}\)

Delving into Sample Loss Curve to Embrace Noisy and Imbalanced Data这篇论文：另外，这篇论文提供的源码结构混乱，复现难度较大。主要的工作也是基于meta-weight-net，创新的内容有限。但是，这篇文章在Introduction对long-tailed data + noisy labels问题的描述非常清晰。