技术栈

long-tailed data

zh-jp
1 年前
pytorch·python·深度学习·机器学习·long-tailed data
机器学习常见的sampling策略 附PyTorch实现首先介绍三种简单采样策略:它们可抽象为:\(p_j\)表示从j类采样数据的概率;\(C\)表示类别数量;\(n_j\)表示j类样本数;\(q\in\{1,0,\frac{1}{2}\}\) Instance-balanced sampling 最常见的数据采样方式,其中每个训练样本被选择的概率相等(\(q=1\))。j类被采样的概率\(p^{\mathbf{IB}}_j\)与j类样本数\(n_j\)成正比,即\(p^{\mathbf{IB}}_j=\frac{n_j}{\sum_{i=1}^Cn_i}\)
zh-jp
1 年前
机器学习·元学习·long-tailed data·noisy labels
Delving into Sample Loss Curve to Embrace Noisy and Imbalanced Data这篇论文:另外,这篇论文提供的源码结构混乱,复现难度较大。主要的工作也是基于meta-weight-net,创新的内容有限。但是,这篇文章在Introduction对long-tailed data + noisy labels问题的描述非常清晰。