Concept

长尾分布（long-tailed distributions）是重尾分布的子类型（其包括长尾分布+次指数分布）。在20世纪30年代，美国哈佛大学语言学家齐普夫发现，将一文本中的词按照它们在文本中的出现（或使用）次数由高至低排列，以 $r$ 表示序号（又称等级），$g(r)$ 表示序号为 $r$ 的词在文本中的出现次数，则 $r$ 的某一幂次 $r(\beta)$ 和 $g(r)$ 的乘积渐近为一常数，即 $g(r)*r(\beta)\approx c$。人们将关系式：

$$ g（r）=cr(-β)(β>0,c>0) $$

称为齐普夫定律，因而，长尾分布就是齐普夫（Zipf）定律。

General Description

互联网上从歌曲和软件的下载、网页的点击到网上店铺的销售，都呈现长尾分布的特征。长尾分布也与对流行事物进行统计排名的“排行榜”文化有关。网上音乐资料库容量巨大，下载方式非常便捷。把曲目按照下载量排序，可近似地得到一条递减曲线。在曲线的头部，热门曲目被大量下载。接下来，随着流行程度的降低（对应为序号的增大），曲线徒然下降。但有趣的是，在尾部曲线并没有迅速坠落到零，而是极其缓慢地贴近于横轴，粗看上去几乎与横轴平行延伸（这说明很不热门的曲日仍然保持着一定的下载率）。这种特殊的排序（即排名）与下载量之间的对应关系就是长尾分布。

Long-tailed in Machine Learning

主要是在CV中的概念。

在传统的分类和识别任务中，训练数据的分布往往都受到了人工的均衡，即不同类别的样本数量无明显差异。一个均衡的数据集固然大大简化了对算法鲁棒性的要求，也一定程度上保障了所得模型的可靠性，但随着关注类别的逐渐增加，维持各个类别之间均衡就将带来指数增长的采集成本。举个简单的例子，如果要做一个动物分类数据集，猫狗等常见数据可以轻轻松松的采集数以百万张的图片，但是考虑到数据集的均衡，我们必须也给雪豹等罕见动物采集等量的样本。如果对这种长尾（分布不均）的数据直接放进分类器或识别系统，往往会对头部数据过拟合，从而在预测时忽略尾部的类别。

ICLR 2020最近的方法是进行重采样（re-sampling）或者重加权（re-weighting）等，这个想深入了解的话再去知乎看吧~

Tricks when dealing with Long-Tailed Dataset

August 24, 2020 3:46 PM (GMT+8)

昨天和胡云飞吃饭提到了这个，他说老师给了100个正例和6个负例的图片的数据集，他觉得这根本没法构建模型。其实我回去思考了一下，感觉这某种意义上是可行的，故今天回来阅读了一下paper CVPR2020 的 " BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition "。这里对Long-Tailed类型数据处理的几个小trick学习整理一下：

Class Re-balancing Strategies。简而言之是对数据集进行重平衡一下，这里面主要分为两种方法：Over-Sampling和Under-Sampling。
- Over-Sampling，在训练的过程中多次采取数据集中数据量占比量较小的数据（在一个batch中），使得这些数据在训练时被多次用到，从而缓解长尾数据分布的问题。
- Under-Sampling，和上面相反，抛弃数据量占比较高的数据，从而达到各个类别数据量的平衡，以缓解长尾数据分布的问题。
Re-weighting Strategies。在训练模型的过程中，增加损失中长尾数据的权重，有点类似于Boost的方法。但该方法无法处理实际生活中的数据，一旦长尾数据分布很严重，该方法还容易引起优化的问题。
Tow-stage Fine-tuning Strategies。这个方法将训练分为两个阶段。第一阶段像往常一样正常训练，第二个阶段使用较小的学习率以Re-balancing的方式微调网络。