之前听刘晓凯的开题ppt听了几次,当时查了一下。但是感觉像这类概念还是仔细了解一下为好,故这里详细写个文档。
Tricks那里是后来又新加的部分。
长尾分布(long-tailed distributions)是重尾分布的子类型(其包括长尾分布+次指数分布)。在20世纪30年代,美国哈佛大学语言学家齐普夫发现,将一文本中的词按照它们在文本中的出现(或使用)次数由高至低排列,以 $r$ 表示序号(又称等级),$g(r)$ 表示序号为 $r$ 的词在文本中的出现次数,则 $r$ 的某一幂次 $r(\beta)$ 和 $g(r)$ 的乘积渐近为一常数,即 $g(r)*r(\beta)\approx c$。人们将关系式:
$$ g(r)=cr(-β)(β>0,c>0) $$
称为齐普夫定律,因而,长尾分布就是齐普夫(Zipf)定律。
互联网上从歌曲和软件的下载、网页的点击到网上店铺的销售,都呈现长尾分布的特征。长尾分布也与对流行事物进行统计排名的“排行榜”文化有关。网上音乐资料库容量巨大,下载方式非常便捷。把曲目按照下载量排序,可近似地得到一条递减曲线。在曲线的头部,热门曲目被大量下载。接下来,随着流行程度的降低(对应为序号的增大),曲线徒然下降。但有趣的是,在尾部曲线并没有迅速坠落到零,而是极其缓慢地贴近于横轴,粗看上去几乎与横轴平行延伸(这说明很不热门的曲日仍然保持着一定的下载率)。这种特殊的排序(即排名)与下载量之间的对应关系就是长尾分布。
主要是在CV中的概念。
在传统的分类和识别任务中,训练数据的分布往往都受到了人工的均衡,即不同类别的样本数量无明显差异。一个均衡的数据集固然大大简化了对算法鲁棒性的要求,也一定程度上保障了所得模型的可靠性,但随着关注类别的逐渐增加,维持各个类别之间均衡就将带来指数增长的采集成本。举个简单的例子,如果要做一个动物分类数据集,猫狗等常见数据可以轻轻松松的采集数以百万张的图片,但是考虑到数据集的均衡,我们必须也给雪豹等罕见动物采集等量的样本。如果对这种长尾(分布不均)的数据直接放进分类器或识别系统,往往会对头部数据过拟合,从而在预测时忽略尾部的类别。
ICLR 2020最近的方法是进行重采样(re-sampling)或者重加权(re-weighting)等,这个想深入了解的话再去知乎看吧~
August 24, 2020 3:46 PM (GMT+8)
昨天和胡云飞吃饭提到了这个,他说老师给了100个正例和6个负例的图片的数据集,他觉得这根本没法构建模型。其实我回去思考了一下,感觉这某种意义上是可行的,故今天回来阅读了一下paper CVPR2020 的 " BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition "。这里对Long-Tailed类型数据处理的几个小trick学习整理一下: