<aside> 💡 其实在机器学习的一些数学基础文档中这些都整理了,不过最近在看HMM和CRF的时候,我发现我看的贼慢,概率论中的很多基础概念都没有搞明白,这样肯定是不行的。所以我决定找一个文档再更细致的理解一下。 本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识。

</aside>

概率

我们已经拥有十分强大的数学工具了,为什么我们还需要学习概率论?我们用微积分来处理变化无限小的函数,并计算它们的变化。我们使用代数来解方程,我们还有其他几十个数学领域来帮助我们解决几乎任何一种可以想到的难题。

难点在于我们都生活在一个混乱的世界中,多数情况下无法准确地测量事物。当我们研究真实世界的过程时,我们想了解许多影响实验结果的随机事件。不确定性无处不在,我们必须驯服它以满足我们的需要。只有如此,概率论和统计学才会发挥作用。

如今,这些学科处于人工智能,粒子物理学,社会科学,生物信息学以及日常生活中的中心。

如果我们要谈论统计学,最好先确定什么是概率。其实,这个问题没有绝对的答案。我们接下来将阐述概率论的各种观点。

频率

想象一下,我们有一枚硬币,想验证投掷后正反面朝上频率是否相同。我们如何解决这一问题?我们试着进行一些实验,如果硬币正面向上记录 1,如果反面向上记录 0。重复投掷 1000 次并记录 0 和 1 的次数。在我们进行了一些繁琐的时间实验后,我们得到了这些结果:600 个正面(1)和 400 反面(0)。如果我们计算过去正面和反面的频率,我们将分别得到 60%和 40%。这些频率可以被解释为硬币出现正面或者反面的概率。这被称为频率化的概率。

联合概率

联合概率是包含多个条件且所有条件同时成立时候的概率,记作P(X=a, Y=b)或者P(a, b),有的书上也记作P(ab),这里感觉怪怪的,下面都用逗号的形式记录。

边缘概率

边缘概率是与联合概率对应的,P(X=a)或者P(Y=b),这类仅与单个随机变量有关的概率称为边缘概率。

联合概率和边缘概率的关系也可以轻易得到:

$$ P(X=a)=\Sigma_bP(X=a, Y=b) $$

求和符号表示穷举所有Y(或X)所能取得b(或a)后,所有对应值相加得到的和。

条件概率

通常,我们想知道某些事件发生时其他事件也发生的概率。我们将事件B发生时事件A也发生的条件概率写为"P(A|B)"。以下雨为例:

  1. 打雷时下雨的概率有多大?
  2. 晴天时下雨的概率有多大?