再看Prof. Suining He的文章“Towards Fine-grained Flow Forecasting: A Graph Attention Approach for Bike Sharing Systems”，在Data-Driven Studies & Designs（我觉得这是个很好的部分，通过结合real scenario引入少量的超参数和其他统计学简易的模型，增加解释性的同时，还能增加大量的牛逼图表和简单的公式（如cos距离、欧氏距离等）来装杯）中分析两个变量之间的关系（station usage vs distance to nearest neighbor）的时候用到了负二项回归（Negative Binominal Regression）来分析。我不太懂，但是我觉得很有趣，所以我决定写个详细的文档。

1. Application Scenario

首先我们先了解一下计数（Count）模型。计数模型，顾名思义，在因变量 $y_1$ 为计数变量的时候，即选取事件发生的数目的时候，可以采取的模型。这些时候，因变量都是离散的整数且具有数值小、取零的个数较多，而且自变量大多是表示属性的名义变量的情况（比如今年结婚了没？明年结婚了没？这种布尔型的名义变量）。这时候以最小二乘法为代表的线性模型 $y=X\beta + \epsilon$ 是不太适用的，所以我们要采用计数模型。

<aside> 💡 这一段有点模糊，我们给因变量 $y_1$ 套个场景就好理解了“妇女曾生育子女的个数”、“某人在某年被拘捕的次数”、“一个企业在某年申请专利的个数”等。这样是不是就对计数模型有了通俗的理解QwQ。

</aside>

还有很多时候，技术型模型的因变量 $y_1$ 的波动是很大的，比如有的国家奥运奖牌是 0 有的是几千。在因变量很大的时候，为了减轻方差和极端值的影响，我们通常对因变量 $y_1$ 取对数。但是，在计数模型中，$y_1=0$ 是非常可能出现的。为了解决这个问题，有人可能会说，为啥不都加个 1 或者常数 b呢？但是这样得到的结果的估计量和真实值相比是不一致的[1]，并且如果零值很多，那么因变量微小的调整就会导致模型估计系数和模型的解释力变化很大。

2. Poisson Regression

在计数模型的时候，我们最常用的是poisson regression（泊松回归），这里由简单的二项分布一步一步的推导出来泊松模型。

首先来看一下最简单的二项分布，假设某一次实验中某个事件 $A$ 发生的概率是 $p$ ，并且进行了 $n$ 次相互独立的随机实验（换句话说，这些事件独立同分布），设 $A$ 发生的次数为 $Y$，那么$Y=y$ 的概率是：

$$ P(Y=y)=C^y_np^y(1-p)^{n-y} $$

由《概率论与数理统计》很容易知道，在 $n$ 非常大而且 $p$ 非常小（$p$ 非常小也满足了大量0存在的计数场景），且 $\lambda=np>0$ 的时候，二项分布向possion distribution靠近：

$$ P(Y=y)=\frac{e^{-\lambda}\lambda^y}{y!}\ \ (y=1,2,...) $$

应用到我们的计数模型中，对于个体 $i$ 而言， $Y_i=y_i$ （一系列解释变量 $X_i$）的概率为：

$$ P(Y_i=y_i|X_i)=\frac{e^{-\lambda_i}\lambda_i^{y_i} }{y_i!} $$

其中，$\lambda_i$ 是事件发生的平均次数（也就是二项分布的数学期望 $np$），比如A地有100万人，且每一个人移民到B地的概率是0.01，那么平均而言，A地移民往B地的人口是：$\lambda_i=1万$。

由《概率论与数理统计》很容易知道：$E(Y_i|X_i)=Var(Y_i|X_i)=\lambda_i$.

因为 $E(Y_i|X_i)$ 非负，我们可以假设：

$$ E(Y_i|X_i)=\lambda_i=e^{X_i\beta} $$

这一步很有意思，到底是怎么来的呢？很简单，假设来的，换句话说找个都是大于零的情况XJB猜的。因为他们都是正数，所以可以两边同时取对数，得到：

$$ ln\lambda_i=X_i\beta $$