简单回顾概率论与数理统计

1. 微积分

1.1. 积分：牛顿-莱布尼茨公式

如果函数 $F(x)$ 是连续函数 $f(x)$ 在区间 $[a, b]$ 上的一个原函数，则：

\int _ { a } ^ { b } f ( x ) d x = F ( b ) - F ( a )

极限定义：设函数 $f(x)$ 在点 $x_0$ 的某一去心邻域内有定义，如果存在常数 $A$ ，对于任意给定的正数 $e$ （不论它多么小），总存在正数 $d$ ，使得当 $x$ 满足不等式 $0<|x−x_0|<d$ 时，对应的函数值 $f(x)$ 都满足不等式 $|f(X)-A|<e$ , 那么常数 $A$ 就叫做函数 $f(x)$ 在 $x\rightarrow x_0$ 时的极限^[1]，记为：

\lim _ { x \rightarrow x _ { 0 } } f ( x ) = A

，等价于：

\forall \varepsilon > 0 , \exists \delta > 0 , 当 0 < | x - x _ { 0 } | < \delta 时 ，| f ( x ) - A | < \varepsilon

1.2.2. 导数

导数定义：

f ^ { \prime } ( x _ { 0 } ) = \lim _ { \Delta x \rightarrow 0 } \frac { \Delta y } { \Delta x } = \lim _ { \Delta x \rightarrow 0 } \frac { f ( x _ { 0 } + \Delta x ) - f ( x _ { 0 } ) } { \Delta x }

也记为：

y ^ { \prime } | _ { x = x _ { 0 } }，\frac { d y } { d x } | _ { x = x _ { 0 }}或\frac { d f ^ { \prime } x } { d x } \ | _ { x = x _ { 0 } }

1.2.3. 微分

微分定义：假设函数 $y = f(x)$ 在点 $x_0$ 附近有定义，如果存在一个常数 $A$ ，使得当增量 $\Delta x \to 0$ 时：

\Delta y = f(x_0 + \Delta x) - f(x_0) = A \cdot \Delta x + o(\Delta x)

$\Delta y$ 是函数值的变化量， $A$ 是一个常数（与 $\Delta x$ 无关）， $o(\Delta x)$ 表示当 $\Delta x \to 0$ 时，比 $\Delta x$ 高阶的无穷小量（即它的大小相对于 $\Delta x$ 可忽略）。微分记作：

dy = f'(x_0) \, dx

其中 $dx$ 是 $\Delta x$ 的无穷小近似。

备注：

[1] 这里的描述很像数列极限的定义： $\forall \varepsilon > 0 , 总 \exists N ，当 n > N 时有 | x _ { n } - A | < \varepsilon ，则 \lim _ { n \rightarrow \infty } x _ { n } = A$

2. 随机变量与分布

2.1. 样本空间

定义：一次随机试验中，所有可能结果的集合，并且这些结果是互斥且完备的。

记作：

\Omega = \{\omega_1, \omega_2, \dots\}

其中：

每个 $\omega_i$ 叫做一个样本点（sample point）。
样本空间里包含了试验的所有可能结果，且任何一次试验的结果必定落在样本空间中。

2.2. 贝叶斯公式

条件概率定义：在事件 $B$ 已经发生的前提下，事件 $A$ 发生的概率。

记作：

P(A|B) = \frac{P(A \cap B)}{P(B)},\quad P(B) > 0

其中：

$P(A \cap B)$ = $A$ 和 $B$ 同时发生的概率。
$P(B)$ = 事件 $B$ 发生的概率。
分母 $P(B)$ 就是“限定条件”发生的概率，保证比例正确。

由下面两个乘法公式：

P(A|B) \cdot P(B) = P(B|A) \cdot P(A)

整理得：

P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}, \quad P(B) > 0

此即贝叶斯公式，各部分的意义：

$P(A)$ ：先验概率（Prior），或边缘概率。之所以称为“先验”是因為它不考虑任何B方面的因素。
$P(B|A)$ ：似然（Likelihood），如果 $A$ 发生，观察到 $B$ 的可能性。
$P(B)$ ：证据（Evidence）， $B$ 的先验概率，所有可能情况导致 $B$ 发生的总体概率。
$P(A|B)$ ：后验概率（Posterior），已知 $B$ 发生后 $A$ 的条件概率。

2.3. 全概率公式

设：

$A_1, A_2, \dots, A_n$ $A_{1}, A_{2}, \dots, A_{n}$ 是一组互斥且完备的事件（也叫样本空间的一个划分）：
- 互斥： $A_i \cap A_j = \varnothing$ （i ≠ j）
- 完备： $A_1 \cup A_2 \cup \dots \cup A_n = \Omega$ （必有一个发生）
$P(A_i) > 0$

那么，对于任意事件 $B$ ，有：

P(B) = \sum_{i=1}^n P(B|A_i) \cdot P(A_i)

其中：

$P(A_i)$ ：某个“原因”或“背景情况”的概率

$P(B|A_i)$ ：在这个原因下， $B$ 发生的条件概率

把所有可能原因下 $B$ 的贡献加起来，就是 $B$ 的总概率。

2.4. 两种类型的随机变量

随机变量是一个将样本空间的元素映射为实数的函数：

X : \Omega \to \mathbb{R}

它的“随机”体现在：试验结果不确定，因而变量取值也不确定。

2.4.1. 离散型随机变量

如果随机变量的取值是有限个或可列无限个，那么它就是离散型的。可以用概率质量函数（PMF）描述：

p_X(x) = P(X = x)

2.4.2. 连续型随机变量

如果随机变量的取值是连续区间（不可列举），并且它的概率只能通过区间来计算（单个点的概率为 0），那么它就是连续型的。用概率密度函数（PDF）描述：

f_X(x) \ge 0

2.5. 常见的概率分布

2.5.1. 离散型

伯努利分布（Bernoulli）

定义：一次只有两种可能结果（成功=1，失败=0）
参数：成功概率 $p$
PMF：
$P(X=x) = p^x (1-p)^{1-x}, \quad x \in \{0,1\}$
例子：一次硬币投掷（正面/反面）
$X∼Bern(p)$

二项分布（Binomial）

定义：n 次独立伯努利试验中成功的次数
参数： $n$ 次试验，成功概率 $p$
PMF：
$P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$
例子：10 次投篮命中数
$X∼Bin(n,p)$

几何分布（Geometric）

定义：第一次成功前的失败次数
PMF：
$P(X=k) = (1-p)^k p, \quad k=0,1,2,\dots$
例子：买彩票直到中奖的次数
$X∼Geo(p)$

泊松分布（Poisson）

定义：单位时间/空间内事件发生的次数
参数： $\lambda$ （平均发生次数）
PMF：
$P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}$
例子：一分钟接到的电话数
$X \sim \mathrm{Pois}(\lambda)$

2.5.2. 连续型

均匀分布（Uniform）

定义：区间内每个点的概率相同
参数：区间 $[a,b]$
PDF：
$f_X(x) = \frac{1}{b-a},\quad x \in [a,b]$
例子：随机生成 0~1 之间的数
$X \sim U(a, b)$

正态分布（Normal / Gaussian）

定义：自然界、测量误差、身高体重等常见
参数：均值 $\mu$ ，方差 $\sigma^2$
PDF：
$f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x-\mu)^2}{2\sigma^2} }$
特性：钟形曲线、对称
$X∼N(μ,σ2)$

指数分布（Exponential）

定义：事件间隔时间的分布
参数： $\lambda$ （速率参数）
PDF：
$f_X(x) = \lambda e^{-\lambda x},\quad x\ge 0$
例子：公交车到站间隔时间
$X \sim \mathrm{Exp}(\lambda)$

卡方分布（Chi-square）

定义：标准正态变量平方和的分布
用途：统计检验、方差分析
$X \sim \chi^2(k)$

3. 分布特征量

3.1. 数学期望

3.1.1. 离散型

若随机变量 $X$ 取值为 $x_1, x_2, \dots, x_n$ ，概率分别为 $p_1, p_2, \dots, p_n$ ，则：

\mathbb{E}[X] = \sum_{i=1}^n x_i \, p_i

就是每个可能取值乘以其概率，再加起来。

3.1.2. 连续型

若随机变量 $X$ 的概率密度函数为 $f_X(x)$ ，则：

\mathbb{E}[X] = \int_{-\infty}^{+\infty} x \, f_X(x) \, dx

依然是加权平均，只不过用积分代替了求和。

3.2. 方差

方差（Variance）描述的是随机变量取值相对于其均值的离散程度。

记作：

Var(X) = \mathbb{E}\big[(X - \mathbb{E}[X])^2\big]

方差有两个常见的等价公式：

定义式

Var(X) = \mathbb{E}[(X - \mu)^2], \quad \mu = \mathbb{E}[X]

计算式（更常用）

Var(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2

3.3. 协方差与相关系数

协方差用来度量两个随机变量之间的线性相关程度。它刻画的是：当一个变量变化时，另一个变量是否有相应的变化趋势。

设有两个随机变量 $X$ 和 $Y$ ，其期望分别是 $\mathbb{E}[X] = \mu_X$ ， $\mathbb{E}[Y] = \mu_Y$ 。协方差定义为：

\mathrm{Cov}(X, Y) = \mathbb{E}\Big[(X - \mu_X)(Y - \mu_Y)\Big]

也可以写成：

\mathrm{Cov}(X, Y) = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]

正协方差（ $\mathrm{Cov}(X, Y) > 0$ ）：说明 $X$ 大时， $Y$ 也倾向于大，二者呈正相关。

负协方差（ $\mathrm{Cov}(X, Y) < 0$ ）：说明 $X$ 大时， $Y$ 倾向于小，二者呈负相关。

零协方差（ $\mathrm{Cov}(X, Y) = 0$ ）：说明两个变量不存在线性相关性，但注意不代表独立（独立 ⇒ 协方差为0，但协方差为0不一定独立）。

协方差本身没有统一的尺度（数值大小依赖于量纲），所以我们常用相关系数来衡量强弱：

\rho_{XY} = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}

其中 $\sigma_X, \sigma_Y$ 分别是 $X, Y$ 的标准差。这样 $\rho_{XY}$ 的取值范围是 $[-1, 1]$ ，更直观。

4. 中心极限定理

中心极限定理（Central Limit Theorem, CLT）的直观想法是假设你有很多个相互独立、分布相同的随机变量（比如扔硬币、掷骰子），它们的分布可能不是正态的，可能偏得很厉害，但当你取它们的和或平均值时，结果的分布会逐渐趋近于一个正态分布。

设随机变量 $X_1, X_2, \dots, X_n$ 独立同分布，

数学期望： $\mathbb{E}[X_i] = \mu$
方差： $\mathrm{Var}(X_i) = \sigma^2 > 0$

定义它们的标准化和：

Z_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sigma \sqrt{n}}

那么，当 $n \to \infty$ 时：

Z_n \;\;\xrightarrow{d}\;\; N(0,1)

意思是：标准化的和（或均值）分布收敛到标准正态分布。