skip to content
Yowakko Jay
Table of Contents

1. 微积分

1.1. 积分:牛顿-莱布尼茨公式

如果函数 F(x)F(x) 是连续函数 f(x)f(x) 在区间 [a,b][a, b] 上的一个原函数,则:

abf(x)dx=F(b)F(a)\int _ { a } ^ { b } f ( x ) d x = F ( b ) - F ( a )

1.2. 导数与微分

1.2.1. 极限

极限定义:设函数 f(x)f(x) 在点 x0x_0 的某一去心邻域内有定义,如果存在常数 AA,对于任意给定的正数 ee(不论它多么小),总存在正数 dd,使得当 xx 满足不等式 0<xx0<d0<|x−x_0|<d 时,对应的函数值 f(x)f(x) 都满足不等式 f(X)A<e|f(X)-A|<e , 那么常数 AA 就叫做函数 f(x)f(x)xx0x\rightarrow x_0 时的极限[1],记为:

limxx0f(x)=A\lim _ { x \rightarrow x _ { 0 } } f ( x ) = A

,等价于:

ε>0,δ>0,0<xx0<δ时,f(x)A<ε\forall \varepsilon > 0 , \exists \delta > 0 , 当 0 < | x - x _ { 0 } | < \delta 时 ,| f ( x ) - A | < \varepsilon

1.2.2. 导数

导数定义:

f(x0)=limΔx0ΔyΔx=limΔx0f(x0+Δx)f(x0)Δxf ^ { \prime } ( x _ { 0 } ) = \lim _ { \Delta x \rightarrow 0 } \frac { \Delta y } { \Delta x } = \lim _ { \Delta x \rightarrow 0 } \frac { f ( x _ { 0 } + \Delta x ) - f ( x _ { 0 } ) } { \Delta x }

也记为:

yx=x0dydxx=x0dfxdx x=x0y ^ { \prime } | _ { x = x _ { 0 } },\frac { d y } { d x } | _ { x = x _ { 0 }}或\frac { d f ^ { \prime } x } { d x } \ | _ { x = x _ { 0 } }

1.2.3. 微分

微分定义:假设函数 y=f(x)y = f(x) 在点 x0x_0 附近有定义,如果存在一个常数 AA,使得当增量 Δx0\Delta x \to 0 时:

Δy=f(x0+Δx)f(x0)=AΔx+o(Δx)\Delta y = f(x_0 + \Delta x) - f(x_0) = A \cdot \Delta x + o(\Delta x)

Δy\Delta y 是函数值的变化量,AA 是一个常数(与 Δx\Delta x 无关),o(Δx)o(\Delta x) 表示当 Δx0\Delta x \to 0 时,比 Δx\Delta x 高阶的无穷小量(即它的大小相对于 Δx\Delta x 可忽略)。微分记作:

dy=f(x0)dxdy = f'(x_0) \, dx

其中 dxdxΔx\Delta x 的无穷小近似。


备注:

[1] 这里的描述很像数列极限的定义:ε>0,N,当n>N时有xnA<ε,则limnxn=A\forall \varepsilon > 0 , 总 \exists N ,当 n > N 时 有 | x _ { n } - A | < \varepsilon ,则 \lim _ { n \rightarrow \infty } x _ { n } = A

2. 随机变量与分布

2.1. 样本空间

定义:一次随机试验中,所有可能结果的集合,并且这些结果是互斥且完备的。

记作:

Ω={ω1,ω2,}\Omega = \{\omega_1, \omega_2, \dots\}

其中:

  • 每个 ωi\omega_i 叫做一个样本点(sample point)。
  • 样本空间里包含了试验的所有可能结果,且任何一次试验的结果必定落在样本空间中。

2.2. 贝叶斯公式

条件概率定义:在事件 BB 已经发生的前提下,事件 AA 发生的概率。

记作:

P(AB)=P(AB)P(B),P(B)>0P(A|B) = \frac{P(A \cap B)}{P(B)},\quad P(B) > 0

其中:

  • P(AB)P(A \cap B) = AABB 同时发生的概率。
  • P(B)P(B) = 事件 BB 发生的概率。
  • 分母 P(B)P(B) 就是“限定条件”发生的概率,保证比例正确。

由下面两个乘法公式:

P(AB)P(B)=P(BA)P(A)P(A|B) \cdot P(B) = P(B|A) \cdot P(A)

整理得:

P(AB)=P(BA)P(A)P(B),P(B)>0P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}, \quad P(B) > 0

此即贝叶斯公式,各部分的意义:

  • P(A)P(A):先验概率(Prior),或边缘概率。之所以称为“先验”是因為它不考虑任何B方面的因素。
  • P(BA)P(B|A):似然(Likelihood),如果 AA 发生,观察到 BB 的可能性。
  • P(B)P(B):证据(Evidence),BB 的先验概率,所有可能情况导致 BB 发生的总体概率。
  • P(AB)P(A|B):后验概率(Posterior),已知 BB 发生后 AA 的条件概率。

2.3. 全概率公式

设:

  • A1,A2,,AnA_1, A_2, \dots, A_n 是一组互斥完备的事件(也叫样本空间的一个划分):
    • 互斥:AiAj=A_i \cap A_j = \varnothing(i ≠ j)
    • 完备:A1A2An=ΩA_1 \cup A_2 \cup \dots \cup A_n = \Omega(必有一个发生)
  • P(Ai)>0P(A_i) > 0

那么,对于任意事件 BB,有:

P(B)=i=1nP(BAi)P(Ai)P(B) = \sum_{i=1}^n P(B|A_i) \cdot P(A_i)

其中:

P(Ai)P(A_i):某个“原因”或“背景情况”的概率

P(BAi)P(B|A_i):在这个原因下,BB 发生的条件概率

把所有可能原因下 BB 的贡献加起来,就是 BB 的总概率。

2.4. 两种类型的随机变量

随机变量是一个将样本空间的元素映射为实数的函数

X:ΩRX : \Omega \to \mathbb{R}

它的“随机”体现在:试验结果不确定,因而变量取值也不确定。

2.4.1. 离散型随机变量

如果随机变量的取值是有限个或可列无限个,那么它就是离散型的。可以用概率质量函数(PMF)描述:

pX(x)=P(X=x)p_X(x) = P(X = x)

2.4.2. 连续型随机变量

如果随机变量的取值是连续区间(不可列举),并且它的概率只能通过区间来计算(单个点的概率为 0),那么它就是连续型的。用概率密度函数(PDF)描述:

fX(x)0f_X(x) \ge 0

2.5. 常见的概率分布

2.5.1. 离散型

伯努利分布(Bernoulli)

  • 定义:一次只有两种可能结果(成功=1,失败=0)

  • 参数:成功概率 pp

  • PMF:

    P(X=x)=px(1p)1x,x{0,1}P(X=x) = p^x (1-p)^{1-x}, \quad x \in \{0,1\}
  • 例子:一次硬币投掷(正面/反面)

  • XBern(p)X∼Bern(p)

二项分布(Binomial)

  • 定义:n 次独立伯努利试验中成功的次数

  • 参数:nn 次试验,成功概率 pp

  • PMF:

    P(X=k)=(nk)pk(1p)nkP(X=k) = \binom{n}{k} p^k (1-p)^{n-k}
  • 例子:10 次投篮命中数

  • XBin(n,p)X∼Bin(n,p)

几何分布(Geometric)

  • 定义:第一次成功前的失败次数

  • PMF:

    P(X=k)=(1p)kp,k=0,1,2,P(X=k) = (1-p)^k p, \quad k=0,1,2,\dots
  • 例子:买彩票直到中奖的次数

  • XGeo(p)X∼Geo(p)

泊松分布(Poisson)

  • 定义:单位时间/空间内事件发生的次数

  • 参数:λ\lambda(平均发生次数)

  • PMF:

    P(X=k)=λkeλk!P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}
  • 例子:一分钟接到的电话数

  • XPois(λ)X \sim \mathrm{Pois}(\lambda)

2.5.2. 连续型

均匀分布(Uniform)

  • 定义:区间内每个点的概率相同

  • 参数:区间 [a,b][a,b]

  • PDF:

    fX(x)=1ba,x[a,b]f_X(x) = \frac{1}{b-a},\quad x \in [a,b]
  • 例子:随机生成 0~1 之间的数

  • XU(a,b)X \sim U(a, b)

正态分布(Normal / Gaussian)

  • 定义:自然界、测量误差、身高体重等常见

  • 参数:均值 μ\mu,方差 σ2\sigma^2

  • PDF:

    fX(x)=12πσ2e(xμ)22σ2f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x-\mu)^2}{2\sigma^2} }
  • 特性:钟形曲线、对称

  • XN(μ,σ2)X∼N(μ,σ2)

指数分布(Exponential)

  • 定义:事件间隔时间的分布

  • 参数:λ\lambda(速率参数)

  • PDF:

    fX(x)=λeλx,x0f_X(x) = \lambda e^{-\lambda x},\quad x\ge 0
  • 例子:公交车到站间隔时间

  • XExp(λ)X \sim \mathrm{Exp}(\lambda)

卡方分布(Chi-square)

  • 定义:标准正态变量平方和的分布
  • 用途:统计检验、方差分析
  • Xχ2(k)X \sim \chi^2(k)

3. 分布特征量

3.1. 数学期望

3.1.1. 离散型

若随机变量 XX 取值为 x1,x2,,xnx_1, x_2, \dots, x_n,概率分别为 p1,p2,,pnp_1, p_2, \dots, p_n,则:

E[X]=i=1nxipi\mathbb{E}[X] = \sum_{i=1}^n x_i \, p_i

就是每个可能取值乘以其概率,再加起来。

3.1.2. 连续型

若随机变量 XX 的概率密度函数为 fX(x)f_X(x),则:

E[X]=+xfX(x)dx\mathbb{E}[X] = \int_{-\infty}^{+\infty} x \, f_X(x) \, dx

依然是加权平均,只不过用积分代替了求和。

3.2. 方差

方差(Variance)描述的是随机变量取值相对于其均值的离散程度。

记作:

Var(X)=E[(XE[X])2]Var(X) = \mathbb{E}\big[(X - \mathbb{E}[X])^2\big]

方差有两个常见的等价公式:

  1. 定义式
Var(X)=E[(Xμ)2],μ=E[X]Var(X) = \mathbb{E}[(X - \mu)^2], \quad \mu = \mathbb{E}[X]
  1. 计算式(更常用)
Var(X)=E[X2](E[X])2Var(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2

3.3. 协方差与相关系数

协方差用来度量两个随机变量之间的线性相关程度。它刻画的是:当一个变量变化时,另一个变量是否有相应的变化趋势。

设有两个随机变量 XXYY,其期望分别是 E[X]=μX\mathbb{E}[X] = \mu_XE[Y]=μY\mathbb{E}[Y] = \mu_Y。 协方差定义为:

Cov(X,Y)=E[(XμX)(YμY)]\mathrm{Cov}(X, Y) = \mathbb{E}\Big[(X - \mu_X)(Y - \mu_Y)\Big]

也可以写成:

Cov(X,Y)=E[XY]E[X]E[Y]\mathrm{Cov}(X, Y) = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]

正协方差(Cov(X,Y)>0\mathrm{Cov}(X, Y) > 0):说明 XX 大时,YY 也倾向于大,二者呈正相关。

负协方差(Cov(X,Y)<0\mathrm{Cov}(X, Y) < 0):说明 XX 大时,YY 倾向于小,二者呈负相关。

零协方差(Cov(X,Y)=0\mathrm{Cov}(X, Y) = 0):说明两个变量不存在线性相关性,但注意不代表独立(独立 ⇒ 协方差为0,但协方差为0不一定独立)。

协方差本身没有统一的尺度(数值大小依赖于量纲),所以我们常用相关系数来衡量强弱:

ρXY=Cov(X,Y)σXσY\rho_{XY} = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}

其中 σX,σY\sigma_X, \sigma_Y 分别是 X,YX, Y 的标准差。 这样 ρXY\rho_{XY} 的取值范围是 [1,1][-1, 1],更直观。

4. 中心极限定理

中心极限定理(Central Limit Theorem, CLT)的直观想法是假设你有很多个相互独立分布相同的随机变量(比如扔硬币、掷骰子),它们的分布可能不是正态的,可能偏得很厉害,但当你取它们的平均值时,结果的分布会逐渐趋近于一个正态分布

设随机变量 X1,X2,,XnX_1, X_2, \dots, X_n 独立同分布,

  • 数学期望:E[Xi]=μ\mathbb{E}[X_i] = \mu
  • 方差:Var(Xi)=σ2>0\mathrm{Var}(X_i) = \sigma^2 > 0

定义它们的标准化和:

Zn=i=1nXinμσnZ_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sigma \sqrt{n}}

那么,当 nn \to \infty 时:

Zn    d    N(0,1)Z_n \;\;\xrightarrow{d}\;\; N(0,1)

意思是:标准化的和(或均值)分布收敛到标准正态分布

评论