如果函数 F(x) 是连续函数 f(x) 在区间 [a,b] 上的一个原函数,则:
∫abf(x)dx=F(b)−F(a)
极限定义:设函数 f(x) 在点 x0 的某一去心邻域内有定义,如果存在常数 A,对于任意给定的正数 e(不论它多么小),总存在正数 d,使得当 x 满足不等式 0<∣x−x0∣<d 时,对应的函数值 f(x) 都满足不等式 ∣f(X)−A∣<e , 那么常数 A 就叫做函数 f(x) 在 x→x0 时的极限[1],记为:
x→x0limf(x)=A
,等价于:
∀ε>0,∃δ>0,当0<∣x−x0∣<δ时,∣f(x)−A∣<ε
导数定义:
f′(x0)=Δx→0limΔxΔy=Δx→0limΔxf(x0+Δx)−f(x0)
也记为:
y′∣x=x0,dxdy∣x=x0或dxdf′x ∣x=x0
微分定义:假设函数 y=f(x) 在点 x0 附近有定义,如果存在一个常数 A,使得当增量 Δx→0 时:
Δy=f(x0+Δx)−f(x0)=A⋅Δx+o(Δx)
Δy 是函数值的变化量,A 是一个常数(与 Δx 无关),o(Δx) 表示当 Δx→0 时,比 Δx 高阶的无穷小量(即它的大小相对于 Δx 可忽略)。微分记作:
dy=f′(x0)dx
其中 dx 是 Δx 的无穷小近似。
备注:
[1] 这里的描述很像数列极限的定义:∀ε>0,总∃N,当n>N时有∣xn−A∣<ε,则limn→∞xn=A
定义:一次随机试验中,所有可能结果的集合,并且这些结果是互斥且完备的。
记作:
Ω={ω1,ω2,…}
其中:
- 每个 ωi 叫做一个样本点(sample point)。
- 样本空间里包含了试验的所有可能结果,且任何一次试验的结果必定落在样本空间中。
条件概率定义:在事件 B 已经发生的前提下,事件 A 发生的概率。
记作:
P(A∣B)=P(B)P(A∩B),P(B)>0
其中:
- P(A∩B) = A 和 B 同时发生的概率。
- P(B) = 事件 B 发生的概率。
- 分母 P(B) 就是“限定条件”发生的概率,保证比例正确。
由下面两个乘法公式:
P(A∣B)⋅P(B)=P(B∣A)⋅P(A)
整理得:
P(A∣B)=P(B)P(B∣A)⋅P(A),P(B)>0
此即贝叶斯公式,各部分的意义:
- P(A):先验概率(Prior),或边缘概率。之所以称为“先验”是因為它不考虑任何B方面的因素。
- P(B∣A):似然(Likelihood),如果 A 发生,观察到 B 的可能性。
- P(B):证据(Evidence),B 的先验概率,所有可能情况导致 B 发生的总体概率。
- P(A∣B):后验概率(Posterior),已知 B 发生后 A 的条件概率。
设:
- A1,A2,…,An 是一组互斥且完备的事件(也叫样本空间的一个划分):
- 互斥:Ai∩Aj=∅(i ≠ j)
- 完备:A1∪A2∪⋯∪An=Ω(必有一个发生)
- P(Ai)>0
那么,对于任意事件 B,有:
P(B)=i=1∑nP(B∣Ai)⋅P(Ai)
其中:
P(Ai):某个“原因”或“背景情况”的概率
P(B∣Ai):在这个原因下,B 发生的条件概率
把所有可能原因下 B 的贡献加起来,就是 B 的总概率。
随机变量是一个将样本空间的元素映射为实数的函数:
X:Ω→R
它的“随机”体现在:试验结果不确定,因而变量取值也不确定。
如果随机变量的取值是有限个或可列无限个,那么它就是离散型的。可以用概率质量函数(PMF)描述:
pX(x)=P(X=x)
如果随机变量的取值是连续区间(不可列举),并且它的概率只能通过区间来计算(单个点的概率为 0),那么它就是连续型的。用概率密度函数(PDF)描述:
fX(x)≥0
伯努利分布(Bernoulli)
二项分布(Binomial)
几何分布(Geometric)
-
定义:第一次成功前的失败次数
-
PMF:
P(X=k)=(1−p)kp,k=0,1,2,…
-
例子:买彩票直到中奖的次数
-
X∼Geo(p)
泊松分布(Poisson)
均匀分布(Uniform)
正态分布(Normal / Gaussian)
-
定义:自然界、测量误差、身高体重等常见
-
参数:均值 μ,方差 σ2
-
PDF:
fX(x)=2πσ21e−2σ2(x−μ)2
-
特性:钟形曲线、对称
-
X∼N(μ,σ2)
指数分布(Exponential)
卡方分布(Chi-square)
- 定义:标准正态变量平方和的分布
- 用途:统计检验、方差分析
- X∼χ2(k)
若随机变量 X 取值为 x1,x2,…,xn,概率分别为 p1,p2,…,pn,则:
E[X]=i=1∑nxipi
就是每个可能取值乘以其概率,再加起来。
若随机变量 X 的概率密度函数为 fX(x),则:
E[X]=∫−∞+∞xfX(x)dx
依然是加权平均,只不过用积分代替了求和。
方差(Variance)描述的是随机变量取值相对于其均值的离散程度。
记作:
Var(X)=E[(X−E[X])2]
方差有两个常见的等价公式:
- 定义式
Var(X)=E[(X−μ)2],μ=E[X]
- 计算式(更常用)
Var(X)=E[X2]−(E[X])2
协方差用来度量两个随机变量之间的线性相关程度。它刻画的是:当一个变量变化时,另一个变量是否有相应的变化趋势。
设有两个随机变量 X 和 Y,其期望分别是 E[X]=μX,E[Y]=μY。
协方差定义为:
Cov(X,Y)=E[(X−μX)(Y−μY)]
也可以写成:
Cov(X,Y)=E[XY]−E[X]E[Y]
正协方差(Cov(X,Y)>0):说明 X 大时,Y 也倾向于大,二者呈正相关。
负协方差(Cov(X,Y)<0):说明 X 大时,Y 倾向于小,二者呈负相关。
零协方差(Cov(X,Y)=0):说明两个变量不存在线性相关性,但注意不代表独立(独立 ⇒ 协方差为0,但协方差为0不一定独立)。
协方差本身没有统一的尺度(数值大小依赖于量纲),所以我们常用相关系数来衡量强弱:
ρXY=σXσYCov(X,Y)
其中 σX,σY 分别是 X,Y 的标准差。
这样 ρXY 的取值范围是 [−1,1],更直观。
中心极限定理(Central Limit Theorem, CLT)的直观想法是假设你有很多个相互独立、分布相同的随机变量(比如扔硬币、掷骰子),它们的分布可能不是正态的,可能偏得很厉害,但当你取它们的和或平均值时,结果的分布会逐渐趋近于一个正态分布。
设随机变量 X1,X2,…,Xn 独立同分布,
- 数学期望:E[Xi]=μ
- 方差:Var(Xi)=σ2>0
定义它们的标准化和:
Zn=σn∑i=1nXi−nμ
那么,当 n→∞ 时:
ZndN(0,1)
意思是:标准化的和(或均值)分布收敛到标准正态分布。