概率统计分析与量测技术笔记

这是一个定义/定理/定律

这是一些性质或者注意点

这是一个例子

这是题解/证明

本博文为2023秋季学期续本达老师开设的"概率统计分析与量测技术"课程的笔记.该课程的课件资源与视频资源可在此网站找到:https://hep.tsinghua.edu.cn/~orv/teaching/statistics/

博主本来在hedgedoc编辑本文,但是非常铸币地使用了demo版编辑.于是在编辑完后的第二天,博主惊奇地发现自己的博文已经化为乌有且没有备份,无奈转战hexo,大家引以为戒.(QAQ)

L1 课程介绍,随机事件

(待补)

L2 概率定义与解释

(待补)

L3 条件概率与独立事件

(待补)

L4 随机变量与分布

(待补)

L5 连续性随机变量

(待补)

L6 随机变量的函数

首先介绍一些上节课没说完的连续性随机变量分布:

6.1 伽马分布

伽马分布定义

若随机变量XX的概率密度为

f(x;α,λ)=λαΓ(α)xα1eλx,x0f(x;\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x\geq 0

α>0,λ>0\alpha>0,\lambda>0为常数,则称XX服从伽马分布,记作:XGa(α,λ)X\sim Ga(\alpha,\lambda).

如果不熟悉的话,伽马函数的定义为:

Γ(α)=0xα1exdx\Gamma(\alpha)=\int_0^{\infty}x^{\alpha-1}e^{-x}dx

其中要求α>0\alpha>0.

伽马函数的一些重要的性质:

  • Γ(1)=1,Γ(12)=π\Gamma(1)=1,\Gamma(\frac12)=\sqrt{\pi}
  • nn是整数,Γ(n+1)=n!\Gamma(n+1)=n!

伽马分布性质

伽马分布的性质有:

  • Ga(1,λ)=Exp(λ)Ga(1,\lambda)=Exp(\lambda)(因此,指数分布也是一种特殊的伽马分布)

  • 可加性:

    X1Ga(α1,λ),X2Ga(α2,λ)X_1\sim Ga(\alpha_1,\lambda),X_2\sim Ga(\alpha_2,\lambda),那么X1+X2Ga(α1+α2,λ)X_1+X_2\sim Ga(\alpha_1+\alpha_2,\lambda).

    证明留到L8.

    这一性质是针对参数α\alpha的,该参数也可被叫做形状参数.

  • 伸缩自相似性:

    f(x;α,λ)dx=f(λx;α,1)d(λx)f(x;\alpha,\lambda)dx=f(\lambda x;\alpha,1)d(\lambda x)

    证明:

    LHS=λαΓ(α)xα1eλxdx=1Γ(α)(λx)α1eλxd(λx)=RHS\begin{aligned} LHS &= \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}dx\\ &= \frac{1}{\Gamma(\alpha)}(\lambda x)^{\alpha-1}e^{-\lambda x}d(\lambda x)\\ &= RHS\end{aligned}

    这一性质是针对参数λ\lambda的,该参数也被叫做速率参数.(回忆泊松分布,是不是很像?)

与泊松分布共轭

回忆泊松分布的分布列:

P(X=k)=λkk!eλ,k=0,1,2,...P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2,...

我们在泊松分布中固定了参数λ\lambda,随机变量为kk.不难发现,如果我们固定参数kk,改变随机变量λ\lambda,那么泊松分布就变成了伽马分布!其中λGa(k+1,1)\lambda\sim Ga(k+1,1).这种分布之间的共轭关系会在下半学期的贝叶斯分析中得到进一步应用.

R语言绘图

(?)

6.2 卡方分布

卡方分布定义

若随机变量XX的概率密度为

f(x;n)=xn/212n/2Γ(n/2)ex2,x0f(x;n)=\frac{x^{n/2-1}}{2^{n/2}\Gamma(n/2)}e^{-\frac{x}{2}},x\geq 0

其中nn为整数.亦即XGa(n2,12)X\sim Ga(\frac{n}{2},\frac{1}{2}),则称XX服从卡方分布,记作:Xχ2(n)X\sim \chi^2(n)

卡方分布其实就是某种特殊的伽马分布,但它在数理统计中有特殊的地位.

例6.1(χ2(1)\chi^2(1))

f(x)=12πxex2,x0f(x)=\frac{1}{\sqrt{2\pi x}}e^{-\frac x2},x\geq 0

虽然limx0+f(x)=+\lim_{x\to 0_+}f(x)=+\infty,但是在广义积分下,limx0+0xf(x)dx=0\lim_{x\to 0_+}\int_0^xf(x)dx=0,因此其分布函数F(x)F(x)有良定义.

卡方分布的构造

卡方分布可以用一组满足正态分布的独立随机变量平方和来构造:

对于一组满足标准正态分布的随机变量X1,X2,...,XnN(0,1)X_1,X_2,...,X_n\sim N(0,1),如果它们相互独立,那么:

X12+X22+...+Xn2χ2(n)X_1^2+X_2^2+...+X_n^2\sim \chi^2(n)

证明思路:

首先证明X12χ2(1)X_1^2\sim \chi^2(1)(见例6.8);再利用伽马分布的可加性即得证.

R语言绘图

(?)

6.3 贝塔分布

贝塔分布定义

若随机变量XX的概率密度为

f(x;a,b)=1B(a,b)xa1(1x)b1,0<x<1f(x;a,b)=\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1},0<x<1

a>0,b>0a>0,b>0为常数,则称XX服从贝塔分布,记作:XBe(a,b)X\sim Be(a,b).

如果不熟悉的话,贝塔函数的定义为:

B(a,b)=01xa1(1x)b1dx\Beta(a,b)=\int_0^{1}x^{a-1}(1-x)^{b-1}dx

其中要求α>0\alpha>0.

贝塔函数的一些重要的性质:

  • B(a,b)=B(b,a)\Beta(a,b)=\Beta(b,a)
  • B(a,b)=Γ(a)Γ(b)Γ(a+b)\Beta(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}("广义"的组合数公式!)

贝塔分布性质

贝塔分布性质有:

  • Be(1,1)=U(0,1)Be(1,1)=U(0,1)

  • f(x;a,b)dx=f(1x;b,a)dxf(x;a,b)dx=-f(1-x;b,a)dx(某种反对称性?)

    (可见,如果a=ba=b,那么贝塔分布关于x=12x=\frac{1}{2}对称.)

与二项分布共轭

回忆二项分布分布列:

P(X=k)=(nk)pk(1p)nkP(X=k)=\begin{pmatrix} n \\ k \end{pmatrix}p^k(1-p)^{n-k}

在二项分布中固定了参数n,pn,p,改变随机变量kk,但如果固定参数n,kn,k,改变随机变量pp,则变成了贝塔分布,其中pBe(k+1,nk+1)p\sim Be(k+1,n-k+1).

本例中,我们能直观看出pp分布的意义:已知某nn重伯努利实验成功kk次的条件下,每次实验成功概率pp的概率分布,从而确认"我们的硬币是否公平".这里确实能give us a taste of Bayesian Analysis.

R语言绘图

(?)

6.4 柯西分布和朗道分布

这两个分布是一般的统计学课上不怎么研究的,然而工物系的实验里、粒子物理和核物理领域中它们是常客.

柯西分布

XX概率密度为

f(x)=1π11+x2,<x<+f(x)=\frac{1}{\pi}\frac{1}{1+x^2},-\infty<x<+\infty

则称XX服从柯西分布.

这个分布的性质不是很好,其期望、方差均不收敛.但在粒子物理中经常遇到,即大名鼎鼎(?)的布莱特-魏格纳分布.

例6.2(布莱特-魏格纳分布,Breit-Wigner)

粒子物理中该分布描述不稳定粒子的质量分布,形式为:

f(x,m0,Γ)=1πΓ/2Γ2/4+(xm0)2,<x<+f(x,m_0,\Gamma)=\frac{1}{\pi}\frac{\Gamma/2}{\Gamma^2/4+(x-m_0)^2},-\infty<x<+\infty

其中mm是粒子的质量,Γ\Gamma代表能谱(质量谱)的展宽.

朗道分布

速度为β=vc\beta=\frac{v}{c}的带电粒子穿过一层厚度dd的物质,其能量损失Δ\Delta服从朗道分布.分布形式很复杂,不展开介绍了,以下仅供观瞻:

f(Δ;β)=1ξΦ(λ(Δ))f(\Delta;\beta)=\frac{1}{\xi}\Phi(\lambda(\Delta))

其中:

Φ(λ)=1π0eu(logu+λ)sin(πu)duλ(Δ)=1ξ[Δξ(logξϵ+111β2)]\Phi(\lambda)=\frac{1}{\pi}\int_0^{\infty}e^{-u(\log{u}+\lambda)}\sin({\pi u})du \\ \lambda(\Delta)=\frac{1}{\xi}\left[ \Delta-\xi\left( \log{\frac{\xi}{\epsilon'}}+1-\frac{1}{\sqrt{1-\beta^2}} \right) \right]

参数定义为(II为平均激发能):

ξ=2πNAE4Z2ρ(Z)mec2(A)ϵ=I2(1β2)eβ22mec2β2\xi=\frac{2\pi N_AE^4Z^2\rho (\sum Z)}{m_ec^2(\sum A)} \\ \epsilon'=\frac{I^2(1-\beta^2)e^{\beta^2}}{2m_ec^2\beta^2}

它可以描述粒子的电离能损或能量沉积.

6.5 随机变量小结

可以总结出一个表格:

离散型 连续型
分布律 分布列:pk=P(X=xk)p_k=P(X=x_k) 密度函数:f(x)dxf(x)dx
分布函数 F(x)=xi<xP(X=xi)F(x)=\sum_{x_i<x}P(X=x_i) F(x)=xf(x)dxF(x)=\int_{-\infty}^xf(x)dx
概率 逐点计算 P(a<Xb)=F(b)F(a)P(a<X\leq b)=F(b)-F(a),但P(X=a)=0P(X=a)=0
分布函数连续性 F(x)F(x)阶梯函数,右连续 F(x)F(x)连续函数

6.6 随机变量的函数分布

在一些试验中,所关心的随机变量往往不能直接测量得到,而是某个直接测量所得随机变量的函数,此时我们会对某些随机变量的函数的分布更感兴趣.

比如,测量圆轴截面的直径DD,而关心的却是截面面积A=πD24A=\frac{\pi D^2}{4},这里有A=g(D)A=g(D),g()g(\cdot)为某已知连续函数,我们将讨论如何从DD的分布导出g(D)g(D)的分布.

离散型随机变量的函数分布

对于离散性随机变量,定义是直观的.考虑随机变量XX,其分布列为:

P(X=xi)=pi,i=1,2,3,...P(X=x_i)=p_i,i=1,2,3,...

那么对于Y=g(X)Y=g(X),其分布列自然为:

P(Y=yi)=xg1(yi)P(X=x)P(Y=y_i)=\sum_{x\in g^{-1}(y_i)}P(X=x)

也就是说,如果g(x1)=g(x2)=y0g(x_1)=g(x_2)=y_0,那么计算Y=y0Y=y_0概率时,两概率要相加合并.

例6.3

设随机变量XX分布律如下,求Y=(X1)2Y=(X-1)^2的分布律

XX-1012
pkp_k0.20.30.10.4

(答案略)

连续型随机变量的函数分布

利用上面的结论,我们不难将上述结论推广至XX为连续型随机变量的情况.记X,YX,Y的分布函数分别为FX(x),FY(y)F_X(x),F_Y(y),密度函数分别为fX(x),fY(y)f_X(x),f_Y(y),那么:

FY(y)=DyfX(x)dx,Dy={xRg(x)y}F_Y(y)=\int_{D_y} f_X(x)dx,D_y=\{x\in \mathbb{R}|g(x)\leq y\}

如果映射gg严格单调(增)且连续,那么在FXF_X定义域内gg的反函数g1g^{-1}存在,有:

FY(y)=P(Yy)=P(Xg1(y))=FX(g1(y))F_Y(y)=P(Y\leq y)=P(X\leq g^{-1}(y))=F_X(g^{-1}(y))

例6.4

设随机变量XX有概率密度

fX(x)={x8,0<x<40,其他f_X(x)=\begin{cases} \frac{x}{8}\,\,\,\,,0<x<4\\ 0\,\,\,\,,其他\end{cases}

求随机变量Y=2X+8Y=2X+8概率密度.

(答案略)

我们还可以把映射gg的性质变得再好一些:处处可导,这样密度函数的变换也很容易导出:

连续性随机变量函数的概率密度定理:

设随机变量XX概率密度为fX(x),<x<+f_X(x),-\infty<x<+\infty,g(x)g(x)处处可导且g(x)g'(x)总不变号(恒非负或非正),则Y=g(X)Y=g(X)是连续型随机变量,其概率密度为:

fY(y)={fX(g1(y))g1(y),a<y<b0,其他 f_Y(y)=\begin{cases} f_X(g^{-1}(y))|g^{-1}{'}(y)|\,\,\,\,,a<y<b\\ 0\,\,\,\,,其他 \end{cases}

证明:

将上文中分布函数形式的定理求导即可得到.注意绝对值!

另一个直观的推导方法是利用fX(x)dx=fY(y)dyf_X(x)|dx|=f_Y(y)|dy|式中的微分形式关系,过程trivial,略.

理论介绍完毕,下面给出几个例题:

例6.5(正态分布伸缩平移)

设随机变量XN(μ,σ2)X\sim N(\mu,\sigma^2),求证Y=aX+bN(aμ+b,(aσ)2)Y=aX+b\sim N(a\mu+b,(a\sigma)^2)(其中a0a\neq 0)

(答案略,带公式即可)

例6.6(柯西分布的构造)

设随机变量XU(π/2,π/2)X\sim U(-\pi/2,\pi/2),求Y=tan(X)Y=\tan(X)分布.

(答案略,带公式即可)

上题中我们从均匀分布推出了柯西分布.实际上,均匀分布的可延展性比这还要强:它可以通过复合函数构造任意分布!

例6.6(均匀分布的构造)

若随机变量XX的分布函数FX(x)F_X(x)为严格单调增的连续函数,反函数存在,则Y=FX(X)U(0,1)Y=F_X(X)\sim U(0,1).

证明:

利用映射反函数存在情形的定理即得FY(y)=FX(FX1(y))=y,0y1F_Y(y)=F_X(F_X^{-1}(y))=y,0\leq y\leq1,于是Y=FX(X)U(0,1)Y=F_X(X)\sim U(0,1).

上述过程逆过来即:可以用均匀分布生成任意连续分布.

例6.7(反函数不存在的情形)

设随机变量XX有概率密度fX(x),<x<+f_X(x),-\infty<x<+\infty,求Y=X2Y=X^2概率密度.

解:

利用原始形式的概率密度定理即可:

FY(y)=P(Yy)=P(yXy)=FX(y)FX(y)F_Y(y)=P(Y\leq y)=P(-\sqrt{y}\leq X\leq\sqrt{y})=F_X(\sqrt{y})-F_X(-\sqrt{y})

求导得到:

fY(y)={12y[fX(y)+fX(y)],y>00,y0f_Y(y)=\begin{cases} \frac{1}{2\sqrt{y}}[f_X(\sqrt{y})+f_X(-\sqrt{y})]\,\,\,\,,y>0\\ \\ 0\,\,\,\,,y\leq 0\end{cases}

不难发现,带入XN(0,1)X\sim N(0,1),即fX(x)=12πex22f_X(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}可以得到fY(y)=12πyey2,y>0f_Y(y)=\frac{1}{\sqrt{2\pi y}}e^{-\frac{y}{2}},y>0,也就是说Yχ2(1)Y\sim \chi^2(1)!这样我们就解决了6.1节中的一个遗留问题.

L7 二维随机变量

(待补)

L8 二维随机变量函数

8.1 二维正态分布

我们通常能通过一些一维分布的拼贴构造出一些二元分布(比如上节课的泊松+二项=新的泊松),而教材中唯一特别讨论的二维分布就是二维正态分布.

考虑XN(μ1,σ12),YN(μ2,σ22)X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2),两者相互独立

fX(x)=12πσ1exp[(xμ1)22σ12]fY(y)=12πσ2exp[(yμ2)22σ22]f(x,y)=fX(x)fY(y)=12πσ1σ2exp[(xμ1)22σ12(yμ2)22σ22]\begin{aligned} \Longrightarrow &f_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}\exp\left[ -\frac{(x-\mu_1)^2}{2\sigma_1^2} \right]\\ &f_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}\exp\left[ -\frac{(y-\mu_2)^2}{2\sigma_2^2} \right]\\ \Longrightarrow &f(x,y)=f_X(x)f_Y(y)=\frac{1}{2\pi\sigma_1\sigma_2}\exp\left[ -\frac{(x-\mu_1)^2}{2\sigma_1^2}-\frac{(y-\mu_2)^2}{2\sigma_2^2} \right] \end{aligned}

于是拓展后我们得到如下定义:

二维正态分布的定义

f(x,y)=12πσ1σ21ρ2e12(1ρ2)[(xμ1)2σ122ρ(xμ1)(yμ2)σ1σ2+(yμ2)2σ22]f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\right]}

具有以上概率密度函数的分布称为二维正态分布.

以上为二维正态分布的标准形式,其中能体现出一些与我们的直觉相关的特征量.记作:(X,Y)N(μ1,σ12;μ2,σ22;ρ)(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)

特征量的含义

(X,Y)N(μ1,σ12;μ2,σ22;ρ)(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)

容易证明,X,YX,Y相互独立等价于ρ=0\rho=0.

证明思路:
右推左易证,左推右考虑x=μ1,y=μ2x=\mu_1,y=\mu_211ρ2=1\frac{1}{\sqrt{1-\rho^2}}=1即可.

思考题:(选做,总评+2%)

ρ=±1\rho = \pm 1时,N(μ1,σ12;μ2,σ22;ρ)N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)会变成什么分布?

多维伽马分布调研作业(选做,总评至多+15%)

二维正态分布是最常用的多维随机变量分布.但当我们想考虑全部为正实数的随机变量时,更常用的是多维伽马分布,Multivariate Gamma Distribution.

f(z)=Σ1αzα1/2(p+1)βpαΓp(α)exp[1βtrΣ1z]f(\bm{z})=\frac{|\Sigma^{-1}|^\alpha|\bm{z}|^{\alpha-1/2(p+1)}}{\beta^{p\alpha}\Gamma_p(\alpha)}\exp\left[ -\frac{1}{\beta} \mathrm{tr}\Sigma^{-1}\bm{z}\right]

调研任务

①自行寻找相关教材或论文,可以请教老师和助教.

②调研文献中各类型的多维伽马分布定义,阐释其联系与区别.

③调研多维伽马分布中参数的含义.

④调研多维伽马分布的应用实例.

⑤学习使用LaTeX\LaTeX书写.

8.2 随机变量函数的分布

类似一维随机变量的函数,多个随机变量的函数同样重要.

譬如,对两个随机变量的函数,我们的目标如下:

假设(X,Y)(X,Y)是二维连续型随机变量,其概率密度为f(x,y)f(x,y).求随机变量Z=g(X,Y)Z=g(X,Y)的概率密度.

常见的g(X,Y)g(X,Y)形式有:X±Y,Y/X,XY,max{X,Y},min{X,Y}X \pm Y,Y/X,XY,\max\{X,Y\},\min\{X,Y\}等.

一般情形下的变换

多维情形的概率密度定理:

如果函数u=g1(x,y),v=g2(x,y)u=g_1(x,y),v=g_2(x,y)存在连续偏导数和邻域内的唯一反函数

{x=x(u,v)y=y(u,v)\begin{cases} x=x(u,v)\\ y=y(u,v)\end{cases}

该变换的雅可比行列式

J=(x,y)(u,v)=xuyuxvyvJ=\frac{\partial (x,y)}{\partial(u,v)}=\begin{vmatrix} \frac{\partial x}{\partial u} & \frac{\partial y}{\partial u} \\ \frac{\partial x}{\partial v} & \frac{\partial y}{\partial v} \end{vmatrix}

则随机变量U=g1(X,Y),V=g2(X,Y)U=g_1(X,Y),V=g_2(X,Y)的联合密度函数为

g(u,v)=f[x(u,v),y(u,v)]Jg(u,v)=f[x(u,v),y(u,v)]|J|

注意这里的双竖线J|J|表示雅可比行列式的绝对值.

下面用极坐标下的二维正态分布为例.

例8.1(极坐标)

假设x,yx,y是相互独立的随机变量,均服从N(0,1)N(0,1)分布.试证明变换为极坐标(ρ,ϕ)(\rho,\phi)之后,两者仍然是相互独立的随机变量,其中:

ρ=x2+y2,ρ>0ϕ=tan1(yx),ϕ[0,2π]\begin{aligned} &\rho=\sqrt{x^2+y^2} , &\rho>0\\ &\phi=\tan^{-1}\left( \frac{y}{x} \right) , &\phi\in[0,2\pi]\end{aligned}

并求(ρ,ϕ)(\rho,\phi)的概率密度函数.

>

解:

考虑到x=ρcosϕ,y=ρsinϕx=\rho \cos\phi,y=\rho \sin\phi,于是有:

J=xρyρxϕyϕ=cosϕsinϕρsinϕρcosϕ=ρJ=\begin{vmatrix} \frac{\partial x}{\partial \rho} & \frac{\partial y}{\partial \rho} \\ \frac{\partial x}{\partial \phi} & \frac{\partial y}{\partial \phi} \end{vmatrix}=\begin{vmatrix} \cos\phi & \sin\phi \\ -\rho\sin\phi & \rho\cos\phi \end{vmatrix}=\rho

于是乎:

g(ρ,ϕ)=f(x,y)J=12πe(ρcosϕ)2212πe(ρsinϕ)22ρ=12πρeρ22,ρ0\begin{aligned} g(\rho,\phi) &=f(x,y)|J|\\ &=\frac{1}{\sqrt{2\pi}}e^{-\frac{(\rho\cos\phi)^2}{2}}\cdot\frac{1}{\sqrt{2\pi}}e^{-\frac{(\rho\sin\phi)^2}{2}}\cdot\rho \\ &=\frac{1}{2\pi}\rho e^{-\frac{\rho^2}{2}},\rho\geq 0\end{aligned}

此为关于ρ\rho瑞利分布(是的,你也会在瑞利散射中看到这个函数).

  • 联合密度函数与ϕ\phi无关,根据定义有ρ,ϕ\rho,\phi相互独立.
  • ϕ\phi的边缘分布是均匀分布:

    fΦ(ϕ)=12π,ϕ[0,2π]f_{\Phi}(\phi)=\frac{1}{2\pi},\phi \in [0,2\pi]

增补变量法

回到我们的原始问题:假设(X,Y)(X,Y)是二维连续型随机变量,其概率密度为f(x,y)f(x,y).求随机变量U=g(X,Y)U=g(X,Y)的概率密度.

两个变量合并成一个函数变量,我们常常用增补变量法求解,简单过程图如下:

(X,Y)函数变换(g(X,Y),X)边缘分布g(X,Y)(X,Y)\stackrel{函数变换}{\longrightarrow}(g(X,Y),X)\stackrel{边缘分布}{\longrightarrow}g(X,Y)

  • 增补新变量V=XV=X或者V=YV=Y;
  • 用变换法求(U,V)(U,V)的联合密度函数g(u,v)g(u,v)
  • 关于vv积分,得到U=g(X,Y)U=g(X,Y)边缘密度函数.

以下我们要讨论的函数都可以用这一方法求解.

8.3 X+YX+Y

这是今天最最重要的一种函数,它还有一些fancy的别名:“卷积”、"探测器响应"等.

傅里叶卷积:

假设(X,Y)(X,Y)是二维连续性随机变量,其概率密度为f(x,y),<x,y<+f(x,y),-\infty<x,y<+\infty,则Z=X+YZ=X+Y仍然为连续型随机变量,其概率密度为

fX+Y(z)=+f(zy,y)dy=+f(x,zx)dxf_{X+Y}(z)=\int_{-\infty}^{+\infty}f(z-y,y)dy=\int_{-\infty}^{+\infty}f(x,z-x)dx

X,YX,Y相互独立,设它们的边缘密度分别为fX(x),fY(y)f_X(x),f_Y(y),则

fX+Y(z)=+fX(zy)fY(y)dy=+fX(x)fY(zx)dxf_{X+Y}(z)=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx

这被称为fX,fYf_X,f_Y傅里叶卷积公式,记为fXfYf_X * f_Y.

证明:

考虑随机变量ZZ的分布函数FZ(z)F_Z(z):

FZ(z)=x+yzf(x,y)dxdy=+zyf(x,y)dxdy\begin{aligned} F_Z(z)&=\iint_{x+y\leq z}f(x,y)dxdy\\ &=\int_{-\infty}^{+\infty}\int_{-\infty}^{z-y}f(x,y)dxdy\end{aligned}

做变量替换:(x,y)(u,y)=(x+y,y)(x,y)\rightarrow(u,y)=(x+y,y),有:

FZ(z)=+zf(uy,y)dudy=z[+f(uy,y)dy]dufX+Y(z)=FZ(z)=+f(zy,y)dy\begin{aligned} F_Z(z)&=\int_{-\infty}^{+\infty}\int_{-\infty}^{z}f(u-y,y)dudy\\ &=\int_{-\infty}^{z}\left[\int_{-\infty}^{+\infty}f(u-y,y)dy\right]du\\ \Longrightarrow f_{X+Y}(z)&=F'_Z(z)=\int_{-\infty}^{+\infty}f(z-y,y)dy\end{aligned}

证毕.

我们还有另一种利用微分形式与边缘分布的证明:我们知道微分形式有dxdy=dydx,dxdx=0dx\wedge dy=-dy\wedge dx,dx\wedge dx=0,于是考虑换元后元概率不变,有:

f(x,y)dxdy=f(zy,y)d(zy)dy=f(zy,y)(dzdydydy)=f(zy,y)dzdy\begin{aligned} f(x,y)dxdy&=f(z-y,y)d(z-y)dy\\ &=f(z-y,y)(dz\wedge dy-dy\wedge dy)\\ &=f(z-y,y)dzdy\end{aligned}

于是ZZ的边缘分布为

fZ(z)dz=[+f(zy,y)dy]dzf_Z(z)dz=\left[ \int_{-\infty}^{+\infty}f(z-y,y)dy \right] dz

同样得证,这个证明方法是严格的.

可以看到,通常简单的加法运算在随机变量的概率密度上可以等价映射为一个复杂的积分操作,还挺神奇的.反过来,一些复杂的积分也可以通过随机变量的简单运算来刻画,这方面会在学期最后一课介绍.

例8.2(高斯分布可加)

X,YX,Y是两个独立、符合N(0,1)N(0,1)分布的随机变量,求Z=X+YZ=X+Y的概率密度.

解:

容易写出:

fX+Y(z)=12π+e(zy)22ey22dy=12πez24+e(y12z)2dy=12πez24\begin{aligned} f_{X+Y}(z)&=\frac{1}{2\pi}\int_{-\infty}^{+\infty}e^{-\frac{(z-y)^2}{2}}e^{-\frac{y^2}{2}}dy\\ &=\frac{1}{2\pi}e^{-\frac{z^2}{4}}\int_{-\infty}^{+\infty}e^{-(y-\frac{1}{2}z)^2}dy \\ &= \frac{1}{2\sqrt{\pi}}e^{-\frac{z^2}{4}}\end{aligned}

服从N(0,2)N(0,2),仍然是一个高斯分布(正态分布).

类似的高斯不变现象还有很多,比如:

  • X,YX,Y相互独立,且XN(μ1,σ12),YN(μ1,σ12)X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_1,\sigma_1^2),那么X+YN(μ1+μ2,σ12+σ22)X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)
    (回忆:实验中加法的误差传递公式:不确定度平方和)
  • 边缘分布:若(X,Y)N(μ1,σ12;μ2,σ22;ρ)(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho),

    XN(μ1,σ12),YN(μ1,σ12)X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_1,\sigma_1^2)

  • 条件分布:若(X,Y)N(μ1,σ12;μ2,σ22;ρ)(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho),

    XYN(μ1(Yμ2)ρσ1σ2,(1ρ2)σ12)YXN(μ2(Yμ1)ρσ2σ1,(1ρ2)σ22)X|Y\sim N\left(\mu_1-(Y-\mu_2)\rho\frac{\sigma_1}{\sigma_2},(1-\rho^2)\sigma_1^2\right) \\ Y|X\sim N\left(\mu_2-(Y-\mu_1)\rho\frac{\sigma_2}{\sigma_1},(1-\rho^2)\sigma_2^2\right)

例8.3(指数分布)

XExp(λ),YExp(λ)X\sim Exp(\lambda),Y\sim Exp(\lambda)

那么X+YX+Y的分布?

解:

fX+Y(z)=0zλeλzλeλ(zx)dx=λ20zeλ(z)dx=λ2zeλz\begin{aligned} f_{X+Y}(z)&=\int_0^z \lambda e^{-\lambda z}\lambda e^{-\lambda(z-x)}dx\\ &=\lambda^2\int_0^ze^{-\lambda(z)}dx\\ &=\lambda^2ze^{-\lambda z}\end{aligned}

服从Ga(2,λ)Ga(2,\lambda),我们证明了L6中伽马分布的可加性.

8.4 Y/X,XYY/X,XY

梅林卷积:

假设(X,Y)(X,Y)是二维连续性随机变量,其概率密度为f(x,y),<x,y<+f(x,y),-\infty<x,y<+\infty,则YX,XY\frac{Y}{X},XY仍然为连续型随机变量,其概率密度为

fYX(z)=+xf(x,xz)dx,fXY(z)=+1xf(x,zx)dx f_{\frac{Y}{X}}(z)=\int_{-\infty}^{+\infty}|x|f(x,xz)dx,f_{XY}(z)=\int_{-\infty}^{+\infty}\frac{1}{|x|}f\left(x,\frac{z}{x}\right)dx

X,YX,Y相互独立,设它们的边缘密度分别为fX(x),fY(y)f_X(x),f_Y(y),则

fYX(z)=+xfX(x)fY(xz)dx,fXY(z)=+1xfX(x)fY(zx)dxf_{\frac{Y}{X}}(z)=\int_{-\infty}^{+\infty}|x|f_X(x)f_Y(xz)dx,f_{XY}(z)=\int_{-\infty}^{+\infty}\frac{1}{|x|}f_X(x)f_Y\left(\frac{z}{x}\right)dx

第二个公式被称为fX,fYf_X,f_Y梅林(Mellin)卷积公式

证明过程和傅里叶卷积的方法类似,仍然用增补变量法,此处略去.值得一提的是,教材中用线画区域证明,用了一页半的篇幅.(…)

例8.4(高斯翻车变柯西)

X,YX,Y为两个相互独立的随机变量,均服从N(0,1)N(0,1).求Z=YXZ=\frac{Y}{X}的概率密度.

解:
(X,Y)(X,Y)的联合密度函数为f(x,y)=12πex2+y22,<x,y<+f(x,y)=\frac{1}{2\pi}e^{-\frac{x^2+y^2}{2}},-\infty<x,y<+\infty

fYX(z)=+xf(x,zx)dx=12π+xex2(1+z2)2dx=1π0+xex2(1+z2)2dx=1π(1+z2)\begin{aligned} f_{\frac{Y}{X}}(z)&=\int_{-\infty}^{+\infty}|x|f(x,zx)dx\\ &=\frac{1}{2\pi}\int_{-\infty}^{+\infty}|x|e^{-\frac{x^2(1+z^2)}{2}}dx\\ &=\frac{1}{\pi}\int_{0}^{+\infty}xe^{-\frac{x^2(1+z^2)}{2}}dx\\ &=\frac{1}{\pi(1+z^2)}\end{aligned}

是一个典型的柯西分布.

8.5 min{X,Y}\min\{X,Y\}max{X,Y}\max\{X,Y\}

假设(X,Y)(X,Y)是两相互独立的随机变量,其分布函数分别为FX(x),FY(y)F_X(x),F_Y(y),则max(X,Y),min(X,Y)\max(X,Y),\min(X,Y)的分布为

Fmax(z)=FX(z)FY(z),Fmin(z)=1[1FX(z)][1FY(z)]F_{\max}(z)=F_X(z)F_Y(z),F_{\min}(z)=1-[1-F_X(z)][1-F_Y(z)]

进一步地若X,YX,Y独立同分布,则

Fmax(z)=[F(z)]2,Fmin(z)=1[1F(z)]2F_{\max}(z)=[F(z)]^2,F_{\min}(z)=1-[1-F(z)]^2

证明:
运用概率的基本公式以及独立事件的定义,

Fmax(z)=P((Xz)(Yz))=P(Xz)P(Yz)=FX(z)FY(z)Fmin(z)=P((Xz)(Yz))=1P((Xz)(Yz))=1[1FX(z)][1FY(z)]F_{\max}(z)=P((X\leq z)\wedge(Y\leq z))=P(X\leq z)P(Y\leq z)=F_X(z)F_Y(z)\\F_{\min}(z)=P((X\leq z)\vee(Y\leq z))=1-P((X\neq z)\wedge(Y\neq z))=1-[1-F_X(z)][1-F_Y(z)]

证毕.

接下来是一个比较难(?)的例题(考场上1/60正确率说是),但其实就是本节情况的基础练习.

例8.5(竞争的指数分布)

有两名助教在教室中给同学一对一答疑,每次答疑用时tExp(λ)t\sim Exp(\lambda).你进入教室时,发现恰好有两名同学在答疑,那么你的等待时间t0t_0服从什么分布?

解:

由于两助教答疑时间T1,T2T_1,T_2满足独立同分布Exp(λ)Exp(\lambda),由上述公式知,

T0=min(T1,T2)Exp(2λ)T_0=\min(T_1,T_2)\sim Exp(2\lambda)

L9 数学期望

分布函数已经能完整描述随机变量的统计特征了,然而它是函数,较复杂,实际应用中希望用数字对随机变量进行概括,称为这个随机变量的数字特征.

例9.1

课程的考试中,比起每个学生的具体成绩,教务处更关心平均分和特高分、特低分比例.教务总希望平均分不高不低,不及格、特高分不要太多.

这些数字特征虽然不能完整描述这个随机变量,但它们能描述随机变量某些方面的特征,具有重要的意义.

常见的数字特征有:

  • 数学期望:随机变量平均取值;
  • 方差:随机变量取值偏离均值程度;
  • 协方差、相关系数:不同随机变量之间的某种关系.
    本节课我们学习第一个特征:数学期望,剩下两个在下一节课学习.

9.1 数学期望

数学期望定义

首先给出数学期望的定义(我们这里只讨论离散型、连续型)

数学期望定义:

  • 离散型

    XX为离散随机变量,分布为P(X=xk)=pk,k=1,2,P(X=x_k)=p_k,k=1,2,\cdots,若无穷级数k=1+xkpk\sum_{k=1}^{+\infty}x_kp_k绝对收敛,则称XX数学期望即为该级数,记作E(X)\mathrm{E}(X),即

    E(X)=k=1+xkpk\mathrm{E}(X)=\sum_{k=1}^{+\infty}x_kp_k

  • 连续型

    XX为连续随机变量,概率密度为f(x)f(x),若广义积分+xf(x)dx\int_{-\infty}^{+\infty}xf(x)dx绝对收敛,则称XX数学期望即为该积分,记作E(X)\mathrm{E}(X),即

    E(X)=+xf(x)dx=+xd(F(x))\mathrm{E}(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{-\infty}^{+\infty}xd(F(x))

实际上,引入了分布函数F(x)F(x)的广义积分数学期望定义式能够表示更一般的随机变量分布,对于分布函数的奇点,可以用广义积分处理掉.

关于数学期望的一些要点:

  • 数学期望的本质是"加权平均",概率即权重;
  • 数学期望E(X)\mathrm{E}(X)是一个数,也常被记作E[X]\mathrm{E}[X],以区别一般函数的表示(不过我们不怎么这么写);
  • 对于给定分布的随机变量,数学期望是一个数,而非随机变量;

是否能将数学期望E\mathrm{E}看作一个"泛函"?

例9.2(良心卖家)

某商家对某电器的销售采用先试用后付款,记使用寿命为XX(年),规定:

X1一台15001<X2一台20002<X3一台2500X>3一台3000\begin{aligned} &X\leq 1 &一台1500元\\ &1<X\leq 2 &一台2000元\\ &2<X\leq 3 &一台2500元\\ &X> 3 &一台3000元\end{aligned}

设寿命XX服从指数分布,概率密度为

f(x)={110ex10,x>00,x0f(x)=\begin{cases} \frac{1}{10}e^{-\frac{x}{10}} , &x>0\\ 0,&x\leq 0\end{cases}

求该商店每台家用电器收费YY的期望.

解题思路:

注意到YY为离散型随机变量,取值概率对应连续型随机变量XX的一个区间,因此写出XX的累积分布函数FX(x)=1ex10,x>0F_X(x)=1-e^{-\frac{x}{10}},x>0更好处理,下略.

答案:E(Y)=2732.15\mathrm{E}(Y)=2732.15

例9.3(赌场停电)

技能相当的两人各出50元对赌,五局三胜,甲胜2局乙胜1局时停电了,停止游戏,赌注如何归还?

解:
设甲的收入为XX,若甲胜则X=100X=100,乙胜则X=0X=0,由于:

P(X=100)=34P(X=0)=14P(X=100)=\frac{3}{4}\\P(X=0)=\frac{1}{4}

于是E(X)=75\mathrm{E}(X)=75,甲应该拿75元.

本例虽然简单,但其实是"数学期望"这个概念在历史上的起源(为啥平均要叫"期望"呢?这就是原因).

1654年7月29日,法国骑士梅累(Chevalier de Méré,1607——1684,数学史上最神秘の赌鬼)向数学神童帕斯卡(Pascal ,1623——1662)提出了一个使他苦恼很久的问题:"两个赌徒相约若干局,谁先赢了
S局则赢.若一人赢a(a<s)a(a < s)局,另一人赢b(b<s)b(b<s)局,赌博中止,问赌本应怎么分?"帕斯卡对此思考良久,又将其转给业余数学王子——费马(Fermat ,1601——1665).在数学史上有名的来往信件中,两人取得了一致意见:在被迫停止的赌博中,应当按每个局中人赌赢的数学期望来分配桌面上的赌注.

常见分布的期望

以下表格可自行验算(超几何分布比较麻烦).

离散型随机变量:

分布 概率分布P(X=k)P(X=k) 期望值
01分布 pk(1p)k,k=0,1p^k(1-p)^k,k=0,1 p\textcolor{blue}{p}
b(n,p)b(n,p) (nk)pk(1p)nk,k=0,1,,n\begin{pmatrix} n \\ k \end{pmatrix}p^k(1-p)^{n-k},k=0,1,\cdots,n np\textcolor{blue}{np}
π(λ)\pi(\lambda) (λk/k!)eλ,k=0,1,2,(\lambda^k/k!)e^{-\lambda},k=0,1,2,\cdots λ\textcolor{blue}{\lambda}
h(n,M)h(n,M) (Mk)(nkNM)/(nN),k=0,1,,rr=minn,M\begin{pmatrix} M \\ k \end{pmatrix}\begin{pmatrix} n-k \\ N-M \end{pmatrix}/\begin{pmatrix} n \\ N \end{pmatrix},k=0,1,\cdots,r \,\,r=\min{n,M} nMN\textcolor{blue}{\frac{nM}{N}}
Ge(p)Ge(p) (1p)k1p,k=0,1,(1-p)^{k-1}p,k=0,1,\cdots 1p\textcolor{blue}{\frac{1}{p}}

连续型随机变量:

分布 概率密度f(x)f(x) 期望值
U(a,b)U(a,b) 1/(ba),a<x<b1/(b-a),a<x<b (b+a)/2\textcolor{blue}{(b+a)/2}
Exp(λ)Exp(\lambda) λeλx,x>0\lambda e^{-\lambda x},x>0 1/λ\textcolor{blue}{1/\lambda}
N(μ,σ2)N(\mu,\sigma^2) 12πσe(xμ)22σ2,<x<+\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty μ\textcolor{blue}{\mu}
Ga(α,λ)Ga(\alpha,\lambda) λαΓ(α)xα1eλx,x0\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x\geq 0 α/λ\textcolor{blue}{\alpha/\lambda}
χ2(n)\chi^2(n) xn/212n/2Γ(n/2)ex/2,x>0\frac{x^{n/2-1}}{2^{n/2}\Gamma(n/2)}e^{-x/2},x>0 n\textcolor{blue}{n}
Be(a,b)Be(a,b) 1B(a,b)xa1(1x)b1,0<x<1\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1},0<x<1 a/(a+b)\textcolor{blue}{a/(a+b)}
Cau(μ,λ)Cau(\mu,\lambda) 1π11+x2,<x<+\frac{1}{\pi}\frac{1}{1+x^2},-\infty<x<+\infty 不存在\textcolor{blue}{不存在}
朗道分布朗道分布 1ξϕ(λ)\frac{1}{\xi}\phi(\lambda),无解析表达式 不存在\textcolor{blue}{不存在}

9.2 随机函数的数学期望

对于n维随机变量函数g(x)g(\bm{x})的期望,推广是相当自然的:对n维随机变量x\bm{x},在定义中把xx换成g(x)g(\bm{x})即可,不需要反函数/雅可比倒来倒去.也就是说,对Z=g(X,Y)Z=g(X,Y),离散型期望为:

E(Z)=i,jg(xi,yj)pij\mathrm{E}(Z)=\sum_{i,j}g(x_i,y_j)p_{ij}

连续型期望为:

E(Z)=++g(x,y)f(x,y)dxdy\mathrm{E}(Z)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy

接下来就可以引入一个比较重要也比较难的概念:

重期望公式:

(X,Y)(X,Y)是二维随机变量,并且E(X)\mathrm{E}(X)存在,则

E(X)=E[E(XY)]\mathrm{E}(X)=\textcolor{red}{\mathrm{E}}[\textcolor{blue}{\mathrm{E}}(\textcolor{blue}{X}|\textcolor{red}{Y})]

证明:

仅对连续型变量证明.设(X,Y)(X,Y)联合密度函数为f(x,y)f(x,y),记g(y)=E(XY=y)g(y)=\mathrm{E}(X|Y=y),则有新的随机变量g(Y)=E(XY)g(Y)=\mathrm{E}(X|Y).利用f(x,y)=f(xy)fY(y)f(x,y)=f(x|y)f_Y(y)可得:

E(X)=++xf(x,y)dxdy=++xf(xy)fY(y)dxdy=+(+xf(xy)dx)fY(y)dy=+E(XY=y)fY(y)dy=E[E(XY)]\begin{aligned} \mathrm{E}(X)&=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x,y)dxdy=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x|y)f_Y(y)dxdy\\&=\int_{-\infty}^{+\infty}\left(\int_{-\infty}^{+\infty}xf(x|y)dx\right)f_Y(y)dy\\&=\int_{-\infty}^{+\infty}\mathrm{E}(X|Y=y)f_Y(y)dy\\&=\mathrm{E}[\mathrm{E}(X|Y)]\end{aligned}

它表征了随机变量函数g(Y)=E(XY)g(Y)=\mathrm{E}(X|Y)的期望.

9.3 期望的性质

考虑a,Ca,C为常数,X,YX,Y为随机变量,则有:

期望的线性:

  • E(C)=C\mathrm{E}(C)=C
  • E(aX)=aE(X)\mathrm{E}(aX)=a\mathrm{E}(X)
  • E(X+Y)=E(X)+E(Y)\mathrm{E}(X+Y)=\mathrm{E}(X)+\mathrm{E}(Y)

等效地有:

E(i=1naiXi+C)=i=1naiE(Xi)+C\mathrm{E}\left(\sum_{i=1}^n a_iX_i+C\right)=\sum_{i=1}^n a_i\mathrm{E}(X_i)+C

独立期望可乘:

X,YX,Y独立时,E(XY)=E(X)E(Y)\mathrm{E}(XY)=\mathrm{E}(X)\mathrm{E}(Y)

(注意:反过来不成立!)

9.4 例子

例9.3(PMT接收总光子数)

光电倍增管(Photo-Multiplier Tube,PMT)是检测极微弱光的器件,在辐射测量、医学影像等领域应用广泛.

固定光强下一段时间内,可认为PMT接收到光子数NN满足泊松分布π(λ)\pi(\lambda),每个光子在二次发射电极上激发出的总电荷量QQ满足伽马分布Ga(α,λ0)Ga(\alpha,\lambda_0),求PMT总电荷输出的期望E(Y)\mathrm{E}(Y).

解:

总电荷量Y=i=1NQi=f(N,Qi)Y=\sum_{i=1}^N Q_i=f(N,Q_i),不难看出YYN,QN,Q的混合分布,求分布函数是一个吃力不讨好的活,但我们可以利用重期望公式拆分问题:

E(Y)=E[E(YN)]\mathrm{E}(Y)=\mathrm{E}[\mathrm{E}(Y|N)]

于是得到:

E(YN=n)=i=1nE(Qi)=nE(Q)E[E(YN)]=E(Q)E(N)=αλλ0\begin{aligned} \mathrm{E}(Y|N=n)&=\sum_{i=1}^{n}\mathrm{E}(Q_i)=n\mathrm{E}(Q)\\ \Longrightarrow \mathrm{E}[\mathrm{E}(Y|N)]&=\mathrm{E}(Q)\mathrm{E}(N)=\frac{\alpha\lambda}{\lambda_0}\end{aligned}

L10 协方差

期望之后学方差,很合理~

10.1 方差

方差的定义

首先看方差的定义:

方差:

E{(XE(X)2)2}\mathrm{E}\{(X-\mathrm{E}(X)^2)^2\}存在,则称其为随机变量XX方差,记作D(X)\mathrm{D}(X)Var(X)\mathrm{Var}(X).即:

Var(X)=E{(XE(X)2)2}\mathrm{Var}(X)=\mathrm{E}\{(X-\mathrm{E}(X)^2)^2\}

Var(X)\sqrt{\mathrm{Var}(X)}被称作XX标准差或者均方差,它和XX量纲一致.

方差的意义在于:描述随机变量XX偏离平均值的平均偏离程度.D for deviance and Var for variance.

一个常用的方差计算公式是:

方差计算公式:

Var(X)=E(X2)[E(X)]2\mathrm{Var}(X)=\mathrm{E}(X^2)-[\mathrm{E}(X)]^2

从方差定义中看出它恒非负,因而获得一个边角料推论:

E(X2)[E(X)]2\mathrm{E}(X^2) \geq [\mathrm{E}(X)]^2

取等时当且仅当Var(X)=0\mathrm{Var}(X)=0

对随机变量XX,若是离散型的,分布律为P(X=xi)=pi,i=1,2,...P(X=x_i)=p_i,i=1,2,...,那么:

Var(X)=i=1+[xiE(X)]2pi\mathrm{Var}(X)=\sum_{i=1}^{+\infty}[x_i-\mathrm{E}(X)]^2p_i

若是连续型的,概率密度为f(x)f(x),那么:

Var(X)=+[xE(X)]2f(x)dx\mathrm{Var}(X)=\int_{-\infty}^{+\infty}[x-\mathrm{E}(X)]^2f(x)dx

方差的性质

方差的常用性质如下,其中a,b,Ca,b,C为常数,X,YX,Y为随机变量:

方差的性质:

  • Var(C)=0\mathrm{Var}(C)=0

  • Var(aX+b)=a2Var(X)\mathrm{Var}(aX+b)=a^2\mathrm{Var}(X)

  • Var(X±Y)=Var(X)+Var(Y)±2E[(XE(X))(YE(Y))]\mathrm{Var}(X \pm Y)=\mathrm{Var}(X)+ \mathrm{Var}(Y)\pm 2\mathrm{E}[(X-\mathrm{E}(X))(Y-\mathrm{E}(Y))]

    如果X,YX,Y相互独立,那么

    Var(X±Y)=Var(X)+Var(Y)\mathrm{Var}(X \pm Y)=\mathrm{Var}(X)+ \mathrm{Var}(Y)

  • Var(X)=0P[X=E(X)]=1\mathrm{Var}(X)=0 \Longleftrightarrow P[X=\mathrm{E}(X)]=1

    XX以概率1取到常数E(X)\mathrm{E}(X)

  • C,Var(X)E[(XC)2]\forall C,\mathrm{Var}(X)\leq \mathrm{E}[(X-C)^2]

    即方差是E[(XC)2]\mathrm{E}[(X-C)^2]的下界,取到下界时C=E(X)C=\mathrm{E}(X)

值得一提的是,用性质四可见E(X2)[E(X)]2\mathrm{E}(X^2) \geq [\mathrm{E}(X)]^2的取等条件.

例10.1(泊松分布)

Xπ(λ)X\sim \pi(\lambda),求Var(X)\mathrm{Var}(X)

解:

回忆:

E(X)=k=0+kλkk!eλ=λeλk=0+kλk1(k1)!=λ\mathrm{E}(X)=\sum_{k=0}^{+\infty}k\cdot\frac{\lambda^k}{k!}e^{-\lambda}=\lambda e^{-\lambda}\sum_{k=0}^{+\infty}k\cdot\frac{\lambda^{k-1}}{(k-1)!}=\lambda

如法炮制得到

E(X2)=k=0+k2λkk!eλ=eλ[k=0+k(k1)λkk!+k=0+kλkk!]=λ(λ+1)\begin{aligned} \mathrm{E}(X^2) &=\sum_{k=0}^{+\infty}k^2\cdot\frac{\lambda^k}{k!}e^{-\lambda}\\ &=e^{-\lambda}\left[ \sum_{k=0}^{+\infty}k(k-1)\cdot\frac{\lambda^k}{k!}+\sum_{k=0}^{+\infty}k\cdot\frac{\lambda^k}{k!} \right]\\ &= \lambda(\lambda+1)\end{aligned}

于是Var(X)=E(X2)[E(X)]2=λ\mathrm{Var}(X)=\mathrm{E}(X^2)-[\mathrm{E}(X)]^2=\lambda

常见随机变量分布的方差

首先是离散型(超几何分布不作要求):

分布 概率分布P(X=k)P(X=k) 方差
01分布 pk(1p)k,k=0,1p^k(1-p)^k,k=0,1 p(1p)\textcolor{blue}{p(1-p)}
b(n,p)b(n,p) (nk)pk(1p)nk,k=0,1,,n\begin{pmatrix} n \\ k \end{pmatrix}p^k(1-p)^{n-k},k=0,1,\cdots,n np(1p)\textcolor{blue}{np(1-p)}
π(λ)\pi(\lambda) (λk/k!)eλ,k=0,1,2,(\lambda^k/k!)e^{-\lambda},k=0,1,2,\cdots λ\textcolor{blue}{\lambda}
h(n,M)h(n,M) (Mk)(nkNM)/(nN),k=0,1,,rr=minn,M\begin{pmatrix} M \\ k \end{pmatrix}\begin{pmatrix} n-k \\ N-M \end{pmatrix}/\begin{pmatrix} n \\ N \end{pmatrix},k=0,1,\cdots,r \,\,r=\min{n,M} nM(NM)(Nn)N2(N1)\textcolor{blue}{\frac{nM(N-M)(N-n)}{N^2(N-1)}}
Ge(p)Ge(p) (1p)k1p,k=0,1,(1-p)^{k-1}p,k=0,1,\cdots 1pp2\textcolor{blue}{\frac{1-p}{p^2}}

连续型随机变量:

分布 概率密度f(x)f(x) 方差
U(a,b)U(a,b) 1/(ba),a<x<b1/(b-a),a<x<b (ba2)/12\textcolor{blue}{(b-a^2)/12}
Exp(λ)Exp(\lambda) λeλx,x>0\lambda e^{-\lambda x},x>0 1/λ2\textcolor{blue}{1/\lambda^2}
N(μ,σ2)N(\mu,\sigma^2) 12πσe(xμ)22σ2,<x<+\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty σ2\textcolor{blue}{\sigma^2}
Ga(α,λ)Ga(\alpha,\lambda) λαΓ(α)xα1eλx,x0\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x\geq 0 α/λ2\textcolor{blue}{\alpha/\lambda^2}
χ2(n)\chi^2(n) xn/212n/2Γ(n/2)ex/2,x>0\frac{x^{n/2-1}}{2^{n/2}\Gamma(n/2)}e^{-x/2},x>0 2π\textcolor{blue}{2\pi}
Be(a,b)Be(a,b) 1B(a,b)xa1(1x)b1,0<x<1\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1},0<x<1 ab(a+b)2(a+b+1)\textcolor{blue}{\frac{ab}{(a+b)^2(a+b+1)}}
Cau(μ,λ)Cau(\mu,\lambda) 1π11+x2,<x<+\frac{1}{\pi}\frac{1}{1+x^2},-\infty<x<+\infty 不存在\textcolor{blue}{不存在}
朗道分布朗道分布 1ξϕ(λ)\frac{1}{\xi}\phi(\lambda),无解析表达式 不存在\textcolor{blue}{不存在}

一个例子

例10.2(提枪作战)

一个nn人特种小队在修整时,把枪混放在一起.此时突发敌情,队友们不假思索提枪应战(等可能随机拿枪),设恰好拿到自己枪的战士人数为XX,求Var(X)\mathrm{Var}(X).

解:

考虑分解问题:第ii个战士是否拿到自己的枪用随机变量XiX_i表示,i=1,2,3,...,ni=1,2,3,...,n,即:

Xi={0没拿到自己枪1拿到自己枪X_i=\begin{cases} 0 \,\,\,\, 没拿到自己枪\\ 1 \,\,\,\, 拿到自己枪\end{cases}

容易看出X=i=1nXiX=\sum_{i=1}^n X_i.XiX_i之间同分布但并不独立,所以方程仍然得老实用定义:

Var(X)=Var(i=1nXi)=E[(i=1nXi)2][E(i=1nXi)]2=E(i=1nXi2+21i<jnXiXj)[i=1nE(Xi)]2=nE(Xi2)+n(n1)E(XiXj)n2E2(Xi)\begin{aligned} \mathrm{Var}(X)=\mathrm{Var}\left(\sum_{i=1}^n X_i\right) &= \mathrm{E}\left[ \left( \sum_{i=1}^n X_i \right)^2 \right] - \left[\mathrm{E} \left( \sum_{i=1}^n X_i \right)\right]^2 \\ &= \mathrm{E}\left( \sum_{i=1}^n X_i^2 + 2\sum_{1\leq i<j\leq n} X_iX_j \right)-\left[\sum_{i=1}^n \mathrm{E}(X_i)\right]^2\\ &= n\mathrm{E}(X_i^2)+n(n-1)\mathrm{E}(X_iX_j)-n^2\mathrm{E}^2(X_i)\end{aligned}

最后一步式中iji\neq j.容易看出E(Xi)=E(Xi2)=1n\mathrm{E}(X_i)=\mathrm{E}(X_i^2)=\frac{1}{n},对于XiXjX_iX_j(仍然是0-1分布),需要另外讨论:

i,ji,j均拿到了自己的枪(等价于XiXj=1X_iX_j=1),那么应有P(XiXj=1)=n(n1)P(X_iX_j=1)=\frac{n}{(n-1)},相应地E(XiXj)=n(n1)\mathrm{E}(X_iX_j)=\frac{n}{(n-1)}.

带入原式,我们得到:

Var(X)=1\mathrm{Var}(X)=1

拓展一下,恰有k(k<n)k(k<n)名战士拿到自己枪的概率呢?这是经典的伯努利错排问题,可以遵循以下步骤考虑:

  • 求解全错排问题:nn个战士都拿错了自己的枪,一共有几种拿法?假设求出了AnA_n种拿法,由于古典概型假设,pn=Ann!p_n=\frac{A_n}{n!}(这是最难的一步!可以考虑递推法求解,这里不赘述)
  • 将我们的问题转化为全错排问题:先选kk个战士拿对了枪,这一步一共有(nk)\begin{pmatrix}n\\k\end{pmatrix}种取法,剩下(nk)(n-k)个战士全拿错了,则相当于(nk)(n-k)人的全错排问题,于是总概率为Pn=(nk)pnkP_n=\begin{pmatrix}n\\k\end{pmatrix}p_{n-k}

具体形式略.

10.2 全方差公式

我们知道全期望公式:用条件概率计算期望,从而让大随机变量被分解到小随机变量.对方差能不能也这么干?

考虑北京某月的总降雨量SS,其方差由降雨次数NN和每次降雨量RR的方差共同贡献.那么,具体的贡献形式是什么呢?是像全期望公式那样,Var(S)=VarVar(SN)\mathrm{Var}(S)=\mathrm{Var}\mathrm{Var}(S|N)吗?这样量纲都不匹配,肯定是错的!

那要怎么让量纲匹配呢?或许把期望E\mathrm{E}请回来是一种选择.SNS|N期望的方差?方差的期望?但是,两者择其一,都没有全期望公式里那种"前面求期望,后面也是求期望"的对称性.

或者说,是两者的线性组合?

别误会,我们当然可以严格地理论证明出这个关系,但是在证明之前,我们可以先和这个概念培养一下感情,让我们对这个概念有一个初步的感觉.(这亦是一种"Fly By Night Probability".)

全方差公式:

Var(S)=E[Var(SN)]N固定时S的方差+Var[E(SN)]N诱导出的S方差\mathrm{Var}(S)=\overbrace{\mathrm{E}[\mathrm{Var}(S|N)]}^{N固定时S的方差}+\overbrace{\mathrm{Var}[\mathrm{E}(S|N)]}^{由N诱导出的S方差}

证明:

方差的期望:

E[Var(SN)]=EN[ES(S2N)ES(SN)2]=E(S2)EN[ES(SN)2]\begin{aligned} \mathrm{E}[\mathrm{Var}(S|N)]&=\mathrm{E}_N[\mathrm{E}_S(S^2|N)-\mathrm{E}_S(S|N)^2]\\ &=\mathrm{E}(S^2)-\mathrm{E}_N[\mathrm{E}_S(S|N)^2]\end{aligned}

期望的方差:

Var[E(SN)]=EN[ES(SN)2]{EN[ES(SN)]}2=EN[ES(SN)2][E(S)]2\begin{aligned} \mathrm{Var}[\mathrm{E}(S|N)]&=\mathrm{E}_N[\mathrm{E}_S(S|N)^2]-\{\mathrm{E}_N[\mathrm{E}_S(S|N)]\}^2\\ &=\mathrm{E}_N[\mathrm{E}_S(S|N)^2]-[\mathrm{E}(S)]^2\end{aligned}

一眼盯真,我们发现:

Var(S)=E[Var(SN)]+Var[E(SN)]\mathrm{Var}(S)=\mathrm{E}[\mathrm{Var}(S|N)]+\mathrm{Var}[\mathrm{E}(S|N)]

这就是全方差公式.

这个定理在高斯的书中(Theoria Combinationis 1821,1823)被证明.高斯在1801年用"最小二乘法"预测了谷神星的存在,但其理论基础遭到质疑.于是,在书中,高斯在不对N,SN,S做正态假设的前提下证明了全方差公式,奠定了"最小二乘法"的严格理论基础.

这个公式很有用,我们仍然回到光电倍增管总电荷的问题:

例10.3(光电倍增管再看)

Y=i=1NQiY=\sum_{i=1}^{N}Q_i,求Var(Y)\mathrm{Var}(Y)

解:

总电荷量YY的方差,关系到探测精度.

Var(Y)=E[Var(YN)]+Var[E(YN)]=E[NVar(Q)]+Var[NE(Q)]=E(N)Var(Q)+Var(N)[E(Q)2]\begin{aligned} \mathrm{Var}(Y)&=\mathrm{E}[\mathrm{Var}(Y|N)]+\mathrm{Var}[\mathrm{E}(Y|N)]\\ &=\mathrm{E}[N\mathrm{Var}(Q)]+\mathrm{Var}[N\mathrm{E}(Q)]\\ &=\mathrm{E}(N)\mathrm{Var}(Q)+\mathrm{Var}(N)[\mathrm{E}(Q)^2]\end{aligned}

10.3 协方差

回忆:

  • 二维随机变量(X,Y)(X,Y),已知联合分布可得边缘分布,反之不可以.
  • 二维随机变量,除了每个随机变量各自的边缘分布外,相互之间还有联系.

考虑两个随机变量X,YX,Y的和或者差的方差:

Var(X±Y)=Var(X)+Var(Y)±2E[(XE(X))(YE(Y))]\mathrm{Var}(X \pm Y)=\mathrm{Var}(X)+ \mathrm{Var}(Y)\pm 2\mathrm{E}[(X-\mathrm{E}(X))(Y-\mathrm{E}(Y))]

其中E[(XE(X))(YE(Y))]\mathrm{E}[(X-\mathrm{E}(X))(Y-\mathrm{E}(Y))]反映了这两个随机变量间的某种关系.

协方差的定义

我们定义:

协方差与相关系数:

随机变量X,YX,Y协方差记作Cov(X,Y)\mathrm{Cov}(X,Y),定义为:

Cov(X,Y):=E[(XE(X))(YE(Y))]=E(XY)E(X)E(Y)\mathrm{Cov}(X,Y):=\mathrm{E}[(X-\mathrm{E}(X))(Y-\mathrm{E}(Y))]=\mathrm{E}(XY)-\mathrm{E}(X)\mathrm{E}(Y)

我们还可以把协方差标准化为无量纲的数:由于Var(X),Var(Y)>0\mathrm{Var}(X),\mathrm{Var}(Y)>0称随机变量X,YX,Y相关系数ρX,Y\rho_{X,Y}为:

ρX,Y=E([XE(X)][YE(Y)]Var(X)Var(Y))=Cov(X,Y)Var(X)Var(Y)\rho_{X,Y}=\mathrm{E}\left(\frac{[X-\mathrm{E}(X)][Y-\mathrm{E}(Y)]}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}}\right)=\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}}

ρXY=0\rho_{XY}=0,等价于Cov(X,Y)=0\mathrm{Cov}(X,Y)=0,则称随机变量X,YX,Y不相关.

两随机变量不相关,与两随机变量独立有什么关系?回到定义:

  • 不相关:ρXY=0\rho_{XY}=0
  • 独立:F(X,Y)=FX(x)FY(y)F(X,Y)=F_X(x)F_Y(y)
    试验证:两随机变量独立能推出不相关,但反之不行.

一个直观的想法是,不相关等价于E(XY)=E(X)E(Y)\mathrm{E}(XY)=\mathrm{E}(X)\mathrm{E}(Y),即两变量"期望意义下独立",但真正的独立定义在分布函数上,比期望独立更严格.

协方差的性质

协方差的性质:

  • 计算:

    Cov(X,Y)=E(XY)E(X)E(Y)=±12[Var(X±Y)Var(X)Var(Y)]\mathrm{Cov}(X,Y)=\mathrm{E}(XY)-\mathrm{E}(X)\mathrm{E}(Y)=\pm\frac{1}{2}[\mathrm{Var}(X\pm Y)-\mathrm{Var}(X)-\mathrm{Var}(Y)]

  • 对称性:Cov(X,Y)=Cov(Y,X)\mathrm{Cov}(X,Y)=\mathrm{Cov}(Y,X)

  • 双线性:Cov(aX+b,Y)=aCov(X,Y)+b\mathrm{Cov}(aX+b,Y)=a\mathrm{Cov}(X,Y)+b

  • Cov(X,X)=Var(X)\mathrm{Cov}(X,X)=\mathrm{Var}(X)

    即,方差是协方差的特例.

利用这些性质,我们可以解释一下何为相关系数:

标准化随机变量:

随机变量XX(期望、方差均存在,方差不为0)的标准化随机变量记作:

X:=XE(X)Var(X)X^*:=\frac{X-\mathrm{E}(X)}{\sqrt{\mathrm{Var}(X)}}

对标准化随机变量,E(X)=0,Var(X)=1\mathrm{E}(X^*)=0,\mathrm{Var}(X^*)=1,于是相关系数可以认为是:

Cov(X,Y)=ρXY\mathrm{Cov}(X^*,Y^*)=\rho_{XY}

顺便讨论一下相关系数的性质:

相关系数的性质:

  • ρXY1|\rho_{XY}|\leq 1

  • ρXY=1|\rho_{XY}|=1\Longleftrightarrow存在常数a,ba,b,使得P(Y=aX+b)=1P(Y=aX+b)=1

    即,X,YX,Y以概率1线性相关.

  • X,YX,Y相互独立,则ρXY=0\rho_{XY}=0,即X,YX,Y不相关.反之不一定成立!

需要指出的是,前两条性质我们在中学中线性回归一节已经了解过,但它没那么显然,需要进一步证明:

证明:

首先证明期望的Cauchy-Schwartz不等式:[E(XY)]2E(X2)E(Y2)[\mathrm{E}(XY)]^2\leq\mathrm{E}(X^2)\mathrm{E}(Y^2)

天下实内积C-S不等式的证法都是统一的:考虑实变量tt的二次函数(由期望性质知道非负):

g(t)=E[(X+tY)2]=E(X2)+2tE(XY)+t2E(Y2)0g(t)=\mathrm{E}[(X+tY)^2]=\mathrm{E}(X^2)+2t\mathrm{E}(XY)+t^2\mathrm{E}(Y^2)\geq 0

用二次方程g(t)=0g(t)=0的判别式非正可直接得到C-S不等式.

将标准化的X,YX^*,Y^*代入,即得:

ρXY=E(XY)E(X)E(Y)=1|\rho_{XY}|=|\mathrm{E}(X^*Y^*)|\leq\sqrt{\mathrm{E}(X^*)\mathrm{E}(Y^*)}=1

协方差矩阵

我们把协方差扩展到nn维,于是有:

协方差矩阵、相关系数矩阵:

nn维随机变量X=(X1,X2,...,Xn)\bm{X}=(X_1,X_2,...,X_n),每个分量方差存在,任意两个分量的协方差存在,则称

[Var(X1)Cov(X1,X2)Cov(X1,Xn)Cov(X2,X1)Var(X2)Cov(X2,Xn)Cov(Xn,X1)Cov(Xn,X2)Var(Xn)]\begin{bmatrix} \mathrm{Var}(X_1) & \mathrm{Cov}(X_1,X_2)&\cdots &\mathrm{Cov}(X_1,X_n)\\ \mathrm{Cov}(X_2,X_1) & \mathrm{Var}(X_2)&\cdots &\mathrm{Cov}(X_2,X_n)\\ \vdots&\vdots&\ddots&\vdots\\ \mathrm{Cov}(X_n,X_1) & \mathrm{Cov}(X_n,X_2)&\cdots &\mathrm{Var}(X_n)\\\end{bmatrix}

为这组随机变量的协方差矩阵,也称为方差-协方差矩阵,记为Var(X)\mathrm{Var}(\bm{X}).若记XE(X)\bm{X}-\mathrm{E}(\bm{X})为对应nn维列向量,则:

Var(X)=E{[XE(X)][XE(X)]}\mathrm{Var}(\bm{X})=\mathrm{E}\{[\bm{X}-\mathrm{E}(\bm{X})][\bm{X}-\mathrm{E}(\bm{X})]^\top\}

这是一个对称、非负定的矩阵.(如果你对这句话有疑问,说明你该小复习一下线代了)

对应地,记ρi,j=Cov(Xi,Xj)Var(Xi)Var(Xj),i,j=1,2,...,n\rho_{i,j}=\frac{\mathrm{Cov}(X_i,X_j)}{\sqrt{\mathrm{Var}(X_i)\mathrm{Var}(X_j)}},i,j=1,2,...,n,则:

[ρ11ρ12ρ1nρ21ρ22ρ2nρn1ρn2ρnn]\begin{bmatrix} \rho_{11} & \rho_{12}&\cdots &\rho_{1n}\\ \rho_{21} & \rho_{22}&\cdots &\rho_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ \rho_{n1} & \rho_{n2}&\cdots &\rho_{nn}\\\end{bmatrix}

相关系数矩阵,简称相关矩阵,它同样是对称、非负定的

利用协方差矩阵,我们可以重新审视一下我们之前处理过的二维正态分布:考虑XN(μ1,σ12;μ2,σ22;ρ)\bm{X}\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho),记Σ2=Var(X),μ=E(X),x=(x1,x2)\Sigma^2=\mathrm{Var}(\bm{X}),\bm{\mu}=\mathrm{E}(\bm{X}),\bm{x}=(x_1,x_2)^\top,考虑到(自行验证):

Σ2=Var(X)=[σ12ρσ1σ2ρσ1σ2σ22]\Sigma^2=\mathrm{Var}(\bm{X})=\begin{bmatrix} \sigma_1^2&\rho\sigma_1\sigma_2\\ \rho\sigma_1\sigma_2&\sigma_2^2\\ \end{bmatrix}

我们有:

f(x,y)=12πσ1σ21ρ2e12(1ρ2)[(x1μ1)2σ122ρ(x1μ1)(x2μ2)σ1σ2+(x2μ2)2σ22]=12πΣ2e12(xμ)Σ2(xμ)\begin{aligned} f(x,y)&=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left[\frac{(x_1-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}\right]}\\ &=\frac{1}{2\pi\sqrt{|\Sigma^2|}}e^{-\frac{1}{2}(\bm{x}-\bm{\mu})^\top\Sigma^{-2}(\bm{x}-\bm{\mu})} \end{aligned}

当正态分布中x\bm{x}的维度趋近于无穷时,可以描述一个高斯过程(随机过程的一种,可以看做随机的函数:R(SR)\mathbb{R}\rightarrow(S\rightarrow\mathbb{R}),其中(SR)(S\rightarrow\mathbb{R})即一个样本空间到实数轴的映射,我们这里用作随机变量的notation).深度神经网络能有效地逼近高斯过程.

10.4 其他数字特征

原点矩、中心矩

原点矩和中心矩:

XX为随机变量,kk为正整数.若以下数学期望均存在,则称:

μk:=E(Xk)\mu_k:=\mathrm{E}(X^k)

XXkk原点矩.称:

νk:=E{[XE(X)]k}\nu_k:=\mathrm{E}\{[X-\mathrm{E}(X)]^k\}

XXkk中心矩.1阶原点矩为数学期望,2阶中心矩为方差.

中心矩与原点矩的关系可以用二项式定理得到:

νk=E{[XE(X)]k}=E[(Xμ1)k]=i=0k(ki)μi(μ1)ki\nu_k=\mathrm{E}\{[X-\mathrm{E}(X)]^k\}=\mathrm{E}[(X-\mu_1)^k]=\sum_{i=0}^k \begin{pmatrix} k \\ i\end{pmatrix}\mu_i(-\mu_1)^{k-i}

混合矩

混合矩即将原点矩、中心矩推广到多维随机变量的情形,下面以2维为例.

混合矩:

X,YX,Y为随机变量,k,lk,l为正整数.若以下数学期望均存在,则称:

μkl:=E(XkYl)\mu_{kl}:=\mathrm{E}(X^kY^l)

(X,Y)(X,Y)k+lk+l混合原点矩,简称混合矩.称:

νkl:=E{[XE(X)]k[YE(Y)]l}\nu_{kl}:=\mathrm{E}\{[X-\mathrm{E}(X)]^k[Y-\mathrm{E}(Y)]^l\}

(X,Y)(X,Y)k+lk+l混合中心矩.1+1阶混合中心矩为X,YX,Y的协方差.

基于矩的其他数字特征

3阶矩可以定义偏度系数(skew):

偏度系数:

XX为随机变量且其前三阶矩存在,则称比值:

βs:=ν3ν232=E{[XE(X)]3}[Var(X)]32\beta_{s}:=\frac{\nu_3}{\nu_2^{\frac{3}{2}}}=\frac{\mathrm{E}\{[X-\mathrm{E}(X)]^3\}}{[\mathrm{Var}(X)]^{\frac{3}{2}}}

(X,Y)(X,Y)偏度系数,简称偏度.

βs\beta_s描述分布偏离对称性的程度.βs>0\beta_s>0叫正偏或右偏;βs<0\beta_s<0叫负偏或左偏.

βs=0\beta_s=0说明分布相对期望左右对称.正态分布的βs=0\beta_s=0.

4阶矩可以定义峰度系数(kurtosis):

峰度系数:

XX为随机变量且其前四阶矩存在,则称比值:

βk:=ν4ν22=E{[XE(X)]4}[Var(X)]2\beta_{k}:=\frac{\nu_4}{\nu_2^2}=\frac{\mathrm{E}\{[X-\mathrm{E}(X)]^4\}}{[\mathrm{Var}(X)]^2}

(X,Y)(X,Y)峰度系数,简称峰度.

βk\beta_k描述分布的尖峭程度或者尾部粗细程度.

正态分布的βk=0\beta_k=0

以上两个系数常常用于检测正态假设是否可接受.

L11 大数定律

考虑大数定律至少有两个动机:我们为什么能以某事件发生的频率作为该事件概率的估计?

柯氏概率公理中并不包含概率的解读,这个命题不是自证的.

11.1 大数定律

辛钦大数定律

首先复习一下极限limnXn=X\lim_{n\rightarrow\infty}X_n=X的定义:

ϵ>0,N(n>NXnX<ϵ)\forall\epsilon>0,\exists N(n>N\rightarrow|X_n-X|<\epsilon)

依概率收敛:

XnX_n为一随机变量序列,XX为一随机变量,若对任意正数ϵ\epsilon,有

limnP(XnX<ϵ)1\lim_{n\rightarrow\infty}P(|X_n-X|<\epsilon)\rightarrow1

亦即

ϵ>0,ϵ>0,N(n>N1P(XnX<ϵ)<ϵ)\forall\epsilon>0,\epsilon'>0,\exists N(n>N\rightarrow1-P(|X_n-X|<\epsilon)<\epsilon')

则称随机变量序列XnX_n依概率收敛XX,记作:

XnPXX_n\stackrel{P}{\rightarrow}X

依概率收敛定义了随机变量层面的极限操作.

于是我们可以给出辛钦(Khinchin)版本的大数定律:

辛钦大数定律:

X1,X2,...,XnX_1,X_2,...,X_n为一相互独立同分布的随机变量序列,且E(Xk)=μ,k=1,2,...,n\mathrm{E}(X_k)=\mu,k=1,2,...,n.那么,对任意正数ϵ\epsilon,有

limnP(1ni=1nXiμ<ϵ)=1\lim_{n\rightarrow\infty}P\left( \left|\frac{1}{n}\sum_{i=1}^nX_i - \mu\right| <\epsilon\right) = 1

如果记Xnˉ=1ni=1nXi\bar{X_n}=\frac{1}{n}\sum_{i=1}^nX_i,那么也就是说

XnˉPμ\bar{X_n}\stackrel{P}{\rightarrow}\mu

辛钦大数定律表明:数学期望可以用nn个独立同分布的随机变量的算术平均值近似.这也是为什么期望也可以叫"均值".

这个定律的证明暂且按下不表,我们先看下一个大数定律:伯努利(Bernoulli)大数定律.

伯努利大数定律

伯努利大数定律:

nAn_Ann次独立重复试验中事件AA发生的次数,pp是每次试验AA发生的概率,那么,

ϵ>0,limnP(nAnp<ϵ)=1\forall\epsilon>0,\lim_{n\rightarrow\infty}P\left(\left|\frac{n_A}{n}-p\right|<\epsilon\right)=1

证明:

利用辛钦大数定律可以给出证明.因为n=X1+X2+...+Xnn=X_1+X_2+...+X_n,其中每项相互独立且服从参数为pp的0-1分布,于是E(Xk)=p,k=1,2,...,n\mathrm{E}(X_k)=p,k=1,2,...,n那么,由辛钦大数定律有

limnP(nAnp<ϵ)=limnP(1ni=1nXip<ϵ)=1\lim_{n\rightarrow\infty}P\left(\left|\frac{n_A}{n}-p\right|<\epsilon\right) = \lim_{n\rightarrow\infty}P\left( \left|\frac{1}{n}\sum_{i=1}^nX_i - p\right| <\epsilon\right)= 1

我们的证法中,伯努利的大数定律好像只是辛钦大数定律的一个推论,然而事实上这件事意义重大:它告诉我们,在实验次数足够多后,频率与概率由较大偏差是小概率事件,因而可以用频率近似替代概率.

概率公理辛钦大数定律平均趋于期望伯努利大数定律频率趋于概率概率公理\stackrel{辛钦大数定律}{\longrightarrow}平均趋于期望\stackrel{伯努利大数定律}{\longrightarrow}频率趋于概率

上图直观地展示了这两个定理的重要性:

  • 概率公理构造的"概率"是满足我们对于概率的一般认识的(即"频率趋近概率"),而不会像频率定义概率那样陷入循环论证.
  • 我们既可以从概率推出期望,也能用期望推出概率,这暗示着这两个概念是等价的,我们完全可以用"期望公理"推出概率.
  • 大数定律让我们从随机的现象(均值与频率)中找到了确定的值(期望与概率).

因而,这两个定律堪称概率论的基石.

同时,上图也指出了我们接下来的方向:用概率公理推出辛钦大数定律.我们会介绍两种证明方法:切比雪夫不等式、特征函数.

11.2 切比雪夫不等式

切比雪夫不等式及证明

切比雪夫Chebyshev不等式:

设随机变量XX有数学期望E(X)=μ\mathrm{E}(X)=\mu和方差Var(X)=σ2\mathrm{Var}(X)=\sigma^2,那么:

ϵ>0,P(Xμϵ)σ2ϵ2\forall\epsilon>0,P(|X-\mu|\geq\epsilon)\leq\frac{\sigma^2}{\epsilon^2}

证明:

仅考虑连续变量情形.设XX概率密度函数为f(x)f(x),那么:

P(Xμϵ)=xμϵf(x)dxxμϵxμ2ϵ2f(x)dx=σ2ϵ2\begin{aligned} P(|X-\mu|\geq\epsilon) &= \int_{|x-\mu|\geq\epsilon}f(x)dx \\ &\leq \int_{|x-\mu|\geq\epsilon}\frac{|x-\mu|^2}{\epsilon^2}f(x)dx \\ &= \frac{\sigma^2}{\epsilon^2}\end{aligned}

第二步不等式放缩是关键.证毕.

切比雪夫不等式可以让我们在未知随机变量XX的分布前提下,对Xμ<ϵ|X-\mu|<\epsilon的概率进行估计(当然,由于没有XX的具体分布信息,这一估计是极其粗略的).在具体的问题中,真的使用切比雪夫不等式去估计概率是不推荐的,毕竟随机变量分布往往已知或已被假定.这让我们想到机器学习里的No free lunch Theorem,它们都告诉我们:适用范围广的方法往往给出的估计也是弱的.

但适用范围的广延让它在理论上意义非凡,它启示我们:一个随机变量的方差存在,就是一个很强的条件,足以让我们对某事件的概率有一个界的估计,即使它是一个比较任意的分布.

同样地,辛钦大数定律也可以用它证明:

切比雪夫不等式到大数定律

辛钦大数定律证明1:

往证:

Xnˉ=1ni=1nXiPμ\bar{X_n}=\frac{1}{n}\sum_{i=1}^nX_i\stackrel{P}{\rightarrow}\mu

我们还要加强原有假设:Var(Xk)=σ2\mathrm{Var}(X_k)=\sigma^2存在.
于是:

E[Xnˉ]=μVar[Xnˉ]=1nσ2\mathrm{E}[\bar{X_n}]=\mu\\\mathrm{Var}[\bar{X_n}]=\frac{1}{n}\sigma^2

利用切比雪夫不等式,

1σ2nϵ2P(Xnˉμ<ϵ)1 1-\frac{\sigma^2}{n\epsilon^2}\leq P(|\bar{X_n}-\mu|<\epsilon)\leq1

nn\rightarrow\infty,夹逼定理有:

P(Xnˉμ<ϵ)1 P(|\bar{X_n}-\mu|<\epsilon)\rightarrow1

证毕.

证明是直接的,但是不是很令人满意,因为我们夹带了"Var(Xk)=σ2\mathrm{Var}(X_k)=\sigma^2存在"这一私货.在辛钦大数定律原表述中,并没有加强到这一地步.为证明辛钦大数定律完整版,需要引入一个更强大的工具——特征函数.

11.3 特征函数

特征函数及其性质

特征函数是处理概率论问题的有力工具,它能:

  • 将卷积运算化成乘法运算;
  • 将求各阶矩的积分运算转化成微分运算;
  • 将求随机变量序列的极限分布化成一般的函数极限问题;
  • 方便地处理串级随机变量,应用于核辐射探测.

与之类似的概念还有矩母函数生成函数.我们在这里专注于适用范围最广的特征函数.

首先给个定义:

特征函数:

XX是随机变量,则称eitXe^{itX}的数学期望,即:

ϕ(t):=E(eitX),<t<+\phi(t):=\mathrm{E}(e^{itX}),-\infty<t<+\infty

为随机变量XX特征函数.

值得一提的是,由于eitX=1|e^{itX}|=1,随机变量的特征函数总是存在的.

为何要这么定义呢?我们把表达式写出来看看:

特征函数与傅里叶变换:

连续变量下,特征函数

ϕ(t)=+eitxf(x)dx\phi(t)=\int_{-\infty}^{+\infty}e^{itx}f(x)dx

是概率密度函数f(x)f(x)的傅里叶变换.

离散变量下,特征函数

ϕ(t)=k=0eitxkpk\phi(t)=\sum_{k=0}^{\infty}e^{itx_k}p_k

仍然是一个连续函数.

我们看看特征函数的性质:

特征函数性质:

  • ϕ(t)ϕ(0)=1|\phi(t)|\leq \phi(0)=1;

  • ϕ(t)=ϕ(t)\phi(-t)=\phi^*(t),复共轭对称;

  • ϕaX+b(t)=eibtϕX(at)\phi_{aX+b}(t)=e^{ibt}\phi_X(at);

  • 若随机变量X,YX,Y独立,则ϕX+Y(t)=ϕX(t)ϕY(t)\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t).

    此即傅里叶变换中的卷积定理(卷积F\stackrel{\mathscr{F}}{\longrightarrow}乘法);

  • E(Xl)\mathrm{E}(X^l)存在,则:

    ϕ(k)(0)=ikE(Xk),0kl\phi^{(k)}(0)=i^k\mathrm{E}(X^k),0\leq k\leq l

    因此,可以用特征函数的导数求随机变量的矩:E(Xk)=ϕ(k)(0)ik\mathrm{E}(X^k)=\frac{\phi^{(k)}(0)}{i^k};

  • 一致连续性:

    ϵ,δ,t(ϕ(t+δ)ϕ(t)<ϵ)\forall\epsilon,\exists\delta,\forall t(|\phi(t+\delta)-\phi(t)|<\epsilon)

    注意,这比t,ϵ,δ\forall t ,\forall \epsilon,\exists\delta更强,因为前者δ\exists \deltat\forall t之前,代表其对所有tt普适.

  • 非负定性:

    z,t,[i,jϕ(titj)zizj0]\forall \bm{z},\bm{t},\left[ \sum_{i,j}\phi(t_i-t_j)z_iz_j^*\geq 0 \right]

  • 唯一性:两变量若特征函数一致,则两函数也一致.

    这由傅里叶变换的可逆性、唯一性保证(即{eitx}\{e^{itx}\}L2L^2上的完备基).

常见分布的特征函数

离散分布:

分布 概率分布P(X=k)P(X=k) 特征函数ϕ(t)\phi(t)
01分布 pk(1p)k,k=0,1p^k(1-p)^k,k=0,1 1p+peit\textcolor{blue}{1-p+pe^{it}}
b(n,p)b(n,p) (nk)pk(1p)nk,k=0,1,,n\begin{pmatrix} n \\ k \end{pmatrix}p^k(1-p)^{n-k},k=0,1,\cdots,n (1p+peit)n\textcolor{blue}{(1-p+pe^{it})^n}
π(λ)\pi(\lambda) (λk/k!)eλ,k=0,1,2,(\lambda^k/k!)e^{-\lambda},k=0,1,2,\cdots eλ(eit1)\textcolor{blue}{e^{\lambda(e^{it}-1)}}
Ge(p)Ge(p) (1p)k1p,k=0,1,(1-p)^{k-1}p,k=0,1,\cdots p1qeit,q:=1p\textcolor{blue}{\frac{p}{1-qe^{it}},q:=1-p}

连续分布:

分布 概率密度f(x)f(x) 特征函数ϕ(t)\phi(t)
U(a,b)U(a,b) 1/(ba),a<x<b1/(b-a),a<x<b eibteiatit(ba)\textcolor{blue}{\frac{e^{ibt}-e^{iat}}{it(b-a)}}
Exp(λ)Exp(\lambda) λeλx,x>0\lambda e^{-\lambda x},x>0 (1it/λ)1\textcolor{blue}{(1-it/\lambda)^{-1}}
N(μ,σ2)N(\mu,\sigma^2) 12πσe(xμ)22σ2,<x<+\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty eiμtσ2t22\textcolor{blue}{e^{i\mu t-\frac{\sigma^2t^2}{2}}}
Ga(α,λ)Ga(\alpha,\lambda) λαΓ(α)xα1eλx,x0\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x\geq 0 (1it/λ)α\textcolor{blue}{(1-it/\lambda)^{-\alpha}}
χ2(n)\chi^2(n) xn/212n/2Γ(n/2)ex/2,x>0\frac{x^{n/2-1}}{2^{n/2}\Gamma(n/2)}e^{-x/2},x>0 (12it)n/2\textcolor{blue}{(1-2it)^{-n/2}}
Be(a,b)Be(a,b) 1B(a,b)xa1(1x)b1,0<x<1\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1},0<x<1 ab(a+b)2(a+b+1)\textcolor{blue}{\frac{ab}{(a+b)^2(a+b+1)}}
Cau(μ,λ)Cau(\mu,\lambda) 1π11+x2,<x<+\frac{1}{\pi}\frac{1}{1+x^2},-\infty<x<+\infty et\textcolor{blue}{e^{-|t|}}

表格正确性自证.有了这些特征函数,结合其唯一性,我们可以证明之前不好证明的问题,比如:高斯分布相加还是高斯分布、计算高斯分布的期望和方差、二项分布的极限是泊松分布、卡方分布可以表征标准正态分布随机变量的平方和等.这些留作习题.

最后,我们考虑用它证明辛钦大数定律.

从特征函数到辛钦大数定律

辛钦大数定律证明2:

往证:

Xnˉ=1ni=1nXiP,nμ\bar{X_n}=\frac{1}{n}\sum_{i=1}^nX_i\stackrel{P,n\rightarrow\infty}{\rightarrow}\mu

左式对应的特征函数为ϕXnˉ(t)=[ϕXi(tn)]n\phi_{\bar{X_n}}(t)=[\phi_{X_i}(\frac{t}{n})]^n.当nn\rightarrow\infty时,

[ϕ(tn)]n=(ϕ(0)+ϕ(0)tn+o(1n))n=[ϕ(0)]nexp[nln(1+tϕ(0)ϕ(0)1n+o(1/n))]eiμt \begin{aligned} \left[\phi(\frac{t}{n})\right]^n &= \left(\phi(0)+\phi'(0)\frac{t}{n}+o(\frac{1}{n})\right)^n\\ &= [\phi(0)]^n \mathrm{exp}\left[n\ln{\left(1+\frac{t\phi'(0)}{\phi(0)}\frac{1}{n}+o(1/n)\right)}\right]\\ &\rightarrow e^{i\mu t} \end{aligned}

以上利用了特征函数的性质.可见结果为随机变量μ\mu(常数)的特征函数.

证毕.

L12 中心极限定理

今天的证明仍然要用到特征函数,主要是以下三个:

  • 几何分布

    Ge(p)ϕ(t)=p1qeitGe(p)\rightarrow\phi(t)=\frac{p}{1-qe^{it}}

  • 指数分布

    Exp(λ)ϕ(t)=11itλExp(\lambda)\rightarrow\phi(t)=\frac{1}{1-\frac{it}{\lambda}}

  • 正态分布

    N(μ,σ2)ϕ(t)=eiμtσ2t22N(\mu,\sigma^2)\rightarrow\phi(t)=e^{i\mu t-\frac{\sigma^2t^2}{2}}

什么是中心极限定理?可以追溯到Polya(Polya’s urn的那个):

Polya (1920)

It was generally known that the appearance of the Gaussian probability density ex2e^{-x^2} in a great many situations can be explained by one and the same limit theorem, which plays a central role in probability theory.

简单来说,"中心极限定理"即在描述:什么情况下i=1nXi\sum_{i=1}^{n}X_i的分布收敛到正态分布.

12.1 中心极限定理

先介绍教材上的版本:

中心极限定理(Lindberg-Levi版本)

设随机变量序列X1,X2,...,XnX_1,X_2,...,X_n独立同分布,且数学期望和方差存在:

E(Xk)=μ,Var(Xk)=σ2>0,k=1,2,...,n\mathrm{E}(X_k)=\mu,\mathrm{Var}(X_k)=\sigma^2>0,k=1,2,...,n

则随机变量之和X:=i=1nXiX:=\sum_{i=1}^{n}X_i的标准化变量:

Yn=XE(X)Var(X)=XnμnσY_n=\frac{X-\mathrm{E}(X)}{\sqrt{\mathrm{Var}(X)}}=\frac{X-n\mu}{\sqrt{n}\sigma}

的分布函数Fn(x)F_n(x)对任意实数xx满足:

limnFn(x)=limnP(Xnμnσx)=x12πet22dt=Φ(x)\lim_{n\rightarrow\infty}F_n(x)=\lim_{n\rightarrow\infty}P\left( \frac{X-n\mu}{\sqrt{n}\sigma}\leq x \right)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt=\Phi(x)

对上述定理的解读:

  • nn足够大时,YnY_n的分布函数近似于标准正态分布;
  • 均值XˉN(μ,σ2n),n\bar{X}\sim N\left( \mu, \frac{\sigma^2}{n} \right),n\rightarrow\infty

第二点是统计推断的基础.

从中心极限定理看,为何许多的随机现象都服从正态分布?

  • 彼此没有什么相依关系、对随机现象谁也不能起突出影响,而"均匀"地起到微小作用的随机因素共同作用叠加,结果呈现正态分布.
  • 若描述此随机现象的随机变量为XX,则它可被看成为许多相互独立的起微小作用的因素XkX_k的总和kXk\sum_kX_k,而这个总和近似服从正态分布.

例12.1(DeMoivre-Laplace中心极限定理)

是最早的中心极限定理表述,可以看作Lindberg-Levi中心极限定理的二项分布特例,即假设Ynb(n,p),0<p<1,n=1,2,...Y_n\sim b(n,p),0<p<1,n=1,2,...,则有:

YnN[np,np(1p)],nY_n\sim N[np,np(1-p)],n\rightarrow\infty

例12.2(良种数近似)

设一大批种子种良种占1/6.试估计在任选的6000粒种子中,良种比例与1/6比较上下小于1%的概率范围

解:

XX表示6000枚种子中的良种数,Xb(6000,1/6),E(X)=1000,Var(X)=5000/6X\sim b(6000,1/6),\mathrm{E}(X)=1000,\mathrm{Var}(X)=5000/6,用三种方法近似:

I、切比雪夫不等式(最粗糙)

P(X1000<60)=1P(X100060)15000/6602=0.7685P(|X-1000|<60)=1-P(|X-1000|\geq 60)\geq 1-\frac{5000/6}{60^2}=0.7685

II、中心极限定理

可近似认为XN(1000,5000/6)X\sim N(1000,5000/6),那么:

P(X1000<60)=2Φ(595000/6)1=0.9590287P(|X-1000|<60)=2\Phi\left(\frac{59}{\sqrt{5000/6}}\right)-1=0.9590287

如果在边界处取一个中间值,那么:

P(X1000<60)=2Φ(59.55000/6)1=0.9607P(|X-1000|<60)=2\Phi\left(\frac{59.5}{\sqrt{5000/6}}\right)-1=0.9607

III、二项分布精确值

P(X1000<60)=P(940<X<1060)=k=9411059(6000k)(1/6)k(5/6)6000k=0.9607P(|X-1000|<60)=P(940<X<1060)=\sum_{k=941}^{1059}\begin{pmatrix} 6000\\k\end{pmatrix}(1/6)^k(5/6)^{6000-k}=0.9607

可见,中心极限定理在重复次数6000次后,已经是一个相当好的近似了,实际上nn远小于它也够用了.

从数学上看,高斯分布函数就是某函数不断自卷积所能达到的"天花板".

12.2 中心极限定理的证明

证明方法当然是使用我们强力的特征函数:

证明:

往证Levi版本:

Yn=(i=1nXi)nμnσP,nZN(0,1)Y_n=\frac{(\sum_{i=1}^nX_i)-n\mu}{\sqrt{n}\sigma}\stackrel{P,n\rightarrow\infty}{\longrightarrow}Z\sim N(0,1)

RHS的特征函数ϕZ(t)=et22\phi_Z(t)=e^{-\frac{t^2}{2}}

对LHS:

ϕYn(t)=[ϕXiμ(tnσ)]n=[1+12ϕXiμ(0)(tnσ)2+o(1n)]n=[1+i212Var(Xi)(t2nσ2)+o(1n)]n=net22=ϕZ(t)\begin{aligned} \phi_{Y_n}(t)&=\left[ \phi_{X_i-\mu}\left( \frac{t}{\sqrt{n}\sigma} \right) \right]^n\\ &=\left[ 1+\frac{1}{2}\phi_{X_i-\mu}''(0)\left(\frac{t}{\sqrt{n}\sigma}\right)^2+o\left( \frac{1}{n}\right)\right]^n\\ &=\left[ 1+i^2\frac{1}{2}\mathrm{Var}(X_i)\left(\frac{t^2}{n\sigma^2}\right)+o\left( \frac{1}{n}\right)\right]^n \stackrel{n\rightarrow\infty}{=}e^{-\frac{t^2}{2}}=\phi_Z(t)\end{aligned}

用到了特征函数高阶导数与nn阶矩之间的关系,通过泰勒展开得到证明.

中心极限定理阐明了正态分布的来源:与二项分布、指数分布等由物理世界的性质决定不同,正态分布从极限起源.

中心极限定理诠释了正态分布的物理意义.

12.3 李雅普诺夫

独立同分布这个条件可能还是有点太强,现实世界中没有这么多独立同分布的情况,我们能不能把这个条件放开?

中心极限定理(Lyapunov版本)

设随机变量序列X1,X2,...,XnX_1,X_2,...,X_n独立,且数学期望和方差存在:

E(Xk)=μk,Var(Xk)=σk2>0,k=1,2,...,n\mathrm{E}(X_k)=\mu_k,\mathrm{Var}(X_k)=\sigma_k^2>0,k=1,2,...,n

Bn2=k=1nσk2B_n^2=\sum_{k=1}^n\sigma_k^2,若存在δ>0\delta>0,使得Lyapunov条件:

limn1Bn2+δk=1nE(Xkμk2+δ)=0\lim_{n\rightarrow\infty}\frac{1}{B_n^{2+\delta}}\sum_{k=1}^n\mathrm{E}(|X_k-\mu_k|^{2+\delta})=0

成立,则随机变量之和X:=k=1nXkX:=\sum_{k=1}^{n}X_k的标准化变量:

Zn=Xi=1kμkBn=XnμnσZ_n=\frac{X-\sum_{i=1}^k\mu_k}{B_n}=\frac{X-n\mu}{\sqrt{n}\sigma}

的分布函数Fn(x)F_n(x)对任意实数xx满足:

limnFn(x)=limnP(Xi=1kμkBnx)=x12πet22dt\lim_{n\rightarrow\infty}F_n(x)=\lim_{n\rightarrow\infty}P\left( \frac{X-\sum_{i=1}^k\mu_k}{B_n}\leq x \right)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt

证明略.我们这不是数学课(笑).

Lyapunov版本的中心极限定理似乎更吓人了,但是大体思想与Lindberg-Levi版本的想法是类似的:它只是去掉了同分布假设,但又要求分布之间不那么不同.以下为Lyapunov版本的一些要点:

  • nn很大时,Zn=Xi=1kμkBn=XnμnσZ_n=\frac{X-\sum_{i=1}^k\mu_k}{B_n}=\frac{X-n\mu}{\sqrt{n}\sigma}近似服从标准正态分布N(0,1)N(0,1);

  • nn很大时,X=k=1nXkX=\sum_{k=1}^{n}X_k近似服从正态分布N(k=1nμk,Bn2)N(\sum_{k=1}^n\mu_k,B_n^2);

也就是说,无论Xk(k=1,2,...)X_k(k=1,2,...)满足什么分布,只要有Lyapunov条件成立,当nn很大时,k=1nXk\sum_{k=1}^{n}X_k总是近似服从正态分布.

例12.3(自然现象往往近似服从正态分布)

  • 某时刻一个城市的用电量=大量用户耗电总和

  • 物理实验的测量误差由大量观察不到的、可加的微小误差所合成

上面看到,中心极限定理中,"同分布"这个条件是不重要的.下面我们会看到,甚至"独立"这个条件也不重要!

讲之前提一嘴:那什么条件重要?答案是:方差存在!.挺反直觉的,可以举个没有方差的粒子:

比如,20个独立同分布的柯西分布相加:

1
2
3
4
5
6
N <- 5000
s <- rep(0, N)
for (i in 1:20) {
s <- s + rcauchy(N)
}
hist(s, breaks=200)

结果是:

可以看到更像是Dirac delta而非正态分布的钟形曲线.

12.4 马尔可夫

马尔可夫是切比雪夫的学生,属于圣彼得堡学派,他反对莫斯科学派领袖Pavel Nekrasov提出的"大数定律的必要条件是被加的随机变量相互独立".因为直觉来讲,自然现象中有时间上的因果联系,因而被加项会有关联.

中心极限定理(Markov版本)

设随机变量序列X1,X2,...,XnX_1,X_2,...,X_n不互相独立,且有:

P(XjXj1,Xj2...)=P(XjXj1)P(X_j|X_{j-1},X_{j-2}...)=P(X_j|X_{j-1})

即具有马尔可夫性.再加上可逆性、可达性条件,使其成为一个马尔科夫链(在随机过程章节讨论).于是:

μ=E(X1),σ2=Var(X1)+2k=1Cov(X1,XK+1)<+μn:=1nk=1nXkP,nZN(μ,σ2n)\mu=\mathrm{E}(X_1),\sigma^2=\mathrm{Var}(X_1)+2\sum_{k=1}^{\infty}\mathrm{Cov}(X_1,X_{K+1})<+\infty\\\Longrightarrow \mu_n:=\frac{1}{n}\sum_{k=1}^nX_k\stackrel{P,n\rightarrow\infty}{\longrightarrow}Z\sim N\left(\mu,\frac{\sigma^2}{n}\right)

L13 蒙特卡洛方法

这一集没啥好讲的,值得一提的是蒙卡方法的几种种类吧:

  • 逆函数法

  • 舍选法

  • 马尔科夫链法(适用任意高维度数据,实例:中子输运模拟、PMT还原点源响应)

  • 对抗生成网络法(?)

之后统计学部分大概也不会记全篇笔记了,挑一点重难点记下来即可.

L13.5 指数分布族

指数分布族指满足以下形式的密度函数/分布列:

f(xθ)=h(x)exp[i=1sηi(θ)Ti(x)A(η)]f(x|\bm{\theta})=h(x)\mathrm{exp}\left[ \sum_{i=1}^s\eta_i(\bm{\theta})T_i(x)-A(\bm{\eta}) \right]

ss为该指数分布族的维数.

其标准形式是以η\bm{\eta}为自变量来替换θ\bm{\theta},简化notation:η:=(η1,η2,...,ηs),T(x):=(T1(x),T2(x),...,Ts(x))\bm{\eta}:=(\eta_1,\eta_2,...,\eta_s)^\top,\bm{T}(x):=(T_1(x),T_2(x),...,T_s(x)):

f(xη)=h(x)exp[ηT(x)A(η)]f(x|\bm{\eta})=h(x)\mathrm{exp}\left[ \bm{\eta}^\top \bm{T}(x)-A(\bm{\eta}) \right]

仔细看就会发现,我们熟悉的许多分布都是指数分布族的一员:

  • 离散型:二项分布、几何分布、泊松分布、负二项分布.

  • 连续型:伽马分布、正态分布.

本讲主要关注了指数分布族在求期望、方差时的共性.下面开始推导,不妨假设为连续型随机变量,积分默认对实数范围(事实上离散型的求和号和这里的积分号并没有什么大不同,毕竟我们用到的唯一性质就是交换偏导与积分/求和,这里都可以满足.):

注意到,作为随机变量密度函数的f(xη)f(x|\bm{\eta})满足:

f(xη)dx=1\int f(x|\bm{\eta})dx=1

代入标准形式我们有一个关键推论:

exp[A(η)]=h(x)exp[ηT(x)]dx\mathrm{exp}[A(\bm{\eta})]=\int h(x)\mathrm{exp}\left[ \bm{\eta}^\top \bm{T}(x)\right ]dx

一些notation:Aη=(Aη1,Aη2,...,Aηs),2Aη2=(2Aη12,2Aη22,...,2Aηs2)\frac{\partial A}{\partial \bm{\eta}}=(\frac{\partial A}{\partial \eta_1},\frac{\partial A}{\partial \eta_2},...,\frac{\partial A}{\partial \eta_s}),\frac{\partial^2 A}{\partial \bm{\eta}^2}=(\frac{\partial^2 A}{\partial \eta_1^2},\frac{\partial^2 A}{\partial \eta_2^2},...,\frac{\partial^2 A}{\partial \eta_s^2})

我们对着关键推论求导一次即可得到:

Aηexp[A(η)]=h(x)exp[ηT(x)]T(x)dx \frac{\partial A}{\partial \bm{\eta}}\mathrm{exp}[A(\bm{\eta})]=\int h(x)\mathrm{exp}\left[ \bm{\eta}^\top \bm{T}(x)\right ]\bm{T}(x)dx

进而有:

Aη=h(x)exp[ηT(x)A(η)]T(x)dx=f(xη)T(x)dx=E(T(x))\begin{aligned} \frac{\partial A}{\partial \bm{\eta}}&=\int h(x)\mathrm{exp}\left[ \bm{\eta}^\top \bm{T}(x)-A(\bm{\eta}) \right ]\bm{T}(x)dx\\ &=\int f(x|\bm{\eta})\bm{T}(x)dx\\ &=\mathrm{E}(\bm{T}(x)) \end{aligned}

求导两次即可得到:

[2Aη2+(Aη)2]exp[A(η)]=h(x)exp[ηT(x)]T2(x)dx\left[\frac{\partial^2 A}{\partial \bm{\eta}^2}+\left( \frac{\partial A}{\partial \bm{\eta}} \right)^2\right]\mathrm{exp}[A(\bm{\eta})]=\int h(x)\mathrm{exp}\left[ \bm{\eta}^\top \bm{T}(x)\right ]\bm{T^2}(x)dx

进而有:

2Aη2=E(T2(x))(Aη)2=Var(T(x))\begin{aligned} \frac{\partial^2 A}{\partial \bm{\eta}^2}&=\mathrm{E}(\bm{T^2}(x))-\left( \frac{\partial A}{\partial \bm{\eta}} \right)^2\\ &=\mathrm{Var}(\bm{T}(x)) \end{aligned}

也就是说,标准形式指数分布族(或其内蕴函数)的方差、期望可以用下式求解:

Var(T(x))=2Aη2,E(T(x))=Aη\mathrm{Var}(\bm{T}(x))=\frac{\partial^2 A}{\partial \bm{\eta}^2},\,\,\,\,\,\mathrm{E}(\bm{T}(x))=\frac{\partial A}{\partial \bm{\eta}}

特别地,当s=1,T(x)=xs=1,T(x)=x时,我们还能直接获得其矩母函数及累计函数(Cumulant):

Mf(t)=E(etX)=exp[A(η+t)A(η)]Cf(t)=ln(Mf(t))=A(η+t)A(η)M_f(t)=\mathrm{E}(e^{tX})=\exp[A(\eta+t)-A(\eta)]\\ C_f(t)=\ln(M_f(t))=A(\eta+t)-A(\eta)

证明略,代入不难.

作为练习,可以利用指数分布族的性质求一下分布形式的期望、方差:

  • 泊松分布π(λ)\pi(\lambda)

  • 二项分布b(n,p)b(n,p)(想一想,参数θ\bm{\theta}是二维还是一维?)

  • 正态分布N(μ,σ2)N(\mu,\sigma^2)

  • 伽马分布Ga(α,λ)Ga(\alpha,\lambda)

L14 统计学概论

统计学是收集、分析、表述(图表)、解释数据的科学.它包罗万象,甚至可以说,它包含了所有的实证科学.

统计学的七大准则:

  • Aggregation 概括(削减信息以让人获得更多信息,less is more)

  • Information Measurement 信息度量(根号n准则,数据越多,新数据的信息量越少)

  • Likelihood 似然与概率论

  • Intercomparison 完备性(统计学有一套自洽的数据分析体系,可以独立于具体的实证科学领域工作)

  • Regression 回归

  • Design 实验设计

  • Residual 分析已知与未知(残差分析?)

统计学分两大块:描述统计学推断统计学.

描述统计学(descriptive statistics),我们希望以直观的图表展示数据的基本信息,以:

  • 大致描述数据特征

  • 找出数据的基本规律

常用的图表有:

  • 分布表(频数、频率)
  • 直方图(频数、频率、频数密度、频率密度四种)
  • 箱线图

可以用R语言绘图(核心制图系统、ggplot系统)

推断统计学,我们希望对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性.它是用样本数据对总体的某些特征进行估计和检验的统计学.

  • 内容:参数估计;假设检验
  • 目的:对总体(一个随机变量)特征作出判断

L15 统计量与分布

15.1 随机样本

总体XX是研究对象的某个/某些数量指标的全体,其实就是一个随机变量.我们在统计学里更多说"总体".它有三层含义:

  • 研究对象的全体
  • 数据
  • 分布

个体是组成总体的每一个元素,可以看作随机变量XX的某个取值,记为XiX_i.

样本是从总体中抽取的部分个体.

  • (X1,X2,,Xn)(X_1,X_2,\cdots,X_n)表示,nn为样本容量;
  • (x1,x2,,xn)(x_1,x_2,\cdots,x_n)表示总体XX的一个容量为nn样本观测值.

样本空间即样本所有可能取值的集合.

学概率论的时候也有"样本空间",它和统计学里的样本空间是否等价呢?这里我们认为它们就是一回事.

若总体XX的样本(X1,X2,,Xn)(X_1,X_2,\cdots,X_n)独立同分布(i.i.d),则称其为简单随机样本.

关于样本的抽样方法:

  • 对有限总体,放回抽样可以得到简单随机样本;
  • 如果放回抽样不方便,常常用不放回抽样代替,条件:N/n10N/n \geq 10,NN为总体中个体数,nn为样本容量.

15.2 统计量

统计量即样本的不含未知参数的连续函数g(X1,X2,,Xn)g(X_1,X_2,\cdots,X_n).

  • 利用样本的函数——统计量——进行统计推断;
  • 样本是随机变量,故统计量也是随机变量.

例15.1

考虑1σ2i=1n(Xiμ)2\frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i-\mu)^2,如果参数μ,σ2\mu,\sigma^2已知,则它是统计量,否则不是.

常见统计量:

  • 样本均值:Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i

  • 样本方差:S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2(是的,就是n1n-1,这么定义的原因后面会讲)

  • 样本标准差:S2\sqrt{S^2}

  • 样本kk阶原点矩:Ak=1ni=1nXikA_k=\frac{1}{n}\sum_{i=1}^nX_i^k,可见A1=XˉA_1=\bar{X}

  • 样本kk阶中心矩:Bk=1ni=1n(XiXˉ)kB_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^k,可见B2=n1nS2:=Sn2B_2=\frac{n-1}{n}S^2:=S_n^2

样本均值的性质:

  • (一阶性质):偏差定义为样本中数据与样本均值之差,则样本所有偏差之和为0,即:

    i=1n(XiXˉ)=0\sum_{i=1}^n(X_i-\bar{X})=0

  • (二阶性质):数据观察值与样本均值的偏差平方和最小,也就是说,形如i=1n(Xic)2\sum_{i=1}^n(X_i-c)^2的函数中,c=Xˉc=\bar{X}时取最小值.

以及回顾一下中心极限定理的统计学结果:

中心极限定理:

X1,X2,,XnX_1,X_2,\cdots,X_n是来自某个总体的样本,Xˉ\bar{X}为样本均值.

  • 若总体分布为N(μ,σ2)N(\mu,\sigma^2),则XˉN(μ,σ2n)\bar{X}\sim N(\mu,\frac{\sigma^2}{n});
  • 若总体分布未知/不是正态分布,但E(X)=μ,Var(X)=σ2\mathrm{E}(X)=\mu,\mathrm{Var}(X)=\sigma^2存在,则nn较大时,Xˉ\bar{X}的渐进分布为N(μ,σ2n)N(\mu,\frac{\sigma^2}{n}).

这样我们就获得了样本一二阶矩的性质:

一二阶矩性质:

设总体XX的二阶矩存在,即E(X)=μ,Var(X)=σ2<+\mathrm{E}(X)=\mu,\mathrm{Var}(X)=\sigma^2<+\infty,且X1,X2,,XnX_1,X_2,\cdots,X_n是从这个总体得到的样本,Xˉ,S2\bar{X},S^2分别是样本均值与样本方差,则有:

E(Xˉ)=μVar(Xˉ)=σ2nE(S2)=σ2\mathrm{E}(\bar{X})=\mu\\\mathrm{Var}(\bar{X})=\frac{\sigma^2}{n}\\\mathrm{E}(S^2)=\sigma^2

注意区别:样本方差S2S^2和总体方差(随机变量方差)σ2:=Var(X)\sigma^2:=\mathrm{Var}(X).前者是随机变量,后者是数字特征.

解:
前两式由期望与方差的性质不难得到.

对第三式,考虑样本二阶中心矩:

Sn2=B2=1ni=1n(XiXˉ)2=1n(i=1nXi22Xˉi=1nXi+nXˉ2)=1ni=1nXi2Xˉ2\begin{aligned} S_n^2=B^2&=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2\\ &=\frac{1}{n}\left( \sum_{i=1}^nX_i^2 -2\bar{X}\sum_{i=1}^nX_i +n\bar{X}^2 \right)\\ &=\frac{1}{n}\sum_{i=1}^nX_i^2-\bar{X}^2\end{aligned}

这一过程和概率论中算随机变量的方差很像,只不过我们这里算出来的结果还是一个随机变量,而非一个数.于是:

E(Sn2)=E(1ni=1nXi2)E(Xˉ2)=nn[Var(X)+E2(X)][Var(Xˉ)+E2(Xˉ)]=(σ2+μ2)(1nσ2+μ2)=n1nσ2\begin{aligned} \mathrm{E}(S_n^2)&=\mathrm{E}\left(\frac{1}{n}\sum_{i=1}^nX_i^2\right)-\mathrm{E}(\bar{X}^2)\\ &=\frac{n}{n}[\mathrm{Var}(X)+\mathrm{E}^2(X)]-[\mathrm{Var}(\bar{X})+\mathrm{E}^2(\bar{X})]\\ &=(\sigma^2+\mu^2)-\left( \frac{1}{n}\sigma^2+\mu^2\right)\\ &=\frac{n-1}{n}\sigma^2\end{aligned}

所以S2:=nn1Sn2=1n1i=1n(XiXˉ)2=σ2S^2:=\frac{n}{n-1}S_n^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2=\sigma^2.这也是为什么我们要这么定义样本方差:这样可以保证样本方差的期望是总体的方差.

15.3 统计量的分布

统计量既然是仅依赖于样本的随机变量,它也应该由概率分布,Tn=g(X1,X2,,Xn)T_n=g(X_1,X_2,\cdots,X_n)的分布称为抽样分布

例15.2(正态分布总体的样本均值)

设总体XN(μ,σ2)X\sim N(\mu,\sigma^2),参数已知,样本为(X1,X2,,Xn)(X_1,X_2,\cdots,X_n),则:

XˉN(μ,σ2n)\bar{X}\sim N\left( \mu,\frac{\sigma^2}{n} \right)

正态分布是最简单的情况,接下来要介绍更复杂的情况:

χ2\chi^2分布

先回忆一下概率论中涉及的卡方分布相关性质:

  • 我们证明过:若XN(0,1)X\sim N(0,1),那么X2χ2(1)=Ga(1/2,1/2)X^2\sim \chi^2(1)=Ga(1/2,1/2)
  • 我们还证明过:伽马分布的α\alpha参数有可加性.

伽马分布:

Ga(α,λ):f(x;α,λ)=λαΓ(α)xα1eλxGa(\alpha,\lambda):f(x;\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}

于是:

卡方分布(χ2\chi^2分布)

X1,X2,,XnX_1,X_2,\cdots,X_ni.i.d于标准正态分布N(0,1)N(0,1),那么:

i=1nXi2χ2(n)\sum_{i=1}^nX_i^2\sim \chi^2(n)

其中nn为自由度,代表求和中独立变量个数.

χ2(n)\chi^2(n)分布的概率密度为:

fχ2(n)(x)=(1/2)n/2Γ(n/2)xn/21ex/2,x(0,+)f_{\chi^2(n)}(x)=\frac{(1/2)^{n/2}}{\Gamma(n/2)}x^{n/2-1}e^{-x/2},x\in(0,+\infty)

可见χ2(n)=Ga(n/2,1/2)\chi^2(n)=Ga(n/2,1/2),是伽马分布的一个特例.

卡方分布性质:

  • Xχ2(n)X\sim \chi^2(n),E(X)=n,Var(X)=2n\mathrm{E}(X)=n,\mathrm{Var}(X)=2n

  • X1χ2(n1),X2χ2(n2)X_1\sim \chi^2(n_1),X_2\sim \chi^2(n_2),且X1,X2X_1,X_2独立,那么X1+X2χ2(n1+n2)X_1+X_2\sim \chi^2(n_1+n_2)

  • 随着自由度nn增大,χ2\chi^2分布趋近于正态分布.

注意性质一用到了:XGa(α,λ)Var(X)=α/λ2X\sim Ga(\alpha,\lambda)\Rightarrow \mathrm{Var}(X)=\alpha/\lambda^2

接下来引入α\alpha分位点的概念(如果不说"上",默认为下分位点):

α\alpha分位点zαz_\alpha

XX是随机变量,0<α<10<\alpha<1,则称满足P(X>zα)=αP(X>z_\alpha)=\alpha的点zαz_\alphaXXα\alpha分位点.

对卡方分布,上述写法一般改成:P{χ2>χα2(n)}=χα2(n)fχ2(n)(y)dy=αP\{\chi^2>\chi_\alpha^2(n)\}=\int_{\chi^2_\alpha(n)}^\infty f_{\chi^2(n)}(y)dy=\alpha

为何卡方分布更关心上分位数?这是因为卡方分布定义域有下界,而无上界.两边都无界的分布常用双侧分位数,我们马上就会看到示例.

卡方分布常见于描述正态总体样本方差的分布,例如:当总体XN(μ,σ2)X\sim N(\mu,\sigma^2),σ2\sigma^2已知,样本为(X1,X2,,Xn)(X_1,X_2,\cdots,X_n),那么:

(n1)S2σ2=i=1n(XiXˉσ)χ2(n1)\frac{(n-1)S^2}{\sigma^2}=\sum_{i=1}^n\left(\frac{X_i-\bar{X}}{\sigma}\right)\sim \chi^2(n-1)

这一式子的证明比较繁杂,但是结论非常重要,毕竟如果把样本均值换成总体均值,我们有:

i=1n(Xiμσ)χ2(n)\sum_{i=1}^n\left(\frac{X_i-\mu}{\sigma}\right)\sim \chi^2(n)

可见用样本均值估计时,得到的卡方分布自由度少了1.

F分布

F分布基于卡方分布构造而来:

F分布

设随机变量Xχ2(n),Yχ2(m)X\sim\chi^2(n),Y\sim\chi^2(m),并且X,YX,Y相互独立,那么定义:

F=X/nY/mF=\frac{X/n}{Y/m}

FF服从第一自由度为nn,第二自由度为mm的F分布.

F分布的概率密度为:

fF(x)=Γ(m+n2)(nm)n/2Γ(m2)Γ(n2)xn21(1+nmx)m+n2,x(0,+)f_F(x)=\frac{\Gamma(\frac{m+n}{2})(\frac{n}{m})^{n/2}}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}\left(1+\frac{n}{m}x\right)^{-\frac{m+n}{2}},x\in (0,+\infty)

F分布得名于Ronald.A.Fisher(1890-1962)的首字母,其概率密度函数的推导要领为:

  • 考察Z=XYZ=\frac{X}{Y}的概率密度函数;
  • 乘以系数F=mnZF=\frac{m}{n}Z.

在之后的假设检验中,F分布将会很有用.

F分布性质:

  • FF(n,m)F\sim F(n,m),那么1FF(n,m)\frac{1}{F}\sim F(n,m)

  • F1α(n,m)=1Fα(m,n)F_{1-\alpha}(n,m)=\frac{1}{F_\alpha(m,n)},此处Fα(n,m)F_\alpha(n,m)F(n,m)F(n,m)分布的上α\alpha分位数.

性质2的推导:对于XF(n,m)X\sim F(n,m),令Y=1XY=\frac{1}{X},则

P(X>F1α(n,m))=1αP(Y<1F1α(n,m))=1αP(Y>1F1α(n,m))=α\begin{aligned} &P(X>F_{1-\alpha}(n,m))=1-\alpha\\ \Rightarrow&P\left(Y<\frac{1}{F_{1-\alpha}(n,m)}\right)=1-\alpha\\ \Rightarrow&P\left(Y>\frac{1}{F_{1-\alpha}(n,m)}\right)=\alpha \end{aligned}

由性质1知,YF(m,n)Y\sim F(m,n),于是Fα(m,n)=1F1α(n,m)F_\alpha(m,n)=\frac{1}{F_{1-\alpha}(n,m)},与性质2等价.

F分布常见于两个正态总体的比较,接卡方分布中的总体XX定义,又设总体XN(μ,σ2)X'\sim N(\mu',\sigma'^2),样本为(X1,X2,,Xn)(X_1',X_2',\cdots,X_{n'}'),与(X1,X2,,Xn)(X_1,X_2,\cdots,X_n)相互独立.则:

S2/S2σ2/σ2F(n1,n1)\frac{S^2/S'^2}{\sigma^2/\sigma'^2}\sim F(n-1,n'-1)

t分布

t分布

设随机变量XN(0,1),Yχ2(n)X\sim N(0,1),Y\sim\chi^2(n),并且X,YX,Y相互独立,那么定义:

T=XY/nT=\frac{X}{\sqrt{Y/n}}

TT服从自由度为nn的t分布(即Student分布,学生氏分布).

t分布的概率密度为:

fT(x)=tfT2(t2)=Γ(n+12)Γ(n2)nπ(1+t2n)n+12,tRf_T(x)=tf_{T^2}(t^2)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})\sqrt{n\pi}}\left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}},t\in \mathbb{R}

t分布概率密度推导要领为:

  • T2=X2/1Y2/nT^2=\frac{X^2/1}{Y^2/n},所以T2F(1,n)T^2\sim F(1,n)
  • T=T2T=\sqrt{T^2}

t分布性质:

  • fn(t)f_n(t)是偶函数,

    n,fn(t)ϕ(t)=12πex22n\rightarrow\infty,f_n(t)\rightarrow\phi(t)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}

  • t分布的上α\alpha分位数tαt_\alpha定义为P(T>tα)=αP(T>t_\alpha)=\alpha,满足tα=t1α-t_\alpha=t_{1-\alpha};

  • t分布的双侧α\alpha分位数tα/2t_{\alpha/2}定义为P(T>tα/2)=αP(|T|>t_{\alpha/2})=\alpha,它同样是t分布的上α/2\alpha/2分位数.

t分布常见于用样本方差标准化样本均值的分布.设总体XN(μ,σ2)X\sim N(\mu,\sigma^2),μ\mu已知,样本为(X1,X2,,Xn)(X_1,X_2,\cdots,X_n),那么:

XˉμS/nt(n1)\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)

L16 点估计

16.1 统计推断

统计推断是数理统计理论的重要部分,建立在概率论的基础上.目的是利用从总体抽出的样本,推断总体的性质(期望,方差,分布等).具体来讲,即以下步骤:

X采样Xng统计量X\stackrel{采样}{\rightarrow}X_n\stackrel{g}{\rightarrow}统计量

其中,随机变量函数gg需要仔细选择,使得对应统计量能够很好地反映原总体的性质.

统计推断的基本问题是:

  • 参数估计问题
    • 点估计
    • 区间估计
  • 假设检验问题

首先讨论参数估计问题:

  • 参数θ\theta是刻画总体某方面概率特性的数量(如:正态分布的μ,σ2\mu,\sigma^2).
  • 当该数量未知时,从总体抽出一个样本,用一定方法对它参数估计.
    • 方法问题:如何利用样本估计位置参数?
    • 评判标准:如何评价估计的好坏?

其中,点估计估计未知参数的值;区间估计估计未知参数的取值范围,并使此范围包含参数真值的概率为给定的值(“置信度”).

16.2 点估计

例16.1

设在炸药制造厂,一天中发生着火的次数XX服从以λ\lambda为参数的泊松分布,参数未知,现有以下样本值,试估计参数λ\lambda.

着火次数kk01234567
发生kk次着火的天数nkn_k759054226210=250\sum=250

解:

由于Xπ(λ)X\sim \pi(\lambda),故有λ=E(X)\lambda=\mathrm{E}(X),可以用样本均值估计总体均值E(X)\mathrm{E}(X)(利用大数定律),由数据计算得到
Xˉ=1.22\bar{X}=1.22,于是参数的估计值:

λ^=1.22\hat{\lambda}=1.22

如果用样本方差估计,由于λ=Var(X)\lambda=\mathrm{Var}(X),且样本方差算得s2=1.27s^2=1.27,于是参数的估计值:

λ^=1.27\hat{\lambda}=1.27

1.27和1.22很接近,一方面在一定程度上说明,最初对总体满足泊松分布的假设是合理的;但是两者毕竟不一样,哪个估计更好呢?

以上例题其实就是一个点估计的过程,下面为点估计下定义:

点估计:

用一个数值作为位置参数的估计值称为点估计.

  • 设总体XX的分布函数形式已知,θ\theta是待估参数,X1,X2,,XnX_1,X_2,\cdots,X_n为总体的一个样本.

  • 点估计构造一个适当的统计量θ^(X1,X2,,Xn)\hat{\theta}(X_1,X_2,\cdots,X_n),用它的观察值θ^(x1,x2,,xn)\hat{\theta}(x_1,x_2,\cdots,x_n)作为待估计参数的近似值.

  • 约定:“尖帽符号^\hat{}”,表示估计量,它是一个统计量.

点估计确定参数的准则有很多种,这节课先介绍常用的三种:矩估计,最大似然估计,最小二乘估计.

16.3 矩估计法

对总体的kk阶矩,依然可以通过大数定律,用Xkˉ\bar{X^k}来估计E(Xk)\mathrm{E}(X^k).

矩估计:

用样本的kk阶矩作为总体kk阶矩的估计量,建立含有待估参数的方程,从而解出待估参数.

  • 设随机变量Xf(x;θ1,θ2,,θk)X\sim f(x;\theta_1,\theta_2,\cdots,\theta_k),其中θ1,θ2,,θk\theta_1,\theta_2,\cdots,\theta_k是待估参数.假设总体的前kk阶矩存在:

    E(Xr)=μr(θ1,θ2,,θk),1rk\mathrm{E}(X^r)=\mu_r(\theta_1,\theta_2,\cdots,\theta_k),1\leq r\leq k

  • X1,X2,,XnX_1,X_2,\cdots,X_n为来自总体XX的一个样本,rr阶样本矩

    ArXrˉ=1ni=1nXirA_r\equiv \bar{X^r}=\frac{1}{n}\sum_{i=1}^nX_i^r

    ArA_r及其函数依概率收敛于相应的总体矩,因此可以:

    • 用样本矩作为对应总体矩的估计量;
    • 用样本矩的函数作为对应总体矩函数的估计量.
  • 总体的前kk阶矩构成联立方程组,含有kk个未知参数:

    μi=μi(θ1,θ2,,θk),1ik\mu_i=\mu_i(\theta_1,\theta_2,\cdots,\theta_k),1\leq i \leq k

    一般情况下,可以用上述方程反解出参数:

    θi=θi(μ1,μ2,,μk),1ik\theta_i=\theta_i(\mu_1,\mu_2,\cdots,\mu_k),1\leq i \leq k

    用样本矩ArA_r代替总体矩μr,1rk\mu_r,1\leq r \leq k就得到待估参数的估计量,称为矩估计量:

    θi^=θi^(A1,A2,,Ak),1ik\hat{\theta_i}=\hat{\theta_i}(A_1,A_2,\cdots,A_k),1\leq i \leq k

    矩估计量的观察值称为矩估计值.

一般将上述矩估计用矢量表示:前kk阶样本矩A=(A1,A2,,Ak)\bm{A}=(A_1,A_2,\cdots,A_k),待估参数θ=(θ1,θ2,,θk)\bm{\theta}=(\theta_1,\theta_2,\cdots,\theta_k),样本X=(X1,X2,,Xn)\bm{X}=(X_1,X_2,\cdots,X_n),前kk阶总体矩μ(θ)=(μ1(θ),μ2(θ),,μk(θ))\bm{\mu}(\bm{\theta})=(\mu_1(\bm{\theta}),\mu_2(\bm{\theta}),\cdots,\mu_k(\bm{\theta})).于是矩估计的步骤为:

  • 反解出θ=θ(μ)\bm{\theta}=\bm{\theta}(\bm{\mu})

  • 待估参数的矩估计量为:

    θ=θ(μ=A)\bm{\bm{\theta}}=\bm{\theta}(\bm{\mu}=\bm{A})

因此,在例16.1中,如果我们用矩估计法做点估计,应当采用样本1阶矩来估计λ\lambda,即样本均值.

矩估计中,取样本矩的数量kk取决于待估参数的数量,并且应当尽量取kk阶样本矩,原因是阶数越小,估计效果越好.这一点会在下一堂课介绍.

例16.2

设总体XExp(λ)X\sim \mathrm{Exp}(\lambda),即f(x)=λeλxf(x)=\lambda e^{-\lambda x}.X1,X2,,XnX_1,X_2,\cdots,X_n为总体的一个样本,求参数λ\lambda的矩法估计量.

解:

总体的一阶矩:

μ1=E(X)=1λ\mu_1=\mathrm{E}(X)=\frac{1}{\lambda}

反解得到:

λ=1μ1\lambda=\frac{1}{\mu_1}

于是参数的矩估计为:

λ^=1A1=1Xˉ\hat{\lambda}=\frac{1}{A_1}=\frac{1}{\bar{X}}

例16.3

证明:若总体的期望μ\mu于方差σ2\sigma^2均存在,则它们的矩估计量分别为:

μ^=Xˉσ2^=n1nS2=Sn2\hat{\mu}=\bar{X}\\\hat{\sigma^2}=\frac{n-1}{n}S^2=S_n^2

解:

总体的前2阶矩:

{μ1=E(X)=μμ2=E(X2)=Var(X)+E2(X)=σ2+μ2\begin{cases} \mu_1=\mathrm{E}(X)=\mu\\ \mu_2=\mathrm{E}(X^2)=\mathrm{Var}(X)+\mathrm{E}^2(X)=\sigma^2+\mu^2\end{cases}

反解得到:

{μ=μ1σ2=μ2μ12\begin{cases} \mu=\mu_1\\ \sigma^2=\mu_2-\mu_1^2\end{cases}

用样本矩代替总体矩即得到对应矩估计.

例16.3

设总体XU(a,b)X\sim U(a,b),取样本为X1,X2,...,XnX_1,X_2,...,X_n,求参数a,ba,b的矩估计量.

解:

可验证矩估计量为:

{a^=A13(A2A12)=A13B2b^=A1+3(A2A12)=A1+3B2\begin{cases} \hat{a}=A_1-\sqrt{3(A_2-A_1^2)}=A_1-\sqrt{3B_2}\\ \hat{b}=A_1+\sqrt{3(A_2-A_1^2)}=A_1+\sqrt{3B_2}\end{cases}

16.4 最大似然估计法

直觉告诉我们,一次试验就出现的事件有较大的概率.譬如,现有两个箱子,各放100个球.一个箱子里99个红球,1个白球;另一个箱子里1个红球,99个白球.现从某个箱子中拿出一个球,结果取得白球,那么是从哪个箱子里取的球呢?显然,更可能是从那个99个白球的箱子里取的球.

类似的,对于手头的样本,我们可以考虑连续变换待求参数θ\bm{\theta},使得从总体中抽出这样的样本的概率取最大值,那么对应的参数可以认为是对真值的一个好的估计.

最大似然估计:

用得到对应样本观测值的概率作为待求参数的似然函数,通过求似然函数的最大值来解出对应的参数估计值.

  • 定义似然函数L(x,θ)L(\bm{x},\bm{\theta}):

    • 对离散型随机变量XX,设分布律为P(X=x)=p(x,θ),x=u1,u2,...,θΘP(X=x)=p(x,\theta),x=u_1,u_2,...,\bm{\theta}\in\Theta,则似然函数为简单随机样本X1,X2,,XnX_1,X_2,\cdots,X_n的联合分布:

    L(x,θ)=P(X1=x1,X2=x2,...,Xn=xn)=i=1np(xi,θ)L(\bm{x},\bm{\theta})=P(X_1=x_1,X_2=x_2,...,X_n=x_n)=\prod_{i=1}^np(x_i,\bm{\theta})

    • 对连续型随机变量XX,设密度函数为f(x,θ)f(x,\bm{\theta}),则似然函数定义为:

    L(x,θ)=i=1nf(xi,θ)L(\bm{x},\bm{\theta})=\prod_{i=1}^nf(x_i,\bm{\theta})

  • 最大似然法(Maximum Likelihood Estimation,MLE):

    θ^(x)=arg maxL(x;θ)\hat{\bm{\theta}}(\bm{x})=\argmax{L(\bm{x};\bm{\theta})}

    称为参数θ\bm{\theta}最大似然估计值,称统计量θ^=θ^(X)\hat{\bm{\theta}}=\hat{\bm{\theta}}(\bm{X})为参数θ\bm{\theta}最大似然估计量.

  • L(x,θ)L(\bm{x},\bm{\theta})关于θ\bm{\theta}可微,则称:

    θrL(x,θ)=0,r=1,2,...,k\frac{\partial}{\partial \theta_r}L(\bm{x},\bm{\theta})=0,r=1,2,...,k

    似然方程组,θrlogL=0\frac{\partial}{\partial \theta_r}\log L=0对数似然方程组.arg maxL\argmax L的求解即求解上述方程组.

例16.4

设总体XX服从0-1分布,且P(X=1)=pP(X=1)=p,用最大似然法求pp的估计值.

解:

x1,x2,...,xnx_1,x_2,...,x_n为总体样本X1,X2,...,XnX_1,X_2,...,X_n的观测值,则得到该样本的概率为:

P(X1=x1,X2=x2,...,Xn=xn)=i=1nP(Xi=xi)=pi=1nxi(1p)ni=1nxiL(p)P(X_1=x_1,X_2=x_2,...,X_n=x_n)=\prod_{i=1}^nP(X_i=x_i)=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i}\equiv L(p)

对不同的pp,L(p)L(p)不同,取使得L(p)L(p)取得最大值:

p^=arg maxL(p)\hat{p}=\argmax{L(p)}

又,由于log\log单调增,有:

p^=arg maxlogL(p)\hat{p}=\argmax{\log{L(p)}}

于是:

ddplogL(p)p=p^=i=1nxip^ni=1nxi1p^=0p^=1ni=1nxi=xˉ\left.\frac{d}{dp}\log{L(p)}\right|_{p=\hat{p}}=\frac{\sum_{i=1}^nx_i}{\hat{p}}-\frac{n-\sum_{i=1}^nx_i}{1-\hat{p}}=0\\\Longrightarrow \hat{p}=\frac{1}{n}\sum_{i=1}^nx_i=\bar{x}

所以,p^=xˉ\hat{p}=\bar{x}pp的最大似然估计值,它刚好也是这个问题的矩估计值.

例16.5

设总体XN(μ,σ2)X\sim N(\mu,\sigma^2),取样本为X1,X2,...,XnX_1,X_2,...,X_n,求μ,σ2\mu,\sigma^2的最大似然估计量.

解:

可以求得:

{μ^=xˉσ2^=x2ˉ(xˉ)2\begin{cases} \hat{\mu}=\bar{x}\\ \hat{\sigma^2}=\bar{x^2}-(\bar{x})^2\end{cases}

结果和矩估计一样.

例16.6

设总体XU(a,b)X\sim U(a,b),取样本为X1,X2,...,XnX_1,X_2,...,X_n,a,ba,b的最大似然估计量.

解:

似然函数:

L(a,b)={1(ba)n,aminximaxxib0,其他L(a,b)=\begin{cases} \frac{1}{(b-a)^n},&a\leq \min{x_i}\leq\max{x_i}\leq b\\ 0,&其他\end{cases}

a=minxi,b=maxxia=\min{x_i},b=\max{x_i}时,L(a,b)L(a,b)最大,所以:

a^=minXi,b^=maxXi\hat{a}=\min{X_i},\hat{b}=\max{X_i}

该结果和矩估计不一样!

16.5 最小二乘估计

  • 历史悠久;
  • 计算高效;
  • 估计量是样本的线性组合,复杂性可控;
  • 本节课不展开,在线性回归中进一步讨论.

L17 点估计的评价

回忆点估计:构造统计量θ^(X1,X2,...,Xn)\hat{\theta}(X_1,X_2,...,X_n),以其观测值作为待估参数的近似值.点估计中,最重要的步骤就是估计量的选择(构造),这一构造的好坏即对于点估计的评价.

17.1 评价标准

对于同一个未知参数,不同方法得到的估计量可能不同,于是提问:

  • 应该选哪种估计量?
  • 用什么标准评价一个估计量的好坏?

预告:标准与数字特征紧密相关:

  • 无偏性—数学期望
  • 有效性—方差
  • 相合性—依概率收敛

17.2 相合性

相合性(consistency),又称一致性

相合性

θ^(X1,X2,...,Xn)\hat{\theta}(X_1,X_2,...,X_n)是总体参数θ\theta的估计量,若

θΘ(θ^Pθ)\forall \theta \in \Theta(\hat{\theta}\stackrel{P}{\longrightarrow}\theta)

则称θ^\hat{\theta}θ\theta相合估计量.

这里由于θ^\hat{\theta}实际上依赖于样本容量nn,所以可以把θ^n\hat{\theta}_n看作随机变量序列,因而相合性实际要求θ^nPθ\hat{\theta}_n\stackrel{P}{\longrightarrow}\theta.相合性是好的估计量的基本要求.如果相合性不符合,即使样本容量nn再大,都无法将估计量估计得足够精确.

相合性判定的原始判定(依概率收敛)涉及概率取极限,比较复杂,这里有利用期望和方差的简化版本(前提:两者均存在).这一定理利用了:我们所期望收敛的随机变量θ\theta,即总体的参数,其实是一个恒定的常数.

定理(相合性判定)

θ^(X1,X2,...,Xn)\hat{\theta}(X_1,X_2,...,X_n)是总体参数θ\theta的估计量,若

limnE(θ^n)=θ,limnVar(θ^n)=0\lim_{n\rightarrow \infty}\mathrm{E}(\hat{\theta}_n)=\theta,\lim_{n\rightarrow\infty}\mathrm{Var}(\hat{\theta}_n)=0

θ^\hat{\theta}θ\theta的相合估计量.

这两个条件看上去还是不够紧凑,我们可以定义均方误差(mean-square error,MSE),把这两者合二为一

其实灵感来源就是:(xa)2+(yb)2=0x=a,y=b(x-a)^2+(y-b)^2=0 \Leftrightarrow x=a,y=b

均方误差(mean-square error,MSE)

MSE(θ^n)E[(θ^nθ)2]=Var(θ^n)+[E(θ^n)θ]2\mathrm{MSE}(\hat{\theta}_n)\equiv \mathrm{E}[(\hat{\theta}_n-\theta)^2]=\mathrm{Var}(\hat{\theta}_n)+[\mathrm{E}(\hat{\theta}_n)-\theta]^2

于是相合性判定的定理条件可以写成:

limnMSE(θ^n)=0\lim_{n\rightarrow\infty}\mathrm{MSE}(\hat{\theta}_n)=0

类似地,相合估计量的函数也对应具有相合性:

函数的相合性

θ^1n,θ^2n,...,θ^kn\hat{\theta}_{1n},\hat{\theta}_{2n},...,\hat{\theta}_{kn}分别是θ1,θ2,...,θk\theta_1,\theta_2,...,\theta_k的相合估计量,且η=g(θ1,θ2,...,θk)\eta=g(\theta_1,\theta_2,...,\theta_k)为连续函数,则η^=g(θ^1n,θ^2n,...,θ^kn)\hat{\eta}=g(\hat{\theta}_{1n},\hat{\theta}_{2n},...,\hat{\theta}_{kn})η\eta的相合估计量.

例17.1

X1,X2,...,XnX_1,X_2,...,X_n是抽样自总体XU(0,θ)X\sim U(0,\theta)的样本.证明θ\theta的最大似然估计量是相合估计量.

解:

上一节中证明了,θ\theta的最大似然估计量为θ^n=max(X1,X2,...,Xn)\hat{\theta}_n=\max(X_1,X_2,...,X_n),设其分布函数为Fθ^n(x)F_{\hat{\theta}_n}(x),由次序统计量相关知识可知,

Fθ^n(x)=(xθ)nI(0<x<θ)F_{\hat{\theta}_n}(x)=\left(\frac{x}{\theta}\right)^nI(0<x<\theta)

则概率密度函数为

fθ^n(x)=nθ(xθ)n1I(0<x<θ)f_{\hat{\theta}_n}(x)=\frac{n}{\theta}\left(\frac{x}{\theta}\right)^{n-1}I(0<x<\theta)

于是容易算出

E(θ^n)=xfθ^n(x)dx=nn+1θVar(θ^n)=(xE(θ^n))2fθ^n(x)dx=n(n+2)(n+1)2θ2\mathrm{E}(\hat{\theta}_n)=\int xf_{\hat{\theta}_n}(x)dx=\frac{n}{n+1}\theta\\\mathrm{Var}(\hat{\theta}_n)=\int (x-\mathrm{E}(\hat{\theta}_n))^2f_{\hat{\theta}_n}(x)dx=\frac{n}{(n+2)(n+1)^2}\theta^2

容易验证

limnE(θ^n)=θ,limnVar(θ^n)=0\lim_{n\rightarrow \infty}\mathrm{E}(\hat{\theta}_n)=\theta,\lim_{n\rightarrow\infty}\mathrm{Var}(\hat{\theta}_n)=0

θ^n\hat{\theta}_nθ\theta的相合估计量.

17.3 无偏性

无偏性

θ^\hat{\theta}θ\theta无偏估计量,若

E(θ^)θ\mathrm{E}(\hat{\theta})\equiv\theta

对比相合性的定义,可见无偏性对于期望的要求比起相合性要更进一步,即要求无论样本容量nn是多少,估计量的期望总等于均值.(当然,我们没法要求每次从样本得到的估计量总等于真值)

  • 样本均值Xˉ\bar{X}是总体期望E(X)\mathrm{E}(X)的无偏估计量.

  • 样本二阶原点矩A2=1ni=1nXi2A_2=\frac{1}{n}\sum_{i=1}^nX_i^2是总体二阶原点矩μ2=E(X2)\mu_2=\mathrm{E}(X^2)的无偏估计量.

  • S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2是总体方差Var(X)\mathrm{Var}(X)的无偏估计量.

  • Sn2=n1nS2S_n^2=\frac{n-1}{n}S^2是总体方差Var(X)\mathrm{Var}(X)渐进无偏估计量.

目前已经引入了"相合",“无偏”,"渐进无偏"三个概念,它们之间的推断关系是微妙的:

  • 仅有渐进无偏性不能推出相合性.17.2中的相合性判定定理,实际上说的就是:

    渐进无偏估计+方差趋于零相合估计渐进无偏估计+方差趋于零→相合估计

  • 无偏只对期望做要求,因而不能推出相合(反例:考虑分布为"双峰型"的无偏估计,它的方差并不趋于0,因而不相合)

  • 只有期望存在,相合才可以推出渐进无偏(即相合性判定定理的逆定理)

可见,相合性与无偏性两者描述的范围有交集,但也有彼此的侧重点,没有包含关系.

例17.2

X1,X2,...,XmX_1,X_2,...,X_m是抽样自总体XU(n,p)X\sim U(n,p)的样本,n>1n>1,求p2p^2的无偏估计量.

解:

样本的前二阶矩为

A1E(Xˉ)=npA2E(1mi=1mXi2)=E(X2)=(n2n)p2+npA_1\equiv\mathrm{E}(\bar{X})=np\\A_2\equiv\mathrm{E}\left(\frac{1}{m}\sum_{i=1}^mX_i^2\right)=\mathrm{E}(X^2)=(n^2-n)p^2+np

于是

p2=1n2n[E(1mi=1mXi2)E(Xˉ)]=E[1(n2n)mi=1mXi(Xi1)]\begin{aligned} p^2 &=\frac{1}{n^2-n}\left[\mathrm{E}\left(\frac{1}{m}\sum_{i=1}^mX_i^2\right)-\mathrm{E}(\bar{X})\right]\\ &=\mathrm{E}\left[\frac{1}{(n^2-n)m}\sum_{i=1}^mX_i(X_i-1)\right]\end{aligned}

也就是说,p2p^2的无偏估计量可以为

p2^=1(n2n)mi=1mXi(Xi1)\hat{p^2}=\frac{1}{(n^2-n)m}\sum_{i=1}^mX_i(X_i-1)

17.4 有效性

有效性

θ^1(X1,X2,...,Xn),θ^2(X1,X2,...,Xn)\hat{\theta}_1(X_1,X_2,...,X_n),\hat{\theta}_2(X_1,X_2,...,X_n)都是总体参数θ\theta无偏估计量,且Var(θ^1)<Var(θ^2)\mathrm{Var}(\hat{\theta}_1)<\mathrm{Var}(\hat{\theta}_2),则称θ^1\hat{\theta}_1θ^2\hat{\theta}_2有效.

一致最小方差无偏估计(UMVUE)

如果一个估计量比任何其他估计量都有效,则称之为一致最小方差无偏估计(uniformly minimum variance unbiased estimator,UMVUE)

有趣的是,关于无偏估计的方差下界确有定理:

定理(Cramer-Rao下限)
L(X;θ)L(X;\theta)是带参数θ\theta的总体XX的似然函数.任何θ\theta的无偏估计量θ^n\hat{\theta}_n满足:

Var(θ^n)1nE(logL(X;θ)θ)\mathrm{Var}(\hat{\theta}_n)\geq \frac{1}{n\mathrm{E}\left(\frac{\partial \log{L(X;\theta)}}{\partial\theta}\right)}

达到Cramer-Rao理论极限的估计量称为有效估计量.

以下结论是最大似然估计量应用的理论支撑,证明较难,不做细致讨论了.

  • 如果参数存在有效无偏估计量,那么它一定是最大似然估计量;

  • 一般情况下,最大似然估计量是相合(一致)的;

  • 最大似然估计量渐进服从正态分布.

例17.3

X1,X2,...,XnX_1,X_2,...,X_n是取自某总体的样本,记总体均值和方差分别为μ,σ2\mu,\sigma^2.μ\mu的两个估计量分别定义为\hat{\mu}_1\equivX_1,\hat{\mu}_2\equiv\bar{X},哪个估计量更有效?

解:

容易发现两者均无偏,而

Var(μ^1)=σ2,Var(μ^2)=σ2n\mathrm{Var}(\hat{\mu}_1)=\sigma^2,\mathrm{Var}(\hat{\mu}_2)=\frac{\sigma^2}{n}

n>1n>1Var(μ^1)>Var(μ^2)\mathrm{Var}(\hat{\mu}_1)>\mathrm{Var}(\hat{\mu}_2),因而μ^2\hat{\mu}_2更有效.

上例给我们的启示:

  • 用全部数据的平均估计总体均值要比只使用部分数据更有效;

  • 数据积累,估计量的方差越来越小,参数越来越精确,相应地信息量越来越大.

17.5 例:最小二乘估计

  • **最小二乘估计法(Least Square Method,LSE)**是自古以来最广泛采用的参数估计法之一,源于天文学和测地学的应用.

  • 当总体分布的函数形式并不严格知道,无法进行最大似然估计时,运用最小二乘法往往十分方便.

  • 由Gauss和Legendre在同一时代发现.

假设某个随机变量YYXX和未知参数θ\theta有关:

Y=f(X;θ)Y=f(X;\theta)

为了估计参数θ\theta,在XX的不同取值x1,x2,...,xnx_1,x_2,...,x_n测量YY,得到对应的测量值y1,y2,...,yny_1,y_2,...,y_n.然后用函数y=f(x,θ)y=f(x,\theta)"拟合"数据。直观来说,如果得到的"拟合"曲线与每个数据点距离越小,则该曲线所对应的参数越好.

这一"数据拟合"过程的常用实现方法就是最小二乘法,即取使得

χ2(θ)i=1N[yif(xi;θ)]2\chi^2(\theta)\equiv\sum_{i=1}^N[y_i-f(x_i;\theta)]^2

达到最小值的θ^\hat{\theta}作为估计量.

若在不同xix_i处得到的yiy_i精度不同,假设yiy_i的方差为σi2\sigma_i^2,则χ2(θ)\chi^2(\theta)定义为:

χ2(θ)i=1N[yif(xi;θ)]2σi2\chi^2(\theta)\equiv\sum_{i=1}^N\frac{[y_i-f(x_i;\theta)]^2}{\sigma_i^2}

yiy_i经常近似服从正态分布,那么χ2(θ)\chi^2(\theta)近似服从卡方分布.

YY服从指数族分布(泊松,伽马,正态,二项等)的前提下,其参数估计的迭代重加权最小二乘法等价于最大似然法.

实验物理学家的三个境界:

  • 不管随机变量分布→无脑最小二乘

  • 重视随机变量分布→无脑最大似然

  • 理解参数估计理论,上过概率统计分析与量测技术→批判地选择最有效的方法

L18 区间估计

L19 假设检验

L20 方差分析

L21 回归分析

L22 泊松回归

L23 自助法

L24 贝叶斯统计

L25 随机过程

L26 维纳过程

L27 马尔可夫过程

L28 测量不确定度

L29 平稳随机过程


概率统计分析与量测技术笔记
http://moyufishy.github.io/2024/11/03/概率统计分析与量测技术笔记/
作者
摸鱼罐头
发布于
2024年11月3日
许可协议