概率统计分析与量测技术笔记

这是一个定义/定理/定律

这是一些性质或者注意点

这是一个例子

这是题解/证明

本博文为2023秋季学期续本达老师开设的"概率统计分析与量测技术"课程的笔记.该课程的课件资源与视频资源可在此网站找到:https://hep.tsinghua.edu.cn/~orv/teaching/statistics/

博主本来在hedgedoc编辑本文,但是非常铸币地使用了demo版编辑.于是在编辑完后的第二天,博主惊奇地发现自己的博文已经化为乌有且没有备份,无奈转战hexo,大家引以为戒.(QAQ)

L1 课程介绍,随机事件

(待补)

L2 概率定义与解释

(待补)

L3 条件概率与独立事件

(待补)

L4 随机变量与分布

(待补)

L5 连续性随机变量

(待补)

L6 随机变量的函数

首先介绍一些上节课没说完的连续性随机变量分布:

6.1 伽马分布

伽马分布定义

若随机变量 $X$ 的概率密度为

f(x;\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x\geq 0

$\alpha>0,\lambda>0$ 为常数,则称 $X$ 服从伽马分布,记作: $X\sim Ga(\alpha,\lambda)$ .

如果不熟悉的话,伽马函数的定义为:

\Gamma(\alpha)=\int_0^{\infty}x^{\alpha-1}e^{-x}dx

其中要求 $\alpha>0$ .

伽马函数的一些重要的性质:

$\Gamma(1)=1,\Gamma(\frac12)=\sqrt{\pi}$
若 $n$ 是整数, $\Gamma(n+1)=n!$

伽马分布性质

伽马分布的性质有:

$Ga(1,\lambda)=Exp(\lambda)$ (因此,指数分布也是一种特殊的伽马分布)
可加性:
若 $X_1\sim Ga(\alpha_1,\lambda),X_2\sim Ga(\alpha_2,\lambda)$ ,那么 $X_1+X_2\sim Ga(\alpha_1+\alpha_2,\lambda)$ .

证明留到L8.

这一性质是针对参数 $\alpha$ 的,该参数也可被叫做形状参数.
伸缩自相似性:
$f(x;\alpha,\lambda)dx=f(\lambda x;\alpha,1)d(\lambda x)$

证明:
$\begin{aligned} LHS &= \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}dx\\ &= \frac{1}{\Gamma(\alpha)}(\lambda x)^{\alpha-1}e^{-\lambda x}d(\lambda x)\\ &= RHS\end{aligned}$

这一性质是针对参数 $\lambda$ 的,该参数也被叫做速率参数.(回忆泊松分布,是不是很像？)

与泊松分布共轭

回忆泊松分布的分布列:

P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2,...

我们在泊松分布中固定了参数 $\lambda$ ,随机变量为 $k$ .不难发现,如果我们固定参数 $k$ ,改变随机变量 $\lambda$ ,那么泊松分布就变成了伽马分布！其中 $\lambda\sim Ga(k+1,1)$ .这种分布之间的共轭关系会在下半学期的贝叶斯分析中得到进一步应用.

R语言绘图

(？)

6.2 卡方分布

卡方分布定义

若随机变量 $X$ 的概率密度为

f(x;n)=\frac{x^{n/2-1}}{2^{n/2}\Gamma(n/2)}e^{-\frac{x}{2}},x\geq 0

其中 $n$ 为整数.亦即 $X\sim Ga(\frac{n}{2},\frac{1}{2})$ ,则称 $X$ 服从卡方分布,记作: $X\sim \chi^2(n)$

卡方分布其实就是某种特殊的伽马分布,但它在数理统计中有特殊的地位.

例6.1( $\chi^2(1)$ )

f(x)=\frac{1}{\sqrt{2\pi x}}e^{-\frac x2},x\geq 0

虽然 $\lim_{x\to 0_+}f(x)=+\infty$ ,但是在广义积分下, $\lim_{x\to 0_+}\int_0^xf(x)dx=0$ ,因此其分布函数 $F(x)$ 有良定义.

卡方分布的构造

卡方分布可以用一组满足正态分布的独立随机变量平方和来构造:

对于一组满足标准正态分布的随机变量 $X_1,X_2,...,X_n\sim N(0,1)$ ,如果它们相互独立,那么:

X_1^2+X_2^2+...+X_n^2\sim \chi^2(n)

证明思路:

首先证明 $X_1^2\sim \chi^2(1)$ (见例6.8);再利用伽马分布的可加性即得证.

R语言绘图

(？)

6.3 贝塔分布

贝塔分布定义

若随机变量 $X$ 的概率密度为

f(x;a,b)=\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1},0<x<1

$a>0,b>0$ 为常数,则称 $X$ 服从贝塔分布,记作: $X\sim Be(a,b)$ .

如果不熟悉的话,贝塔函数的定义为:

\Beta(a,b)=\int_0^{1}x^{a-1}(1-x)^{b-1}dx

其中要求 $\alpha>0$ .

贝塔函数的一些重要的性质:

$\Beta(a,b)=\Beta(b,a)$
$\Beta(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$ ("广义"的组合数公式！)

贝塔分布性质

贝塔分布性质有:

$Be(1,1)=U(0,1)$
$f(x;a,b)dx=-f(1-x;b,a)dx$ (某种反对称性？)

(可见,如果 $a=b$ ,那么贝塔分布关于 $x=\frac{1}{2}$ 对称.)

与二项分布共轭

回忆二项分布分布列:

P(X=k)=\begin{pmatrix} n \\ k \end{pmatrix}p^k(1-p)^{n-k}

在二项分布中固定了参数 $n,p$ ,改变随机变量 $k$ ,但如果固定参数 $n,k$ ,改变随机变量 $p$ ,则变成了贝塔分布,其中 $p\sim Be(k+1,n-k+1)$ .

本例中,我们能直观看出 $p$ 分布的意义:已知某 $n$ 重伯努利实验成功 $k$ 次的条件下,每次实验成功概率 $p$ 的概率分布,从而确认"我们的硬币是否公平".这里确实能give us a taste of Bayesian Analysis.

R语言绘图

(？)

6.4 柯西分布和朗道分布

这两个分布是一般的统计学课上不怎么研究的,然而工物系的实验里、粒子物理和核物理领域中它们是常客.

柯西分布

若 $X$ 概率密度为

f(x)=\frac{1}{\pi}\frac{1}{1+x^2},-\infty<x<+\infty

则称 $X$ 服从柯西分布.

这个分布的性质不是很好,其期望、方差均不收敛.但在粒子物理中经常遇到,即大名鼎鼎(？)的布莱特-魏格纳分布.

例6.2(布莱特-魏格纳分布,Breit-Wigner)

粒子物理中该分布描述不稳定粒子的质量分布,形式为:

f(x,m_0,\Gamma)=\frac{1}{\pi}\frac{\Gamma/2}{\Gamma^2/4+(x-m_0)^2},-\infty<x<+\infty

其中 $m$ 是粒子的质量, $\Gamma$ 代表能谱(质量谱)的展宽.

朗道分布

速度为 $\beta=\frac{v}{c}$ 的带电粒子穿过一层厚度 $d$ 的物质,其能量损失 $\Delta$ 服从朗道分布.分布形式很复杂,不展开介绍了,以下仅供观瞻:

f(\Delta;\beta)=\frac{1}{\xi}\Phi(\lambda(\Delta))

其中:

\Phi(\lambda)=\frac{1}{\pi}\int_0^{\infty}e^{-u(\log{u}+\lambda)}\sin({\pi u})du \\ \lambda(\Delta)=\frac{1}{\xi}\left[ \Delta-\xi\left( \log{\frac{\xi}{\epsilon'}}+1-\frac{1}{\sqrt{1-\beta^2}} \right) \right]

参数定义为( $I$ 为平均激发能):

\xi=\frac{2\pi N_AE^4Z^2\rho (\sum Z)}{m_ec^2(\sum A)} \\ \epsilon'=\frac{I^2(1-\beta^2)e^{\beta^2}}{2m_ec^2\beta^2}

它可以描述粒子的电离能损或能量沉积.

6.5 随机变量小结

可以总结出一个表格:

	离散型	连续型
分布律	分布列: $p_k=P(X=x_k)$	密度函数: $f(x)dx$
分布函数	$F(x)=\sum_{x_i<x}P(X=x_i)$	$F(x)=\int_{-\infty}^xf(x)dx$
概率	逐点计算	$P(a<X\leq b)=F(b)-F(a)$ ,但 $P(X=a)=0$
分布函数连续性	$F(x)$ 阶梯函数,右连续	$F(x)$ 连续函数

6.6 随机变量的函数分布

在一些试验中,所关心的随机变量往往不能直接测量得到,而是某个直接测量所得随机变量的函数,此时我们会对某些随机变量的函数的分布更感兴趣.

比如,测量圆轴截面的直径 $D$ ,而关心的却是截面面积 $A=\frac{\pi D^2}{4}$ ,这里有 $A=g(D)$ , $g(\cdot)$ 为某已知连续函数,我们将讨论如何从 $D$ 的分布导出 $g(D)$ 的分布.

离散型随机变量的函数分布

对于离散性随机变量,定义是直观的.考虑随机变量 $X$ ,其分布列为:

P(X=x_i)=p_i,i=1,2,3,...

那么对于 $Y=g(X)$ ,其分布列自然为:

P(Y=y_i)=\sum_{x\in g^{-1}(y_i)}P(X=x)

也就是说,如果 $g(x_1)=g(x_2)=y_0$ ,那么计算 $Y=y_0$ 概率时,两概率要相加合并.

例6.3

设随机变量 $X$ 分布律如下,求 $Y=(X-1)^2$ 的分布律

$X$	-1	0	1	2
$p_k$	0.2	0.3	0.1	0.4

(答案略)

连续型随机变量的函数分布

利用上面的结论,我们不难将上述结论推广至 $X$ 为连续型随机变量的情况.记 $X,Y$ 的分布函数分别为 $F_X(x),F_Y(y)$ ,密度函数分别为 $f_X(x),f_Y(y)$ ,那么:

F_Y(y)=\int_{D_y} f_X(x)dx,D_y=\{x\in \mathbb{R}|g(x)\leq y\}

如果映射 $g$ 严格单调(增)且连续,那么在 $F_X$ 定义域内 $g$ 的反函数 $g^{-1}$ 存在,有:

F_Y(y)=P(Y\leq y)=P(X\leq g^{-1}(y))=F_X(g^{-1}(y))

例6.4

设随机变量 $X$ 有概率密度

f_X(x)=\begin{cases} \frac{x}{8}\,\,\,\,,0<x<4\\ 0\,\,\,\,,其他\end{cases}

求随机变量 $Y=2X+8$ 概率密度.

(答案略)

我们还可以把映射 $g$ 的性质变得再好一些:处处可导,这样密度函数的变换也很容易导出:

连续性随机变量函数的概率密度定理:

设随机变量 $X$ 概率密度为 $f_X(x),-\infty<x<+\infty$ , $g(x)$ 处处可导且 $g'(x)$ 总不变号(恒非负或非正),则 $Y=g(X)$ 是连续型随机变量,其概率密度为:

f_Y(y)=\begin{cases} f_X(g^{-1}(y))|g^{-1}{'}(y)|\,\,\,\,,a<y<b\\ 0\,\,\,\,,其他 \end{cases}

证明:

将上文中分布函数形式的定理求导即可得到.注意绝对值！

另一个直观的推导方法是利用 $f_X(x)|dx|=f_Y(y)|dy|$ 式中的微分形式关系,过程trivial,略.

理论介绍完毕,下面给出几个例题:

例6.5(正态分布伸缩平移)

设随机变量 $X\sim N(\mu,\sigma^2)$ ,求证 $Y=aX+b\sim N(a\mu+b,(a\sigma)^2)$ (其中 $a\neq 0$ )

(答案略,带公式即可)

例6.6(柯西分布的构造)

设随机变量 $X\sim U(-\pi/2,\pi/2)$ ,求 $Y=\tan(X)$ 分布.

(答案略,带公式即可)

上题中我们从均匀分布推出了柯西分布.实际上,均匀分布的可延展性比这还要强:它可以通过复合函数构造任意分布！

例6.6(均匀分布的构造)

若随机变量 $X$ 的分布函数 $F_X(x)$ 为严格单调增的连续函数,反函数存在,则 $Y=F_X(X)\sim U(0,1)$ .

证明:

利用映射反函数存在情形的定理即得 $F_Y(y)=F_X(F_X^{-1}(y))=y,0\leq y\leq1$ ,于是 $Y=F_X(X)\sim U(0,1)$ .

上述过程逆过来即:可以用均匀分布生成任意连续分布.

例6.7(反函数不存在的情形)

设随机变量 $X$ 有概率密度 $f_X(x),-\infty<x<+\infty$ ,求 $Y=X^2$ 概率密度.

解:

利用原始形式的概率密度定理即可:

F_Y(y)=P(Y\leq y)=P(-\sqrt{y}\leq X\leq\sqrt{y})=F_X(\sqrt{y})-F_X(-\sqrt{y})

求导得到:

f_Y(y)=\begin{cases} \frac{1}{2\sqrt{y}}[f_X(\sqrt{y})+f_X(-\sqrt{y})]\,\,\,\,,y>0\\ \\ 0\,\,\,\,,y\leq 0\end{cases}

不难发现,带入 $X\sim N(0,1)$ ,即 $f_X(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$ 可以得到 $f_Y(y)=\frac{1}{\sqrt{2\pi y}}e^{-\frac{y}{2}},y>0$ ,也就是说 $Y\sim \chi^2(1)$ ！这样我们就解决了6.1节中的一个遗留问题.

L7 二维随机变量

(待补)

L8 二维随机变量函数

8.1 二维正态分布

我们通常能通过一些一维分布的拼贴构造出一些二元分布(比如上节课的泊松+二项=新的泊松),而教材中唯一特别讨论的二维分布就是二维正态分布.

考虑 $X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)$ ,两者相互独立

\begin{aligned} \Longrightarrow &f_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}\exp\left[ -\frac{(x-\mu_1)^2}{2\sigma_1^2} \right]\\ &f_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}\exp\left[ -\frac{(y-\mu_2)^2}{2\sigma_2^2} \right]\\ \Longrightarrow &f(x,y)=f_X(x)f_Y(y)=\frac{1}{2\pi\sigma_1\sigma_2}\exp\left[ -\frac{(x-\mu_1)^2}{2\sigma_1^2}-\frac{(y-\mu_2)^2}{2\sigma_2^2} \right] \end{aligned}

于是拓展后我们得到如下定义:

二维正态分布的定义

f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\right]}

具有以上概率密度函数的分布称为二维正态分布.

以上为二维正态分布的标准形式,其中能体现出一些与我们的直觉相关的特征量.记作: $(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$

特征量的含义

(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)

容易证明, $X,Y$ 相互独立等价于 $\rho=0$ .

证明思路:
右推左易证,左推右考虑 $x=\mu_1,y=\mu_2$ 时 $\frac{1}{\sqrt{1-\rho^2}}=1$ 即可.

思考题:(选做,总评+2%)

$\rho = \pm 1$ 时, $N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$ 会变成什么分布？

多维伽马分布调研作业(选做,总评至多+15%)

二维正态分布是最常用的多维随机变量分布.但当我们想考虑全部为正实数的随机变量时,更常用的是多维伽马分布,Multivariate Gamma Distribution.

f(\bm{z})=\frac{|\Sigma^{-1}|^\alpha|\bm{z}|^{\alpha-1/2(p+1)}}{\beta^{p\alpha}\Gamma_p(\alpha)}\exp\left[ -\frac{1}{\beta} \mathrm{tr}\Sigma^{-1}\bm{z}\right]

调研任务

①自行寻找相关教材或论文,可以请教老师和助教.

②调研文献中各类型的多维伽马分布定义,阐释其联系与区别.

③调研多维伽马分布中参数的含义.

④调研多维伽马分布的应用实例.

⑤学习使用 $\LaTeX$ 书写.

8.2 随机变量函数的分布

类似一维随机变量的函数,多个随机变量的函数同样重要.

譬如,对两个随机变量的函数,我们的目标如下:

假设 $(X,Y)$ 是二维连续型随机变量,其概率密度为 $f(x,y)$ .求随机变量 $Z=g(X,Y)$ 的概率密度.

常见的 $g(X,Y)$ 形式有: $X \pm Y,Y/X,XY,\max\{X,Y\},\min\{X,Y\}$ 等.

一般情形下的变换

多维情形的概率密度定理:

如果函数 $u=g_1(x,y),v=g_2(x,y)$ 存在连续偏导数和邻域内的唯一反函数

\begin{cases} x=x(u,v)\\ y=y(u,v)\end{cases}

该变换的雅可比行列式

J=\frac{\partial (x,y)}{\partial(u,v)}=\begin{vmatrix} \frac{\partial x}{\partial u} & \frac{\partial y}{\partial u} \\ \frac{\partial x}{\partial v} & \frac{\partial y}{\partial v} \end{vmatrix}

则随机变量 $U=g_1(X,Y),V=g_2(X,Y)$ 的联合密度函数为

g(u,v)=f[x(u,v),y(u,v)]|J|

注意这里的双竖线 $|J|$ 表示雅可比行列式的绝对值.

下面用极坐标下的二维正态分布为例.

例8.1(极坐标)

假设 $x,y$ 是相互独立的随机变量,均服从 $N(0,1)$ 分布.试证明变换为极坐标 $(\rho,\phi)$ 之后,两者仍然是相互独立的随机变量,其中:

\begin{aligned} &\rho=\sqrt{x^2+y^2} , &\rho>0\\ &\phi=\tan^{-1}\left( \frac{y}{x} \right) , &\phi\in[0,2\pi]\end{aligned}

并求 $(\rho,\phi)$ 的概率密度函数.

解:

考虑到 $x=\rho \cos\phi,y=\rho \sin\phi$ ,于是有:

J=\begin{vmatrix} \frac{\partial x}{\partial \rho} & \frac{\partial y}{\partial \rho} \\ \frac{\partial x}{\partial \phi} & \frac{\partial y}{\partial \phi} \end{vmatrix}=\begin{vmatrix} \cos\phi & \sin\phi \\ -\rho\sin\phi & \rho\cos\phi \end{vmatrix}=\rho

于是乎:

\begin{aligned} g(\rho,\phi) &=f(x,y)|J|\\ &=\frac{1}{\sqrt{2\pi}}e^{-\frac{(\rho\cos\phi)^2}{2}}\cdot\frac{1}{\sqrt{2\pi}}e^{-\frac{(\rho\sin\phi)^2}{2}}\cdot\rho \\ &=\frac{1}{2\pi}\rho e^{-\frac{\rho^2}{2}},\rho\geq 0\end{aligned}

此为关于 $\rho$ 的瑞利分布(是的,你也会在瑞利散射中看到这个函数).

联合密度函数与 $\phi$ 无关,根据定义有 $\rho,\phi$ 相互独立.
$\phi$ 的边缘分布是均匀分布: $f_{\Phi}(\phi)=\frac{1}{2\pi},\phi \in [0,2\pi]$

增补变量法

回到我们的原始问题:假设 $(X,Y)$ 是二维连续型随机变量,其概率密度为 $f(x,y)$ .求随机变量 $U=g(X,Y)$ 的概率密度.

两个变量合并成一个函数变量,我们常常用增补变量法求解,简单过程图如下:

(X,Y)\stackrel{函数变换}{\longrightarrow}(g(X,Y),X)\stackrel{边缘分布}{\longrightarrow}g(X,Y)

增补新变量 $V=X$ 或者 $V=Y$ ;
用变换法求 $(U,V)$ 的联合密度函数 $g(u,v)$
关于 $v$ 积分,得到 $U=g(X,Y)$ 边缘密度函数.

以下我们要讨论的函数都可以用这一方法求解.

8.3 $X+Y$

这是今天最最重要的一种函数,它还有一些fancy的别名:“卷积”、"探测器响应"等.

傅里叶卷积:

假设 $(X,Y)$ 是二维连续性随机变量,其概率密度为 $f(x,y),-\infty<x,y<+\infty$ ,则 $Z=X+Y$ 仍然为连续型随机变量,其概率密度为

f_{X+Y}(z)=\int_{-\infty}^{+\infty}f(z-y,y)dy=\int_{-\infty}^{+\infty}f(x,z-x)dx

若 $X,Y$ 相互独立,设它们的边缘密度分别为 $f_X(x),f_Y(y)$ ,则

f_{X+Y}(z)=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx

这被称为 $f_X,f_Y$ 的傅里叶卷积公式,记为 $f_X * f_Y$ .

证明:

考虑随机变量 $Z$ 的分布函数 $F_Z(z)$ :

\begin{aligned} F_Z(z)&=\iint_{x+y\leq z}f(x,y)dxdy\\ &=\int_{-\infty}^{+\infty}\int_{-\infty}^{z-y}f(x,y)dxdy\end{aligned}

做变量替换: $(x,y)\rightarrow(u,y)=(x+y,y)$ ,有:

\begin{aligned} F_Z(z)&=\int_{-\infty}^{+\infty}\int_{-\infty}^{z}f(u-y,y)dudy\\ &=\int_{-\infty}^{z}\left[\int_{-\infty}^{+\infty}f(u-y,y)dy\right]du\\ \Longrightarrow f_{X+Y}(z)&=F'_Z(z)=\int_{-\infty}^{+\infty}f(z-y,y)dy\end{aligned}

证毕.

我们还有另一种利用微分形式与边缘分布的证明:我们知道微分形式有 $dx\wedge dy=-dy\wedge dx,dx\wedge dx=0$ ,于是考虑换元后元概率不变,有:

\begin{aligned} f(x,y)dxdy&=f(z-y,y)d(z-y)dy\\ &=f(z-y,y)(dz\wedge dy-dy\wedge dy)\\ &=f(z-y,y)dzdy\end{aligned}

于是 $Z$ 的边缘分布为

f_Z(z)dz=\left[ \int_{-\infty}^{+\infty}f(z-y,y)dy \right] dz

同样得证,这个证明方法是严格的.

可以看到,通常简单的加法运算在随机变量的概率密度上可以等价映射为一个复杂的积分操作,还挺神奇的.反过来,一些复杂的积分也可以通过随机变量的简单运算来刻画,这方面会在学期最后一课介绍.

例8.2(高斯分布可加)

设 $X,Y$ 是两个独立、符合 $N(0,1)$ 分布的随机变量,求 $Z=X+Y$ 的概率密度.

解:

容易写出:

\begin{aligned} f_{X+Y}(z)&=\frac{1}{2\pi}\int_{-\infty}^{+\infty}e^{-\frac{(z-y)^2}{2}}e^{-\frac{y^2}{2}}dy\\ &=\frac{1}{2\pi}e^{-\frac{z^2}{4}}\int_{-\infty}^{+\infty}e^{-(y-\frac{1}{2}z)^2}dy \\ &= \frac{1}{2\sqrt{\pi}}e^{-\frac{z^2}{4}}\end{aligned}

服从 $N(0,2)$ ,仍然是一个高斯分布(正态分布).

类似的高斯不变现象还有很多,比如:

若 $X,Y$ 相互独立,且 $X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_1,\sigma_1^2)$ ,那么 $X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$
(回忆:实验中加法的误差传递公式:不确定度平方和)
边缘分布:若 $(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$ , $X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_1,\sigma_1^2)$
条件分布:若 $(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$ , $X|Y\sim N\left(\mu_1-(Y-\mu_2)\rho\frac{\sigma_1}{\sigma_2},(1-\rho^2)\sigma_1^2\right) \\ Y|X\sim N\left(\mu_2-(Y-\mu_1)\rho\frac{\sigma_2}{\sigma_1},(1-\rho^2)\sigma_2^2\right)$

例8.3(指数分布)

X\sim Exp(\lambda),Y\sim Exp(\lambda)

那么 $X+Y$ 的分布？

解:

\begin{aligned} f_{X+Y}(z)&=\int_0^z \lambda e^{-\lambda z}\lambda e^{-\lambda(z-x)}dx\\ &=\lambda^2\int_0^ze^{-\lambda(z)}dx\\ &=\lambda^2ze^{-\lambda z}\end{aligned}

服从 $Ga(2,\lambda)$ ,我们证明了L6中伽马分布的可加性.

8.4 $Y/X,XY$

梅林卷积:

假设 $(X,Y)$ 是二维连续性随机变量,其概率密度为 $f(x,y),-\infty<x,y<+\infty$ ,则 $\frac{Y}{X},XY$ 仍然为连续型随机变量,其概率密度为

f_{\frac{Y}{X}}(z)=\int_{-\infty}^{+\infty}|x|f(x,xz)dx,f_{XY}(z)=\int_{-\infty}^{+\infty}\frac{1}{|x|}f\left(x,\frac{z}{x}\right)dx

若 $X,Y$ 相互独立,设它们的边缘密度分别为 $f_X(x),f_Y(y)$ ,则

f_{\frac{Y}{X}}(z)=\int_{-\infty}^{+\infty}|x|f_X(x)f_Y(xz)dx,f_{XY}(z)=\int_{-\infty}^{+\infty}\frac{1}{|x|}f_X(x)f_Y\left(\frac{z}{x}\right)dx

第二个公式被称为 $f_X,f_Y$ 的梅林(Mellin)卷积公式

证明过程和傅里叶卷积的方法类似,仍然用增补变量法,此处略去.值得一提的是,教材中用线画区域证明,用了一页半的篇幅.(…)

例8.4(高斯翻车变柯西)

设 $X,Y$ 为两个相互独立的随机变量,均服从 $N(0,1)$ .求 $Z=\frac{Y}{X}$ 的概率密度.

解:
设 $(X,Y)$ 的联合密度函数为 $f(x,y)=\frac{1}{2\pi}e^{-\frac{x^2+y^2}{2}},-\infty<x,y<+\infty$

\begin{aligned} f_{\frac{Y}{X}}(z)&=\int_{-\infty}^{+\infty}|x|f(x,zx)dx\\ &=\frac{1}{2\pi}\int_{-\infty}^{+\infty}|x|e^{-\frac{x^2(1+z^2)}{2}}dx\\ &=\frac{1}{\pi}\int_{0}^{+\infty}xe^{-\frac{x^2(1+z^2)}{2}}dx\\ &=\frac{1}{\pi(1+z^2)}\end{aligned}

是一个典型的柯西分布.

8.5 $\min\{X,Y\}$ 和 $\max\{X,Y\}$

假设 $(X,Y)$ 是两相互独立的随机变量,其分布函数分别为 $F_X(x),F_Y(y)$ ,则 $\max(X,Y),\min(X,Y)$ 的分布为

F_{\max}(z)=F_X(z)F_Y(z),F_{\min}(z)=1-[1-F_X(z)][1-F_Y(z)]

进一步地若 $X,Y$ 独立同分布,则

F_{\max}(z)=[F(z)]^2,F_{\min}(z)=1-[1-F(z)]^2

证明:
运用概率的基本公式以及独立事件的定义,

F_{\max}(z)=P((X\leq z)\wedge(Y\leq z))=P(X\leq z)P(Y\leq z)=F_X(z)F_Y(z)\\F_{\min}(z)=P((X\leq z)\vee(Y\leq z))=1-P((X\neq z)\wedge(Y\neq z))=1-[1-F_X(z)][1-F_Y(z)]

证毕.

接下来是一个比较难(？)的例题(考场上1/60正确率说是),但其实就是本节情况的基础练习.

例8.5(竞争的指数分布)

有两名助教在教室中给同学一对一答疑,每次答疑用时 $t\sim Exp(\lambda)$ .你进入教室时,发现恰好有两名同学在答疑,那么你的等待时间 $t_0$ 服从什么分布？

解:

由于两助教答疑时间 $T_1,T_2$ 满足独立同分布 $Exp(\lambda)$ ,由上述公式知,

T_0=\min(T_1,T_2)\sim Exp(2\lambda)

L9 数学期望

分布函数已经能完整描述随机变量的统计特征了,然而它是函数,较复杂,实际应用中希望用数字对随机变量进行概括,称为这个随机变量的数字特征.

例9.1

课程的考试中,比起每个学生的具体成绩,教务处更关心平均分和特高分、特低分比例.教务总希望平均分不高不低,不及格、特高分不要太多.

这些数字特征虽然不能完整描述这个随机变量,但它们能描述随机变量某些方面的特征,具有重要的意义.

常见的数字特征有:

数学期望:随机变量平均取值;
方差:随机变量取值偏离均值程度;
协方差、相关系数:不同随机变量之间的某种关系.
本节课我们学习第一个特征:数学期望,剩下两个在下一节课学习.

9.1 数学期望

数学期望定义

首先给出数学期望的定义(我们这里只讨论离散型、连续型)

数学期望定义:

离散型
设 $X$ 为离散随机变量,分布为 $P(X=x_k)=p_k,k=1,2,\cdots$ ,若无穷级数 $\sum_{k=1}^{+\infty}x_kp_k$ 绝对收敛,则称 $X$ 的数学期望即为该级数,记作 $\mathrm{E}(X)$ ,即
$\mathrm{E}(X)=\sum_{k=1}^{+\infty}x_kp_k$
连续型
设 $X$ 为连续随机变量,概率密度为 $f(x)$ ,若广义积分 $\int_{-\infty}^{+\infty}xf(x)dx$ 绝对收敛,则称 $X$ 的数学期望即为该积分,记作 $\mathrm{E}(X)$ ,即
$\mathrm{E}(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{-\infty}^{+\infty}xd(F(x))$

实际上,引入了分布函数 $F(x)$ 的广义积分数学期望定义式能够表示更一般的随机变量分布,对于分布函数的奇点,可以用广义积分处理掉.

关于数学期望的一些要点:

数学期望的本质是"加权平均",概率即权重;
数学期望 $\mathrm{E}(X)$ 是一个数,也常被记作 $\mathrm{E}[X]$ ,以区别一般函数的表示(不过我们不怎么这么写);
对于给定分布的随机变量,数学期望是一个数,而非随机变量;

是否能将数学期望 $\mathrm{E}$ 看作一个"泛函"？

例9.2(良心卖家)

某商家对某电器的销售采用先试用后付款,记使用寿命为 $X$ (年),规定:

\begin{aligned} &X\leq 1 &一台1500元\\ &1<X\leq 2 &一台2000元\\ &2<X\leq 3 &一台2500元\\ &X> 3 &一台3000元\end{aligned}

设寿命 $X$ 服从指数分布,概率密度为

f(x)=\begin{cases} \frac{1}{10}e^{-\frac{x}{10}} , &x>0\\ 0,&x\leq 0\end{cases}

求该商店每台家用电器收费 $Y$ 的期望.

解题思路:

注意到 $Y$ 为离散型随机变量,取值概率对应连续型随机变量 $X$ 的一个区间,因此写出 $X$ 的累积分布函数 $F_X(x)=1-e^{-\frac{x}{10}},x>0$ 更好处理,下略.

答案: $\mathrm{E}(Y)=2732.15$

例9.3(赌场停电)

技能相当的两人各出50元对赌,五局三胜,甲胜2局乙胜1局时停电了,停止游戏,赌注如何归还？

解:
设甲的收入为 $X$ ,若甲胜则 $X=100$ ,乙胜则 $X=0$ ,由于:

P(X=100)=\frac{3}{4}\\P(X=0)=\frac{1}{4}

于是 $\mathrm{E}(X)=75$ ,甲应该拿75元.

本例虽然简单,但其实是"数学期望"这个概念在历史上的起源(为啥平均要叫"期望"呢？这就是原因).

1654年7月29日,法国骑士梅累(Chevalier de Méré,1607——1684,数学史上最神秘の赌鬼)向数学神童帕斯卡(Pascal ,1623——1662)提出了一个使他苦恼很久的问题:"两个赌徒相约若干局,谁先赢了
S局则赢.若一人赢 $a(a < s)$ 局,另一人赢 $b(b<s)$ 局,赌博中止,问赌本应怎么分？"帕斯卡对此思考良久,又将其转给业余数学王子——费马(Fermat ,1601——1665).在数学史上有名的来往信件中,两人取得了一致意见:在被迫停止的赌博中,应当按每个局中人赌赢的数学期望来分配桌面上的赌注.

常见分布的期望

以下表格可自行验算(超几何分布比较麻烦).

离散型随机变量:

分布	概率分布 $P(X=k)$	期望值
01分布	$p^k(1-p)^k,k=0,1$	$\textcolor{blue}{p}$
$b(n,p)$	$\begin{pmatrix} n \\ k \end{pmatrix}p^k(1-p)^{n-k},k=0,1,\cdots,n$	$\textcolor{blue}{np}$
$\pi(\lambda)$	$(\lambda^k/k!)e^{-\lambda},k=0,1,2,\cdots$	$\textcolor{blue}{\lambda}$
$h(n,M)$	$\begin{pmatrix} M \\ k \end{pmatrix}\begin{pmatrix} n-k \\ N-M \end{pmatrix}/\begin{pmatrix} n \\ N \end{pmatrix},k=0,1,\cdots,r \,\,r=\min{n,M}$	$\textcolor{blue}{\frac{nM}{N}}$
$Ge(p)$	$(1-p)^{k-1}p,k=0,1,\cdots$	$\textcolor{blue}{\frac{1}{p}}$

连续型随机变量:

分布	概率密度 $f(x)$	期望值
$U(a,b)$	$1/(b-a),a<x<b$	$\textcolor{blue}{(b+a)/2}$
$Exp(\lambda)$	$\lambda e^{-\lambda x},x>0$	$\textcolor{blue}{1/\lambda}$
$N(\mu,\sigma^2)$	$\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty$	$\textcolor{blue}{\mu}$
$Ga(\alpha,\lambda)$	$\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x\geq 0$	$\textcolor{blue}{\alpha/\lambda}$
$\chi^2(n)$	$\frac{x^{n/2-1}}{2^{n/2}\Gamma(n/2)}e^{-x/2},x>0$	$\textcolor{blue}{n}$
$Be(a,b)$	$\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1},0<x<1$	$\textcolor{blue}{a/(a+b)}$
$Cau(\mu,\lambda)$	$\frac{1}{\pi}\frac{1}{1+x^2},-\infty<x<+\infty$	$\textcolor{blue}{不存在}$
$朗道分布$	$\frac{1}{\xi}\phi(\lambda)$ ,无解析表达式	$\textcolor{blue}{不存在}$

9.2 随机函数的数学期望

对于n维随机变量函数 $g(\bm{x})$ 的期望,推广是相当自然的:对n维随机变量 $\bm{x}$ ,在定义中把 $x$ 换成 $g(\bm{x})$ 即可,不需要反函数/雅可比倒来倒去.也就是说,对 $Z=g(X,Y)$ ,离散型期望为:

\mathrm{E}(Z)=\sum_{i,j}g(x_i,y_j)p_{ij}

连续型期望为:

\mathrm{E}(Z)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy

接下来就可以引入一个比较重要也比较难的概念:

重期望公式:

设 $(X,Y)$ 是二维随机变量,并且 $\mathrm{E}(X)$ 存在,则

\mathrm{E}(X)=\textcolor{red}{\mathrm{E}}[\textcolor{blue}{\mathrm{E}}(\textcolor{blue}{X}|\textcolor{red}{Y})]

证明:

仅对连续型变量证明.设 $(X,Y)$ 联合密度函数为 $f(x,y)$ ,记 $g(y)=\mathrm{E}(X|Y=y)$ ,则有新的随机变量 $g(Y)=\mathrm{E}(X|Y)$ .利用 $f(x,y)=f(x|y)f_Y(y)$ 可得:

\begin{aligned} \mathrm{E}(X)&=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x,y)dxdy=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x|y)f_Y(y)dxdy\\&=\int_{-\infty}^{+\infty}\left(\int_{-\infty}^{+\infty}xf(x|y)dx\right)f_Y(y)dy\\&=\int_{-\infty}^{+\infty}\mathrm{E}(X|Y=y)f_Y(y)dy\\&=\mathrm{E}[\mathrm{E}(X|Y)]\end{aligned}

它表征了随机变量函数 $g(Y)=\mathrm{E}(X|Y)$ 的期望.

9.3 期望的性质

考虑 $a,C$ 为常数, $X,Y$ 为随机变量,则有:

期望的线性:

$\mathrm{E}(C)=C$
$\mathrm{E}(aX)=a\mathrm{E}(X)$
$\mathrm{E}(X+Y)=\mathrm{E}(X)+\mathrm{E}(Y)$

等效地有:

\mathrm{E}\left(\sum_{i=1}^n a_iX_i+C\right)=\sum_{i=1}^n a_i\mathrm{E}(X_i)+C

独立期望可乘:

当 $X,Y$ 独立时, $\mathrm{E}(XY)=\mathrm{E}(X)\mathrm{E}(Y)$

(注意:反过来不成立！)

9.4 例子

例9.3(PMT接收总光子数)

光电倍增管(Photo-Multiplier Tube,PMT)是检测极微弱光的器件,在辐射测量、医学影像等领域应用广泛.

固定光强下一段时间内,可认为PMT接收到光子数 $N$ 满足泊松分布 $\pi(\lambda)$ ,每个光子在二次发射电极上激发出的总电荷量 $Q$ 满足伽马分布 $Ga(\alpha,\lambda_0)$ ,求PMT总电荷输出的期望 $\mathrm{E}(Y)$ .

解:

总电荷量 $Y=\sum_{i=1}^N Q_i=f(N,Q_i)$ ,不难看出 $Y$ 是 $N,Q$ 的混合分布,求分布函数是一个吃力不讨好的活,但我们可以利用重期望公式拆分问题:

\mathrm{E}(Y)=\mathrm{E}[\mathrm{E}(Y|N)]

于是得到:

\begin{aligned} \mathrm{E}(Y|N=n)&=\sum_{i=1}^{n}\mathrm{E}(Q_i)=n\mathrm{E}(Q)\\ \Longrightarrow \mathrm{E}[\mathrm{E}(Y|N)]&=\mathrm{E}(Q)\mathrm{E}(N)=\frac{\alpha\lambda}{\lambda_0}\end{aligned}

L10 协方差

期望之后学方差,很合理~

10.1 方差

方差的定义

首先看方差的定义:

方差:

若 $\mathrm{E}\{(X-\mathrm{E}(X)^2)^2\}$ 存在,则称其为随机变量 $X$ 的方差,记作 $\mathrm{D}(X)$ 或 $\mathrm{Var}(X)$ .即:

\mathrm{Var}(X)=\mathrm{E}\{(X-\mathrm{E}(X)^2)^2\}

$\sqrt{\mathrm{Var}(X)}$ 被称作 $X$ 的标准差或者均方差,它和 $X$ 量纲一致.

方差的意义在于:描述随机变量 $X$ 偏离平均值的平均偏离程度.D for deviance and Var for variance.

一个常用的方差计算公式是:

方差计算公式:

\mathrm{Var}(X)=\mathrm{E}(X^2)-[\mathrm{E}(X)]^2

从方差定义中看出它恒非负,因而获得一个边角料推论:

\mathrm{E}(X^2) \geq [\mathrm{E}(X)]^2

取等时当且仅当 $\mathrm{Var}(X)=0$

对随机变量 $X$ ,若是离散型的,分布律为 $P(X=x_i)=p_i,i=1,2,...$ ,那么:

\mathrm{Var}(X)=\sum_{i=1}^{+\infty}[x_i-\mathrm{E}(X)]^2p_i

若是连续型的,概率密度为 $f(x)$ ,那么:

\mathrm{Var}(X)=\int_{-\infty}^{+\infty}[x-\mathrm{E}(X)]^2f(x)dx

方差的性质

方差的常用性质如下,其中 $a,b,C$ 为常数, $X,Y$ 为随机变量:

方差的性质:

$\mathrm{Var}(C)=0$
$\mathrm{Var}(aX+b)=a^2\mathrm{Var}(X)$
$\mathrm{Var}(X \pm Y)=\mathrm{Var}(X)+ \mathrm{Var}(Y)\pm 2\mathrm{E}[(X-\mathrm{E}(X))(Y-\mathrm{E}(Y))]$
如果 $X,Y$ 相互独立,那么
$\mathrm{Var}(X \pm Y)=\mathrm{Var}(X)+ \mathrm{Var}(Y)$
$\mathrm{Var}(X)=0 \Longleftrightarrow P[X=\mathrm{E}(X)]=1$
即 $X$ 以概率1取到常数 $\mathrm{E}(X)$
$\forall C,\mathrm{Var}(X)\leq \mathrm{E}[(X-C)^2]$
即方差是 $\mathrm{E}[(X-C)^2]$ 的下界,取到下界时 $C=\mathrm{E}(X)$

值得一提的是,用性质四可见 $\mathrm{E}(X^2) \geq [\mathrm{E}(X)]^2$ 的取等条件.

例10.1(泊松分布)

$X\sim \pi(\lambda)$ ,求 $\mathrm{Var}(X)$

解:

回忆:

\mathrm{E}(X)=\sum_{k=0}^{+\infty}k\cdot\frac{\lambda^k}{k!}e^{-\lambda}=\lambda e^{-\lambda}\sum_{k=0}^{+\infty}k\cdot\frac{\lambda^{k-1}}{(k-1)!}=\lambda

如法炮制得到

\begin{aligned} \mathrm{E}(X^2) &=\sum_{k=0}^{+\infty}k^2\cdot\frac{\lambda^k}{k!}e^{-\lambda}\\ &=e^{-\lambda}\left[ \sum_{k=0}^{+\infty}k(k-1)\cdot\frac{\lambda^k}{k!}+\sum_{k=0}^{+\infty}k\cdot\frac{\lambda^k}{k!} \right]\\ &= \lambda(\lambda+1)\end{aligned}

于是 $\mathrm{Var}(X)=\mathrm{E}(X^2)-[\mathrm{E}(X)]^2=\lambda$

常见随机变量分布的方差

首先是离散型(超几何分布不作要求):

分布	概率分布 $P(X=k)$	方差
01分布	$p^k(1-p)^k,k=0,1$	$\textcolor{blue}{p(1-p)}$
$b(n,p)$	$\begin{pmatrix} n \\ k \end{pmatrix}p^k(1-p)^{n-k},k=0,1,\cdots,n$	$\textcolor{blue}{np(1-p)}$
$\pi(\lambda)$	$(\lambda^k/k!)e^{-\lambda},k=0,1,2,\cdots$	$\textcolor{blue}{\lambda}$
$h(n,M)$	$\begin{pmatrix} M \\ k \end{pmatrix}\begin{pmatrix} n-k \\ N-M \end{pmatrix}/\begin{pmatrix} n \\ N \end{pmatrix},k=0,1,\cdots,r \,\,r=\min{n,M}$	$\textcolor{blue}{\frac{nM(N-M)(N-n)}{N^2(N-1)}}$
$Ge(p)$	$(1-p)^{k-1}p,k=0,1,\cdots$	$\textcolor{blue}{\frac{1-p}{p^2}}$

连续型随机变量:

分布	概率密度 $f(x)$	方差
$U(a,b)$	$1/(b-a),a<x<b$	$\textcolor{blue}{(b-a^2)/12}$
$Exp(\lambda)$	$\lambda e^{-\lambda x},x>0$	$\textcolor{blue}{1/\lambda^2}$
$N(\mu,\sigma^2)$	$\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty$	$\textcolor{blue}{\sigma^2}$
$Ga(\alpha,\lambda)$	$\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x\geq 0$	$\textcolor{blue}{\alpha/\lambda^2}$
$\chi^2(n)$	$\frac{x^{n/2-1}}{2^{n/2}\Gamma(n/2)}e^{-x/2},x>0$	$\textcolor{blue}{2\pi}$
$Be(a,b)$	$\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1},0<x<1$	$\textcolor{blue}{\frac{ab}{(a+b)^2(a+b+1)}}$
$Cau(\mu,\lambda)$	$\frac{1}{\pi}\frac{1}{1+x^2},-\infty<x<+\infty$	$\textcolor{blue}{不存在}$
$朗道分布$	$\frac{1}{\xi}\phi(\lambda)$ ,无解析表达式	$\textcolor{blue}{不存在}$

一个例子

例10.2(提枪作战)

一个 $n$ 人特种小队在修整时,把枪混放在一起.此时突发敌情,队友们不假思索提枪应战(等可能随机拿枪),设恰好拿到自己枪的战士人数为 $X$ ,求 $\mathrm{Var}(X)$ .

解:

考虑分解问题:第 $i$ 个战士是否拿到自己的枪用随机变量 $X_i$ 表示, $i=1,2,3,...,n$ ,即:

X_i=\begin{cases} 0 \,\,\,\, 没拿到自己枪\\ 1 \,\,\,\, 拿到自己枪\end{cases}

容易看出 $X=\sum_{i=1}^n X_i$ . $X_i$ 之间同分布但并不独立,所以方程仍然得老实用定义:

\begin{aligned} \mathrm{Var}(X)=\mathrm{Var}\left(\sum_{i=1}^n X_i\right) &= \mathrm{E}\left[ \left( \sum_{i=1}^n X_i \right)^2 \right] - \left[\mathrm{E} \left( \sum_{i=1}^n X_i \right)\right]^2 \\ &= \mathrm{E}\left( \sum_{i=1}^n X_i^2 + 2\sum_{1\leq i<j\leq n} X_iX_j \right)-\left[\sum_{i=1}^n \mathrm{E}(X_i)\right]^2\\ &= n\mathrm{E}(X_i^2)+n(n-1)\mathrm{E}(X_iX_j)-n^2\mathrm{E}^2(X_i)\end{aligned}

最后一步式中 $i\neq j$ .容易看出 $\mathrm{E}(X_i)=\mathrm{E}(X_i^2)=\frac{1}{n}$ ,对于 $X_iX_j$ (仍然是0-1分布),需要另外讨论:

若 $i,j$ 均拿到了自己的枪(等价于 $X_iX_j=1$ ),那么应有 $P(X_iX_j=1)=\frac{n}{(n-1)}$ ,相应地 $\mathrm{E}(X_iX_j)=\frac{n}{(n-1)}$ .

带入原式,我们得到:

\mathrm{Var}(X)=1

拓展一下,恰有 $k(k<n)$ 名战士拿到自己枪的概率呢？这是经典的伯努利错排问题,可以遵循以下步骤考虑:

求解全错排问题: $n$ 个战士都拿错了自己的枪,一共有几种拿法？假设求出了 $A_n$ 种拿法,由于古典概型假设, $p_n=\frac{A_n}{n!}$ (这是最难的一步！可以考虑递推法求解,这里不赘述)
将我们的问题转化为全错排问题:先选 $k$ 个战士拿对了枪,这一步一共有 $\begin{pmatrix}n\\k\end{pmatrix}$ 种取法,剩下 $(n-k)$ 个战士全拿错了,则相当于 $(n-k)$ 人的全错排问题,于是总概率为 $P_n=\begin{pmatrix}n\\k\end{pmatrix}p_{n-k}$

具体形式略.

10.2 全方差公式

我们知道全期望公式:用条件概率计算期望,从而让大随机变量被分解到小随机变量.对方差能不能也这么干？

考虑北京某月的总降雨量 $S$ ,其方差由降雨次数 $N$ 和每次降雨量 $R$ 的方差共同贡献.那么,具体的贡献形式是什么呢？是像全期望公式那样, $\mathrm{Var}(S)=\mathrm{Var}\mathrm{Var}(S|N)$ 吗？这样量纲都不匹配,肯定是错的！

那要怎么让量纲匹配呢？或许把期望 $\mathrm{E}$ 请回来是一种选择. $S|N$ 期望的方差？方差的期望？但是,两者择其一,都没有全期望公式里那种"前面求期望,后面也是求期望"的对称性.

或者说,是两者的线性组合？

别误会,我们当然可以严格地理论证明出这个关系,但是在证明之前,我们可以先和这个概念培养一下感情,让我们对这个概念有一个初步的感觉.(这亦是一种"Fly By Night Probability".)

全方差公式:

\mathrm{Var}(S)=\overbrace{\mathrm{E}[\mathrm{Var}(S|N)]}^{N固定时S的方差}+\overbrace{\mathrm{Var}[\mathrm{E}(S|N)]}^{由N诱导出的S方差}

证明:

方差的期望:

\begin{aligned} \mathrm{E}[\mathrm{Var}(S|N)]&=\mathrm{E}_N[\mathrm{E}_S(S^2|N)-\mathrm{E}_S(S|N)^2]\\ &=\mathrm{E}(S^2)-\mathrm{E}_N[\mathrm{E}_S(S|N)^2]\end{aligned}

期望的方差:

\begin{aligned} \mathrm{Var}[\mathrm{E}(S|N)]&=\mathrm{E}_N[\mathrm{E}_S(S|N)^2]-\{\mathrm{E}_N[\mathrm{E}_S(S|N)]\}^2\\ &=\mathrm{E}_N[\mathrm{E}_S(S|N)^2]-[\mathrm{E}(S)]^2\end{aligned}

一眼盯真,我们发现:

\mathrm{Var}(S)=\mathrm{E}[\mathrm{Var}(S|N)]+\mathrm{Var}[\mathrm{E}(S|N)]

这就是全方差公式.

这个定理在高斯的书中(Theoria Combinationis 1821,1823)被证明.高斯在1801年用"最小二乘法"预测了谷神星的存在,但其理论基础遭到质疑.于是,在书中,高斯在不对 $N,S$ 做正态假设的前提下证明了全方差公式,奠定了"最小二乘法"的严格理论基础.

这个公式很有用,我们仍然回到光电倍增管总电荷的问题:

例10.3(光电倍增管再看)

$Y=\sum_{i=1}^{N}Q_i$ ,求 $\mathrm{Var}(Y)$

解:

总电荷量 $Y$ 的方差,关系到探测精度.

\begin{aligned} \mathrm{Var}(Y)&=\mathrm{E}[\mathrm{Var}(Y|N)]+\mathrm{Var}[\mathrm{E}(Y|N)]\\ &=\mathrm{E}[N\mathrm{Var}(Q)]+\mathrm{Var}[N\mathrm{E}(Q)]\\ &=\mathrm{E}(N)\mathrm{Var}(Q)+\mathrm{Var}(N)[\mathrm{E}(Q)^2]\end{aligned}

10.3 协方差

回忆:

二维随机变量 $(X,Y)$ ,已知联合分布可得边缘分布,反之不可以.
二维随机变量,除了每个随机变量各自的边缘分布外,相互之间还有联系.

考虑两个随机变量 $X,Y$ 的和或者差的方差:

\mathrm{Var}(X \pm Y)=\mathrm{Var}(X)+ \mathrm{Var}(Y)\pm 2\mathrm{E}[(X-\mathrm{E}(X))(Y-\mathrm{E}(Y))]

其中 $\mathrm{E}[(X-\mathrm{E}(X))(Y-\mathrm{E}(Y))]$ 反映了这两个随机变量间的某种关系.

协方差的定义

我们定义:

协方差与相关系数:

随机变量 $X,Y$ 的协方差记作 $\mathrm{Cov}(X,Y)$ ,定义为:

\mathrm{Cov}(X,Y):=\mathrm{E}[(X-\mathrm{E}(X))(Y-\mathrm{E}(Y))]=\mathrm{E}(XY)-\mathrm{E}(X)\mathrm{E}(Y)

我们还可以把协方差标准化为无量纲的数:由于 $\mathrm{Var}(X),\mathrm{Var}(Y)>0$ 称随机变量 $X,Y$ 的相关系数 $\rho_{X,Y}$ 为:

\rho_{X,Y}=\mathrm{E}\left(\frac{[X-\mathrm{E}(X)][Y-\mathrm{E}(Y)]}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}}\right)=\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}}

若 $\rho_{XY}=0$ ,等价于 $\mathrm{Cov}(X,Y)=0$ ,则称随机变量 $X,Y$ 不相关.

两随机变量不相关,与两随机变量独立有什么关系？回到定义:

不相关: $\rho_{XY}=0$
独立: $F(X,Y)=F_X(x)F_Y(y)$
试验证:两随机变量独立能推出不相关,但反之不行.

一个直观的想法是,不相关等价于 $\mathrm{E}(XY)=\mathrm{E}(X)\mathrm{E}(Y)$ ,即两变量"期望意义下独立",但真正的独立定义在分布函数上,比期望独立更严格.

协方差的性质

协方差的性质:

计算:
$\mathrm{Cov}(X,Y)=\mathrm{E}(XY)-\mathrm{E}(X)\mathrm{E}(Y)=\pm\frac{1}{2}[\mathrm{Var}(X\pm Y)-\mathrm{Var}(X)-\mathrm{Var}(Y)]$
对称性: $\mathrm{Cov}(X,Y)=\mathrm{Cov}(Y,X)$
双线性: $\mathrm{Cov}(aX+b,Y)=a\mathrm{Cov}(X,Y)+b$
$\mathrm{Cov}(X,X)=\mathrm{Var}(X)$
即,方差是协方差的特例.

利用这些性质,我们可以解释一下何为相关系数:

标准化随机变量:

随机变量 $X$ (期望、方差均存在,方差不为0)的标准化随机变量记作:

X^*:=\frac{X-\mathrm{E}(X)}{\sqrt{\mathrm{Var}(X)}}

对标准化随机变量, $\mathrm{E}(X^*)=0,\mathrm{Var}(X^*)=1$ ,于是相关系数可以认为是:

\mathrm{Cov}(X^*,Y^*)=\rho_{XY}

顺便讨论一下相关系数的性质:

相关系数的性质:

$|\rho_{XY}|\leq 1$
$|\rho_{XY}|=1\Longleftrightarrow$ 存在常数 $a,b$ ,使得 $P(Y=aX+b)=1$
即, $X,Y$ 以概率1线性相关.
若 $X,Y$ 相互独立,则 $\rho_{XY}=0$ ,即 $X,Y$ 不相关.反之不一定成立！

需要指出的是,前两条性质我们在中学中线性回归一节已经了解过,但它没那么显然,需要进一步证明:

证明:

首先证明期望的Cauchy-Schwartz不等式: $[\mathrm{E}(XY)]^2\leq\mathrm{E}(X^2)\mathrm{E}(Y^2)$

天下实内积C-S不等式的证法都是统一的:考虑实变量 $t$ 的二次函数(由期望性质知道非负):

g(t)=\mathrm{E}[(X+tY)^2]=\mathrm{E}(X^2)+2t\mathrm{E}(XY)+t^2\mathrm{E}(Y^2)\geq 0

用二次方程 $g(t)=0$ 的判别式非正可直接得到C-S不等式.

将标准化的 $X^*,Y^*$ 代入,即得:

|\rho_{XY}|=|\mathrm{E}(X^*Y^*)|\leq\sqrt{\mathrm{E}(X^*)\mathrm{E}(Y^*)}=1

协方差矩阵

我们把协方差扩展到 $n$ 维,于是有:

协方差矩阵、相关系数矩阵:

设 $n$ 维随机变量 $\bm{X}=(X_1,X_2,...,X_n)$ ,每个分量方差存在,任意两个分量的协方差存在,则称

\begin{bmatrix} \mathrm{Var}(X_1) & \mathrm{Cov}(X_1,X_2)&\cdots &\mathrm{Cov}(X_1,X_n)\\ \mathrm{Cov}(X_2,X_1) & \mathrm{Var}(X_2)&\cdots &\mathrm{Cov}(X_2,X_n)\\ \vdots&\vdots&\ddots&\vdots\\ \mathrm{Cov}(X_n,X_1) & \mathrm{Cov}(X_n,X_2)&\cdots &\mathrm{Var}(X_n)\\\end{bmatrix}

为这组随机变量的协方差矩阵,也称为方差-协方差矩阵,记为 $\mathrm{Var}(\bm{X})$ .若记 $\bm{X}-\mathrm{E}(\bm{X})$ 为对应 $n$ 维列向量,则:

\mathrm{Var}(\bm{X})=\mathrm{E}\{[\bm{X}-\mathrm{E}(\bm{X})][\bm{X}-\mathrm{E}(\bm{X})]^\top\}

这是一个对称、非负定的矩阵.(如果你对这句话有疑问,说明你该小复习一下线代了)

对应地,记 $\rho_{i,j}=\frac{\mathrm{Cov}(X_i,X_j)}{\sqrt{\mathrm{Var}(X_i)\mathrm{Var}(X_j)}},i,j=1,2,...,n$ ,则:

\begin{bmatrix} \rho_{11} & \rho_{12}&\cdots &\rho_{1n}\\ \rho_{21} & \rho_{22}&\cdots &\rho_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ \rho_{n1} & \rho_{n2}&\cdots &\rho_{nn}\\\end{bmatrix}

为相关系数矩阵,简称相关矩阵,它同样是对称、非负定的

利用协方差矩阵,我们可以重新审视一下我们之前处理过的二维正态分布:考虑 $\bm{X}\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$ ,记 $\Sigma^2=\mathrm{Var}(\bm{X}),\bm{\mu}=\mathrm{E}(\bm{X}),\bm{x}=(x_1,x_2)^\top$ ,考虑到(自行验证):

\Sigma^2=\mathrm{Var}(\bm{X})=\begin{bmatrix} \sigma_1^2&\rho\sigma_1\sigma_2\\ \rho\sigma_1\sigma_2&\sigma_2^2\\ \end{bmatrix}

我们有:

\begin{aligned} f(x,y)&=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left[\frac{(x_1-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}\right]}\\ &=\frac{1}{2\pi\sqrt{|\Sigma^2|}}e^{-\frac{1}{2}(\bm{x}-\bm{\mu})^\top\Sigma^{-2}(\bm{x}-\bm{\mu})} \end{aligned}

当正态分布中 $\bm{x}$ 的维度趋近于无穷时,可以描述一个高斯过程(随机过程的一种,可以看做随机的函数: $\mathbb{R}\rightarrow(S\rightarrow\mathbb{R})$ ,其中 $(S\rightarrow\mathbb{R})$ 即一个样本空间到实数轴的映射,我们这里用作随机变量的notation).深度神经网络能有效地逼近高斯过程.

10.4 其他数字特征

原点矩、中心矩

原点矩和中心矩:

设 $X$ 为随机变量, $k$ 为正整数.若以下数学期望均存在,则称:

\mu_k:=\mathrm{E}(X^k)

为 $X$ 的 $k$ 阶原点矩.称:

\nu_k:=\mathrm{E}\{[X-\mathrm{E}(X)]^k\}

为 $X$ 的 $k$ 阶中心矩.1阶原点矩为数学期望,2阶中心矩为方差.

中心矩与原点矩的关系可以用二项式定理得到:

\nu_k=\mathrm{E}\{[X-\mathrm{E}(X)]^k\}=\mathrm{E}[(X-\mu_1)^k]=\sum_{i=0}^k \begin{pmatrix} k \\ i\end{pmatrix}\mu_i(-\mu_1)^{k-i}

混合矩

混合矩即将原点矩、中心矩推广到多维随机变量的情形,下面以2维为例.

混合矩:

设 $X,Y$ 为随机变量, $k,l$ 为正整数.若以下数学期望均存在,则称:

\mu_{kl}:=\mathrm{E}(X^kY^l)

为 $(X,Y)$ 的 $k+l$ 阶混合原点矩,简称混合矩.称:

\nu_{kl}:=\mathrm{E}\{[X-\mathrm{E}(X)]^k[Y-\mathrm{E}(Y)]^l\}

为 $(X,Y)$ 的 $k+l$ 阶混合中心矩.1+1阶混合中心矩为 $X,Y$ 的协方差.

基于矩的其他数字特征

3阶矩可以定义偏度系数(skew):

偏度系数:

设 $X$ 为随机变量且其前三阶矩存在,则称比值:

\beta_{s}:=\frac{\nu_3}{\nu_2^{\frac{3}{2}}}=\frac{\mathrm{E}\{[X-\mathrm{E}(X)]^3\}}{[\mathrm{Var}(X)]^{\frac{3}{2}}}

为 $(X,Y)$ 的偏度系数,简称偏度.

$\beta_s$ 描述分布偏离对称性的程度. $\beta_s>0$ 叫正偏或右偏; $\beta_s<0$ 叫负偏或左偏.

$\beta_s=0$ 说明分布相对期望左右对称.正态分布的 $\beta_s=0$ .

4阶矩可以定义峰度系数(kurtosis):

峰度系数:

设 $X$ 为随机变量且其前四阶矩存在,则称比值:

\beta_{k}:=\frac{\nu_4}{\nu_2^2}=\frac{\mathrm{E}\{[X-\mathrm{E}(X)]^4\}}{[\mathrm{Var}(X)]^2}

为 $(X,Y)$ 的峰度系数,简称峰度.

$\beta_k$ 描述分布的尖峭程度或者尾部粗细程度.

正态分布的 $\beta_k=0$

以上两个系数常常用于检测正态假设是否可接受.

L11 大数定律

考虑大数定律至少有两个动机:我们为什么能以某事件发生的频率作为该事件概率的估计？

柯氏概率公理中并不包含概率的解读,这个命题不是自证的.

11.1 大数定律

辛钦大数定律

首先复习一下极限 $\lim_{n\rightarrow\infty}X_n=X$ 的定义:

\forall\epsilon>0,\exists N(n>N\rightarrow|X_n-X|<\epsilon)

依概率收敛:

设 $X_n$ 为一随机变量序列, $X$ 为一随机变量,若对任意正数 $\epsilon$ ,有

\lim_{n\rightarrow\infty}P(|X_n-X|<\epsilon)\rightarrow1

亦即

\forall\epsilon>0,\epsilon'>0,\exists N(n>N\rightarrow1-P(|X_n-X|<\epsilon)<\epsilon')

则称随机变量序列 $X_n$ 依概率收敛于 $X$ ,记作:

X_n\stackrel{P}{\rightarrow}X

依概率收敛定义了随机变量层面的极限操作.

于是我们可以给出辛钦(Khinchin)版本的大数定律:

辛钦大数定律:

设 $X_1,X_2,...,X_n$ 为一相互独立同分布的随机变量序列,且 $\mathrm{E}(X_k)=\mu,k=1,2,...,n$ .那么,对任意正数 $\epsilon$ ,有

\lim_{n\rightarrow\infty}P\left( \left|\frac{1}{n}\sum_{i=1}^nX_i - \mu\right| <\epsilon\right) = 1

如果记 $\bar{X_n}=\frac{1}{n}\sum_{i=1}^nX_i$ ,那么也就是说

\bar{X_n}\stackrel{P}{\rightarrow}\mu

辛钦大数定律表明:数学期望可以用 $n$ 个独立同分布的随机变量的算术平均值近似.这也是为什么期望也可以叫"均值".

这个定律的证明暂且按下不表,我们先看下一个大数定律:伯努利(Bernoulli)大数定律.

伯努利大数定律

伯努利大数定律:

设 $n_A$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数, $p$ 是每次试验 $A$ 发生的概率,那么,

\forall\epsilon>0,\lim_{n\rightarrow\infty}P\left(\left|\frac{n_A}{n}-p\right|<\epsilon\right)=1

证明:

利用辛钦大数定律可以给出证明.因为 $n=X_1+X_2+...+X_n$ ,其中每项相互独立且服从参数为 $p$ 的0-1分布,于是 $\mathrm{E}(X_k)=p,k=1,2,...,n$ 那么,由辛钦大数定律有

\lim_{n\rightarrow\infty}P\left(\left|\frac{n_A}{n}-p\right|<\epsilon\right) = \lim_{n\rightarrow\infty}P\left( \left|\frac{1}{n}\sum_{i=1}^nX_i - p\right| <\epsilon\right)= 1

我们的证法中,伯努利的大数定律好像只是辛钦大数定律的一个推论,然而事实上这件事意义重大:它告诉我们,在实验次数足够多后,频率与概率由较大偏差是小概率事件,因而可以用频率近似替代概率.

概率公理\stackrel{辛钦大数定律}{\longrightarrow}平均趋于期望\stackrel{伯努利大数定律}{\longrightarrow}频率趋于概率

上图直观地展示了这两个定理的重要性:

概率公理构造的"概率"是满足我们对于概率的一般认识的(即"频率趋近概率"),而不会像频率定义概率那样陷入循环论证.
我们既可以从概率推出期望,也能用期望推出概率,这暗示着这两个概念是等价的,我们完全可以用"期望公理"推出概率.
大数定律让我们从随机的现象(均值与频率)中找到了确定的值(期望与概率).

因而,这两个定律堪称概率论的基石.

同时,上图也指出了我们接下来的方向:用概率公理推出辛钦大数定律.我们会介绍两种证明方法:切比雪夫不等式、特征函数.

11.2 切比雪夫不等式

切比雪夫不等式及证明

切比雪夫Chebyshev不等式:

设随机变量 $X$ 有数学期望 $\mathrm{E}(X)=\mu$ 和方差 $\mathrm{Var}(X)=\sigma^2$ ,那么:

\forall\epsilon>0,P(|X-\mu|\geq\epsilon)\leq\frac{\sigma^2}{\epsilon^2}

证明:

仅考虑连续变量情形.设 $X$ 概率密度函数为 $f(x)$ ,那么:

\begin{aligned} P(|X-\mu|\geq\epsilon) &= \int_{|x-\mu|\geq\epsilon}f(x)dx \\ &\leq \int_{|x-\mu|\geq\epsilon}\frac{|x-\mu|^2}{\epsilon^2}f(x)dx \\ &= \frac{\sigma^2}{\epsilon^2}\end{aligned}

第二步不等式放缩是关键.证毕.

切比雪夫不等式可以让我们在未知随机变量 $X$ 的分布前提下,对 $|X-\mu|<\epsilon$ 的概率进行估计(当然,由于没有 $X$ 的具体分布信息,这一估计是极其粗略的).在具体的问题中,真的使用切比雪夫不等式去估计概率是不推荐的,毕竟随机变量分布往往已知或已被假定.这让我们想到机器学习里的No free lunch Theorem,它们都告诉我们:适用范围广的方法往往给出的估计也是弱的.

但适用范围的广延让它在理论上意义非凡,它启示我们:一个随机变量的方差存在,就是一个很强的条件,足以让我们对某事件的概率有一个界的估计,即使它是一个比较任意的分布.

同样地,辛钦大数定律也可以用它证明:

切比雪夫不等式到大数定律

辛钦大数定律证明1:

往证:

\bar{X_n}=\frac{1}{n}\sum_{i=1}^nX_i\stackrel{P}{\rightarrow}\mu

我们还要加强原有假设: $\mathrm{Var}(X_k)=\sigma^2$ 存在.
于是:

\mathrm{E}[\bar{X_n}]=\mu\\\mathrm{Var}[\bar{X_n}]=\frac{1}{n}\sigma^2

利用切比雪夫不等式,

1-\frac{\sigma^2}{n\epsilon^2}\leq P(|\bar{X_n}-\mu|<\epsilon)\leq1

$n\rightarrow\infty$ ,夹逼定理有:

P(|\bar{X_n}-\mu|<\epsilon)\rightarrow1

证毕.

证明是直接的,但是不是很令人满意,因为我们夹带了" $\mathrm{Var}(X_k)=\sigma^2$ 存在"这一私货.在辛钦大数定律原表述中,并没有加强到这一地步.为证明辛钦大数定律完整版,需要引入一个更强大的工具——特征函数.

11.3 特征函数

特征函数及其性质

特征函数是处理概率论问题的有力工具,它能:

将卷积运算化成乘法运算;
将求各阶矩的积分运算转化成微分运算;
将求随机变量序列的极限分布化成一般的函数极限问题;
方便地处理串级随机变量,应用于核辐射探测.

与之类似的概念还有矩母函数和生成函数.我们在这里专注于适用范围最广的特征函数.

首先给个定义:

特征函数:

设 $X$ 是随机变量,则称 $e^{itX}$ 的数学期望,即:

\phi(t):=\mathrm{E}(e^{itX}),-\infty<t<+\infty

为随机变量 $X$ 的特征函数.

值得一提的是,由于 $|e^{itX}|=1$ ,随机变量的特征函数总是存在的.

为何要这么定义呢？我们把表达式写出来看看:

特征函数与傅里叶变换:

连续变量下,特征函数

\phi(t)=\int_{-\infty}^{+\infty}e^{itx}f(x)dx

是概率密度函数 $f(x)$ 的傅里叶变换.

离散变量下,特征函数

\phi(t)=\sum_{k=0}^{\infty}e^{itx_k}p_k

仍然是一个连续函数.

我们看看特征函数的性质:

特征函数性质:

$|\phi(t)|\leq \phi(0)=1$ ;
$\phi(-t)=\phi^*(t)$ ,复共轭对称;
$\phi_{aX+b}(t)=e^{ibt}\phi_X(at)$ ;
若随机变量 $X,Y$ 独立,则 $\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t)$ .
此即傅里叶变换中的卷积定理(卷积 $\stackrel{\mathscr{F}}{\longrightarrow}$ 乘法);
若 $\mathrm{E}(X^l)$ 存在,则:
$\phi^{(k)}(0)=i^k\mathrm{E}(X^k),0\leq k\leq l$
因此,可以用特征函数的导数求随机变量的矩: $\mathrm{E}(X^k)=\frac{\phi^{(k)}(0)}{i^k}$ ;
一致连续性:
$\forall\epsilon,\exists\delta,\forall t(|\phi(t+\delta)-\phi(t)|<\epsilon)$
注意,这比 $\forall t ,\forall \epsilon,\exists\delta$ 更强,因为前者 $\exists \delta$ 在 $\forall t$ 之前,代表其对所有 $t$ 普适.
非负定性:
$\forall \bm{z},\bm{t},\left[ \sum_{i,j}\phi(t_i-t_j)z_iz_j^*\geq 0 \right]$
唯一性:两变量若特征函数一致,则两函数也一致.
这由傅里叶变换的可逆性、唯一性保证(即 $\{e^{itx}\}$ 是 $L^2$ 上的完备基).

常见分布的特征函数

离散分布:

分布	概率分布 $P(X=k)$	特征函数 $\phi(t)$
01分布	$p^k(1-p)^k,k=0,1$	$\textcolor{blue}{1-p+pe^{it}}$
$b(n,p)$	$\begin{pmatrix} n \\ k \end{pmatrix}p^k(1-p)^{n-k},k=0,1,\cdots,n$	$\textcolor{blue}{(1-p+pe^{it})^n}$
$\pi(\lambda)$	$(\lambda^k/k!)e^{-\lambda},k=0,1,2,\cdots$	$\textcolor{blue}{e^{\lambda(e^{it}-1)}}$
$Ge(p)$	$(1-p)^{k-1}p,k=0,1,\cdots$	$\textcolor{blue}{\frac{p}{1-qe^{it}},q:=1-p}$

连续分布:

分布	概率密度 $f(x)$	特征函数 $\phi(t)$
$U(a,b)$	$1/(b-a),a<x<b$	$\textcolor{blue}{\frac{e^{ibt}-e^{iat}}{it(b-a)}}$
$Exp(\lambda)$	$\lambda e^{-\lambda x},x>0$	$\textcolor{blue}{(1-it/\lambda)^{-1}}$
$N(\mu,\sigma^2)$	$\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty$	$\textcolor{blue}{e^{i\mu t-\frac{\sigma^2t^2}{2}}}$
$Ga(\alpha,\lambda)$	$\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x\geq 0$	$\textcolor{blue}{(1-it/\lambda)^{-\alpha}}$
$\chi^2(n)$	$\frac{x^{n/2-1}}{2^{n/2}\Gamma(n/2)}e^{-x/2},x>0$	$\textcolor{blue}{(1-2it)^{-n/2}}$
$Be(a,b)$	$\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1},0<x<1$	$\textcolor{blue}{\frac{ab}{(a+b)^2(a+b+1)}}$
$Cau(\mu,\lambda)$	$\frac{1}{\pi}\frac{1}{1+x^2},-\infty<x<+\infty$	$\textcolor{blue}{e^{-\|t\|}}$

表格正确性自证.有了这些特征函数,结合其唯一性,我们可以证明之前不好证明的问题,比如:高斯分布相加还是高斯分布、计算高斯分布的期望和方差、二项分布的极限是泊松分布、卡方分布可以表征标准正态分布随机变量的平方和等.这些留作习题.

最后,我们考虑用它证明辛钦大数定律.

从特征函数到辛钦大数定律

辛钦大数定律证明2:

往证:

\bar{X_n}=\frac{1}{n}\sum_{i=1}^nX_i\stackrel{P,n\rightarrow\infty}{\rightarrow}\mu

左式对应的特征函数为 $\phi_{\bar{X_n}}(t)=[\phi_{X_i}(\frac{t}{n})]^n$ .当 $n\rightarrow\infty$ 时,

\begin{aligned} \left[\phi(\frac{t}{n})\right]^n &= \left(\phi(0)+\phi'(0)\frac{t}{n}+o(\frac{1}{n})\right)^n\\ &= [\phi(0)]^n \mathrm{exp}\left[n\ln{\left(1+\frac{t\phi'(0)}{\phi(0)}\frac{1}{n}+o(1/n)\right)}\right]\\ &\rightarrow e^{i\mu t} \end{aligned}

以上利用了特征函数的性质.可见结果为随机变量 $\mu$ (常数)的特征函数.

证毕.

L12 中心极限定理

今天的证明仍然要用到特征函数,主要是以下三个:

几何分布 $Ge(p)\rightarrow\phi(t)=\frac{p}{1-qe^{it}}$
指数分布 $Exp(\lambda)\rightarrow\phi(t)=\frac{1}{1-\frac{it}{\lambda}}$
正态分布 $N(\mu,\sigma^2)\rightarrow\phi(t)=e^{i\mu t-\frac{\sigma^2t^2}{2}}$

什么是中心极限定理？可以追溯到Polya(Polya’s urn的那个):

Polya (1920)

It was generally known that the appearance of the Gaussian probability density $e^{-x^2}$ in a great many situations can be explained by one and the same limit theorem, which plays a central role in probability theory.

简单来说,"中心极限定理"即在描述:什么情况下 $\sum_{i=1}^{n}X_i$ 的分布收敛到正态分布.

12.1 中心极限定理

先介绍教材上的版本:

中心极限定理(Lindberg-Levi版本)

设随机变量序列 $X_1,X_2,...,X_n$ 独立同分布,且数学期望和方差存在:

\mathrm{E}(X_k)=\mu,\mathrm{Var}(X_k)=\sigma^2>0,k=1,2,...,n

则随机变量之和 $X:=\sum_{i=1}^{n}X_i$ 的标准化变量:

Y_n=\frac{X-\mathrm{E}(X)}{\sqrt{\mathrm{Var}(X)}}=\frac{X-n\mu}{\sqrt{n}\sigma}

的分布函数 $F_n(x)$ 对任意实数 $x$ 满足:

\lim_{n\rightarrow\infty}F_n(x)=\lim_{n\rightarrow\infty}P\left( \frac{X-n\mu}{\sqrt{n}\sigma}\leq x \right)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt=\Phi(x)

对上述定理的解读:

$n$ 足够大时, $Y_n$ 的分布函数近似于标准正态分布;
均值 $\bar{X}\sim N\left( \mu, \frac{\sigma^2}{n} \right),n\rightarrow\infty$

第二点是统计推断的基础.

从中心极限定理看,为何许多的随机现象都服从正态分布？

彼此没有什么相依关系、对随机现象谁也不能起突出影响,而"均匀"地起到微小作用的随机因素共同作用叠加,结果呈现正态分布.
若描述此随机现象的随机变量为 $X$ ,则它可被看成为许多相互独立的起微小作用的因素 $X_k$ 的总和 $\sum_kX_k$ ,而这个总和近似服从正态分布.

例12.1(DeMoivre-Laplace中心极限定理)

是最早的中心极限定理表述,可以看作Lindberg-Levi中心极限定理的二项分布特例,即假设 $Y_n\sim b(n,p),0<p<1,n=1,2,...$ ,则有:

Y_n\sim N[np,np(1-p)],n\rightarrow\infty

例12.2(良种数近似)

设一大批种子种良种占1/6.试估计在任选的6000粒种子中,良种比例与1/6比较上下小于1%的概率范围

解:

设 $X$ 表示6000枚种子中的良种数, $X\sim b(6000,1/6),\mathrm{E}(X)=1000,\mathrm{Var}(X)=5000/6$ ,用三种方法近似:

I、切比雪夫不等式(最粗糙)

P(|X-1000|<60)=1-P(|X-1000|\geq 60)\geq 1-\frac{5000/6}{60^2}=0.7685

II、中心极限定理

可近似认为 $X\sim N(1000,5000/6)$ ,那么:

P(|X-1000|<60)=2\Phi\left(\frac{59}{\sqrt{5000/6}}\right)-1=0.9590287

如果在边界处取一个中间值,那么:

P(|X-1000|<60)=2\Phi\left(\frac{59.5}{\sqrt{5000/6}}\right)-1=0.9607

III、二项分布精确值

P(|X-1000|<60)=P(940<X<1060)=\sum_{k=941}^{1059}\begin{pmatrix} 6000\\k\end{pmatrix}(1/6)^k(5/6)^{6000-k}=0.9607

可见,中心极限定理在重复次数6000次后,已经是一个相当好的近似了,实际上 $n$ 远小于它也够用了.

从数学上看,高斯分布函数就是某函数不断自卷积所能达到的"天花板".

12.2 中心极限定理的证明

证明方法当然是使用我们强力的特征函数:

证明:

往证Levi版本:

Y_n=\frac{(\sum_{i=1}^nX_i)-n\mu}{\sqrt{n}\sigma}\stackrel{P,n\rightarrow\infty}{\longrightarrow}Z\sim N(0,1)

RHS的特征函数 $\phi_Z(t)=e^{-\frac{t^2}{2}}$

对LHS:

\begin{aligned} \phi_{Y_n}(t)&=\left[ \phi_{X_i-\mu}\left( \frac{t}{\sqrt{n}\sigma} \right) \right]^n\\ &=\left[ 1+\frac{1}{2}\phi_{X_i-\mu}''(0)\left(\frac{t}{\sqrt{n}\sigma}\right)^2+o\left( \frac{1}{n}\right)\right]^n\\ &=\left[ 1+i^2\frac{1}{2}\mathrm{Var}(X_i)\left(\frac{t^2}{n\sigma^2}\right)+o\left( \frac{1}{n}\right)\right]^n \stackrel{n\rightarrow\infty}{=}e^{-\frac{t^2}{2}}=\phi_Z(t)\end{aligned}

用到了特征函数高阶导数与 $n$ 阶矩之间的关系,通过泰勒展开得到证明.

中心极限定理阐明了正态分布的来源:与二项分布、指数分布等由物理世界的性质决定不同,正态分布从极限起源.

中心极限定理诠释了正态分布的物理意义.

12.3 李雅普诺夫

独立同分布这个条件可能还是有点太强,现实世界中没有这么多独立同分布的情况,我们能不能把这个条件放开？

中心极限定理(Lyapunov版本)

设随机变量序列 $X_1,X_2,...,X_n$ 独立,且数学期望和方差存在:

\mathrm{E}(X_k)=\mu_k,\mathrm{Var}(X_k)=\sigma_k^2>0,k=1,2,...,n

记 $B_n^2=\sum_{k=1}^n\sigma_k^2$ ,若存在 $\delta>0$ ,使得Lyapunov条件:

\lim_{n\rightarrow\infty}\frac{1}{B_n^{2+\delta}}\sum_{k=1}^n\mathrm{E}(|X_k-\mu_k|^{2+\delta})=0

成立,则随机变量之和 $X:=\sum_{k=1}^{n}X_k$ 的标准化变量:

Z_n=\frac{X-\sum_{i=1}^k\mu_k}{B_n}=\frac{X-n\mu}{\sqrt{n}\sigma}

的分布函数 $F_n(x)$ 对任意实数 $x$ 满足:

\lim_{n\rightarrow\infty}F_n(x)=\lim_{n\rightarrow\infty}P\left( \frac{X-\sum_{i=1}^k\mu_k}{B_n}\leq x \right)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt

证明略.我们这不是数学课(笑).

Lyapunov版本的中心极限定理似乎更吓人了,但是大体思想与Lindberg-Levi版本的想法是类似的:它只是去掉了同分布假设,但又要求分布之间不那么不同.以下为Lyapunov版本的一些要点:

当 $n$ 很大时, $Z_n=\frac{X-\sum_{i=1}^k\mu_k}{B_n}=\frac{X-n\mu}{\sqrt{n}\sigma}$ 近似服从标准正态分布 $N(0,1)$ ;
当 $n$ 很大时, $X=\sum_{k=1}^{n}X_k$ 近似服从正态分布 $N(\sum_{k=1}^n\mu_k,B_n^2)$ ;

也就是说,无论 $X_k(k=1,2,...)$ 满足什么分布,只要有Lyapunov条件成立,当 $n$ 很大时, $\sum_{k=1}^{n}X_k$ 总是近似服从正态分布.

例12.3(自然现象往往近似服从正态分布)

某时刻一个城市的用电量=大量用户耗电总和
物理实验的测量误差由大量观察不到的、可加的微小误差所合成

上面看到,中心极限定理中,"同分布"这个条件是不重要的.下面我们会看到,甚至"独立"这个条件也不重要！

讲之前提一嘴:那什么条件重要？答案是:方差存在！.挺反直觉的,可以举个没有方差的粒子:

比如,20个独立同分布的柯西分布相加:

N <- 5000
s <- rep(0, N)
for (i in 1:20) {
  s <- s + rcauchy(N)
}
hist(s, breaks=200)

结果是:

可以看到更像是Dirac delta而非正态分布的钟形曲线.

12.4 马尔可夫

马尔可夫是切比雪夫的学生,属于圣彼得堡学派,他反对莫斯科学派领袖Pavel Nekrasov提出的"大数定律的必要条件是被加的随机变量相互独立".因为直觉来讲,自然现象中有时间上的因果联系,因而被加项会有关联.

中心极限定理(Markov版本)

设随机变量序列 $X_1,X_2,...,X_n$ 不互相独立,且有:

P(X_j|X_{j-1},X_{j-2}...)=P(X_j|X_{j-1})

即具有马尔可夫性.再加上可逆性、可达性条件,使其成为一个马尔科夫链(在随机过程章节讨论).于是:

\mu=\mathrm{E}(X_1),\sigma^2=\mathrm{Var}(X_1)+2\sum_{k=1}^{\infty}\mathrm{Cov}(X_1,X_{K+1})<+\infty\\\Longrightarrow \mu_n:=\frac{1}{n}\sum_{k=1}^nX_k\stackrel{P,n\rightarrow\infty}{\longrightarrow}Z\sim N\left(\mu,\frac{\sigma^2}{n}\right)

L13 蒙特卡洛方法

这一集没啥好讲的,值得一提的是蒙卡方法的几种种类吧:

逆函数法
舍选法
马尔科夫链法(适用任意高维度数据,实例:中子输运模拟、PMT还原点源响应)
对抗生成网络法(？)

之后统计学部分大概也不会记全篇笔记了,挑一点重难点记下来即可.

L13.5 指数分布族

指数分布族指满足以下形式的密度函数/分布列:

f(x|\bm{\theta})=h(x)\mathrm{exp}\left[ \sum_{i=1}^s\eta_i(\bm{\theta})T_i(x)-A(\bm{\eta}) \right]

$s$ 为该指数分布族的维数.

其标准形式是以 $\bm{\eta}$ 为自变量来替换 $\bm{\theta}$ ,简化notation: $\bm{\eta}:=(\eta_1,\eta_2,...,\eta_s)^\top,\bm{T}(x):=(T_1(x),T_2(x),...,T_s(x))$ :

f(x|\bm{\eta})=h(x)\mathrm{exp}\left[ \bm{\eta}^\top \bm{T}(x)-A(\bm{\eta}) \right]

仔细看就会发现,我们熟悉的许多分布都是指数分布族的一员:

离散型:二项分布、几何分布、泊松分布、负二项分布.
连续型:伽马分布、正态分布.

本讲主要关注了指数分布族在求期望、方差时的共性.下面开始推导,不妨假设为连续型随机变量,积分默认对实数范围(事实上离散型的求和号和这里的积分号并没有什么大不同,毕竟我们用到的唯一性质就是交换偏导与积分/求和,这里都可以满足.):

注意到,作为随机变量密度函数的 $f(x|\bm{\eta})$ 满足:

\int f(x|\bm{\eta})dx=1

代入标准形式我们有一个关键推论:

\mathrm{exp}[A(\bm{\eta})]=\int h(x)\mathrm{exp}\left[ \bm{\eta}^\top \bm{T}(x)\right ]dx

一些notation: $\frac{\partial A}{\partial \bm{\eta}}=(\frac{\partial A}{\partial \eta_1},\frac{\partial A}{\partial \eta_2},...,\frac{\partial A}{\partial \eta_s}),\frac{\partial^2 A}{\partial \bm{\eta}^2}=(\frac{\partial^2 A}{\partial \eta_1^2},\frac{\partial^2 A}{\partial \eta_2^2},...,\frac{\partial^2 A}{\partial \eta_s^2})$

我们对着关键推论求导一次即可得到:

\frac{\partial A}{\partial \bm{\eta}}\mathrm{exp}[A(\bm{\eta})]=\int h(x)\mathrm{exp}\left[ \bm{\eta}^\top \bm{T}(x)\right ]\bm{T}(x)dx

进而有:

\begin{aligned} \frac{\partial A}{\partial \bm{\eta}}&=\int h(x)\mathrm{exp}\left[ \bm{\eta}^\top \bm{T}(x)-A(\bm{\eta}) \right ]\bm{T}(x)dx\\ &=\int f(x|\bm{\eta})\bm{T}(x)dx\\ &=\mathrm{E}(\bm{T}(x)) \end{aligned}

求导两次即可得到:

\left[\frac{\partial^2 A}{\partial \bm{\eta}^2}+\left( \frac{\partial A}{\partial \bm{\eta}} \right)^2\right]\mathrm{exp}[A(\bm{\eta})]=\int h(x)\mathrm{exp}\left[ \bm{\eta}^\top \bm{T}(x)\right ]\bm{T^2}(x)dx

进而有:

\begin{aligned} \frac{\partial^2 A}{\partial \bm{\eta}^2}&=\mathrm{E}(\bm{T^2}(x))-\left( \frac{\partial A}{\partial \bm{\eta}} \right)^2\\ &=\mathrm{Var}(\bm{T}(x)) \end{aligned}

也就是说,标准形式指数分布族(或其内蕴函数)的方差、期望可以用下式求解:

\mathrm{Var}(\bm{T}(x))=\frac{\partial^2 A}{\partial \bm{\eta}^2},\,\,\,\,\,\mathrm{E}(\bm{T}(x))=\frac{\partial A}{\partial \bm{\eta}}

特别地,当 $s=1,T(x)=x$ 时,我们还能直接获得其矩母函数及累计函数(Cumulant):

M_f(t)=\mathrm{E}(e^{tX})=\exp[A(\eta+t)-A(\eta)]\\ C_f(t)=\ln(M_f(t))=A(\eta+t)-A(\eta)

证明略,代入不难.

作为练习,可以利用指数分布族的性质求一下分布形式的期望、方差:

泊松分布 $\pi(\lambda)$
二项分布 $b(n,p)$ (想一想,参数 $\bm{\theta}$ 是二维还是一维？)
正态分布 $N(\mu,\sigma^2)$
伽马分布 $Ga(\alpha,\lambda)$

L14 统计学概论

统计学是收集、分析、表述(图表)、解释数据的科学.它包罗万象,甚至可以说,它包含了所有的实证科学.

统计学的七大准则:

Aggregation 概括(削减信息以让人获得更多信息,less is more)
Information Measurement 信息度量(根号n准则,数据越多,新数据的信息量越少)
Likelihood 似然与概率论
Intercomparison 完备性(统计学有一套自洽的数据分析体系,可以独立于具体的实证科学领域工作)
Regression 回归
Design 实验设计
Residual 分析已知与未知(残差分析？)

统计学分两大块:描述统计学与推断统计学.

对描述统计学(descriptive statistics),我们希望以直观的图表展示数据的基本信息,以:

大致描述数据特征
找出数据的基本规律

常用的图表有:

分布表(频数、频率)
直方图(频数、频率、频数密度、频率密度四种)
箱线图

可以用R语言绘图(核心制图系统、ggplot系统)

对推断统计学,我们希望对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性.它是用样本数据对总体的某些特征进行估计和检验的统计学.

内容:参数估计;假设检验
目的:对总体(一个随机变量)特征作出判断

L15 统计量与分布

15.1 随机样本

总体 $X$ 是研究对象的某个/某些数量指标的全体,其实就是一个随机变量.我们在统计学里更多说"总体".它有三层含义:

研究对象的全体
数据
分布

个体是组成总体的每一个元素,可以看作随机变量 $X$ 的某个取值,记为 $X_i$ .

样本是从总体中抽取的部分个体.

用 $(X_1,X_2,\cdots,X_n)$ 表示, $n$ 为样本容量;
用 $(x_1,x_2,\cdots,x_n)$ 表示总体 $X$ 的一个容量为 $n$ 的样本观测值.

样本空间即样本所有可能取值的集合.

学概率论的时候也有"样本空间",它和统计学里的样本空间是否等价呢？这里我们认为它们就是一回事.

若总体 $X$ 的样本 $(X_1,X_2,\cdots,X_n)$ 独立同分布(i.i.d),则称其为简单随机样本.

关于样本的抽样方法:

对有限总体,放回抽样可以得到简单随机样本;
如果放回抽样不方便,常常用不放回抽样代替,条件: $N/n \geq 10$ , $N$ 为总体中个体数, $n$ 为样本容量.

15.2 统计量

统计量即样本的不含未知参数的连续函数 $g(X_1,X_2,\cdots,X_n)$ .

利用样本的函数——统计量——进行统计推断;
样本是随机变量,故统计量也是随机变量.

例15.1

考虑 $\frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i-\mu)^2$ ,如果参数 $\mu,\sigma^2$ 已知,则它是统计量,否则不是.

常见统计量:

样本均值: $\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i$
样本方差: $S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2$ (是的,就是 $n-1$ ,这么定义的原因后面会讲)
样本标准差: $\sqrt{S^2}$
样本 $k$ 阶原点矩: $A_k=\frac{1}{n}\sum_{i=1}^nX_i^k$ ,可见 $A_1=\bar{X}$
样本 $k$ 阶中心矩: $B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^k$ ,可见 $B_2=\frac{n-1}{n}S^2:=S_n^2$

样本均值的性质:

(一阶性质):偏差定义为样本中数据与样本均值之差,则样本所有偏差之和为0,即:
$\sum_{i=1}^n(X_i-\bar{X})=0$
(二阶性质):数据观察值与样本均值的偏差平方和最小,也就是说,形如 $\sum_{i=1}^n(X_i-c)^2$ 的函数中, $c=\bar{X}$ 时取最小值.

以及回顾一下中心极限定理的统计学结果:

中心极限定理:

设 $X_1,X_2,\cdots,X_n$ 是来自某个总体的样本, $\bar{X}$ 为样本均值.

若总体分布为 $N(\mu,\sigma^2)$ ,则 $\bar{X}\sim N(\mu,\frac{\sigma^2}{n})$ ;
若总体分布未知/不是正态分布,但 $\mathrm{E}(X)=\mu,\mathrm{Var}(X)=\sigma^2$ 存在,则 $n$ 较大时, $\bar{X}$ 的渐进分布为 $N(\mu,\frac{\sigma^2}{n})$ .

这样我们就获得了样本一二阶矩的性质:

一二阶矩性质:

设总体 $X$ 的二阶矩存在,即 $\mathrm{E}(X)=\mu,\mathrm{Var}(X)=\sigma^2<+\infty$ ,且 $X_1,X_2,\cdots,X_n$ 是从这个总体得到的样本， $\bar{X},S^2$ 分别是样本均值与样本方差,则有:

\mathrm{E}(\bar{X})=\mu\\\mathrm{Var}(\bar{X})=\frac{\sigma^2}{n}\\\mathrm{E}(S^2)=\sigma^2

注意区别:样本方差 $S^2$ 和总体方差(随机变量方差) $\sigma^2:=\mathrm{Var}(X)$ .前者是随机变量,后者是数字特征.

解:
前两式由期望与方差的性质不难得到.

对第三式,考虑样本二阶中心矩:

\begin{aligned} S_n^2=B^2&=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2\\ &=\frac{1}{n}\left( \sum_{i=1}^nX_i^2 -2\bar{X}\sum_{i=1}^nX_i +n\bar{X}^2 \right)\\ &=\frac{1}{n}\sum_{i=1}^nX_i^2-\bar{X}^2\end{aligned}

这一过程和概率论中算随机变量的方差很像,只不过我们这里算出来的结果还是一个随机变量,而非一个数.于是:

\begin{aligned} \mathrm{E}(S_n^2)&=\mathrm{E}\left(\frac{1}{n}\sum_{i=1}^nX_i^2\right)-\mathrm{E}(\bar{X}^2)\\ &=\frac{n}{n}[\mathrm{Var}(X)+\mathrm{E}^2(X)]-[\mathrm{Var}(\bar{X})+\mathrm{E}^2(\bar{X})]\\ &=(\sigma^2+\mu^2)-\left( \frac{1}{n}\sigma^2+\mu^2\right)\\ &=\frac{n-1}{n}\sigma^2\end{aligned}

所以 $S^2:=\frac{n}{n-1}S_n^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2=\sigma^2$ .这也是为什么我们要这么定义样本方差:这样可以保证样本方差的期望是总体的方差.

15.3 统计量的分布

统计量既然是仅依赖于样本的随机变量,它也应该由概率分布, $T_n=g(X_1,X_2,\cdots,X_n)$ 的分布称为抽样分布

例15.2(正态分布总体的样本均值)

设总体 $X\sim N(\mu,\sigma^2)$ ,参数已知,样本为 $(X_1,X_2,\cdots,X_n)$ ,则:

\bar{X}\sim N\left( \mu,\frac{\sigma^2}{n} \right)

正态分布是最简单的情况,接下来要介绍更复杂的情况:

$\chi^2$ 分布

先回忆一下概率论中涉及的卡方分布相关性质:

我们证明过:若 $X\sim N(0,1)$ ,那么 $X^2\sim \chi^2(1)=Ga(1/2,1/2)$
我们还证明过:伽马分布的 $\alpha$ 参数有可加性.

伽马分布:
$Ga(\alpha,\lambda):f(x;\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}$

于是:

卡方分布( $\chi^2$ 分布)

设 $X_1,X_2,\cdots,X_n$ i.i.d于标准正态分布 $N(0,1)$ ,那么:

\sum_{i=1}^nX_i^2\sim \chi^2(n)

其中 $n$ 为自由度,代表求和中独立变量个数.

$\chi^2(n)$ 分布的概率密度为:

f_{\chi^2(n)}(x)=\frac{(1/2)^{n/2}}{\Gamma(n/2)}x^{n/2-1}e^{-x/2},x\in(0,+\infty)

可见 $\chi^2(n)=Ga(n/2,1/2)$ ,是伽马分布的一个特例.

卡方分布性质:

对 $X\sim \chi^2(n)$ , $\mathrm{E}(X)=n,\mathrm{Var}(X)=2n$
若 $X_1\sim \chi^2(n_1),X_2\sim \chi^2(n_2)$ ,且 $X_1,X_2$ 独立,那么 $X_1+X_2\sim \chi^2(n_1+n_2)$
随着自由度 $n$ 增大, $\chi^2$ 分布趋近于正态分布.

注意性质一用到了: $X\sim Ga(\alpha,\lambda)\Rightarrow \mathrm{Var}(X)=\alpha/\lambda^2$

接下来引入上 $\alpha$ 分位点的概念(如果不说"上",默认为下分位点):

上 $\alpha$ 分位点 $z_\alpha$

设 $X$ 是随机变量, $0<\alpha<1$ ,则称满足 $P(X>z_\alpha)=\alpha$ 的点 $z_\alpha$ 为 $X$ 的上 $\alpha$ 分位点.

对卡方分布,上述写法一般改成: $P\{\chi^2>\chi_\alpha^2(n)\}=\int_{\chi^2_\alpha(n)}^\infty f_{\chi^2(n)}(y)dy=\alpha$

为何卡方分布更关心上分位数?这是因为卡方分布定义域有下界,而无上界.两边都无界的分布常用双侧分位数,我们马上就会看到示例.

卡方分布常见于描述正态总体样本方差的分布,例如:当总体 $X\sim N(\mu,\sigma^2)$ , $\sigma^2$ 已知,样本为 $(X_1,X_2,\cdots,X_n)$ ,那么:

\frac{(n-1)S^2}{\sigma^2}=\sum_{i=1}^n\left(\frac{X_i-\bar{X}}{\sigma}\right)\sim \chi^2(n-1)

这一式子的证明比较繁杂,但是结论非常重要,毕竟如果把样本均值换成总体均值,我们有:

\sum_{i=1}^n\left(\frac{X_i-\mu}{\sigma}\right)\sim \chi^2(n)

可见用样本均值估计时,得到的卡方分布自由度少了1.

F分布

F分布基于卡方分布构造而来:

F分布

设随机变量 $X\sim\chi^2(n),Y\sim\chi^2(m)$ ,并且 $X,Y$ 相互独立,那么定义:

F=\frac{X/n}{Y/m}

称 $F$ 服从第一自由度为 $n$ ,第二自由度为 $m$ 的F分布.

F分布的概率密度为:

f_F(x)=\frac{\Gamma(\frac{m+n}{2})(\frac{n}{m})^{n/2}}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}\left(1+\frac{n}{m}x\right)^{-\frac{m+n}{2}},x\in (0,+\infty)

F分布得名于Ronald.A.Fisher(1890-1962)的首字母,其概率密度函数的推导要领为:

考察 $Z=\frac{X}{Y}$ 的概率密度函数;
乘以系数 $F=\frac{m}{n}Z$ .

在之后的假设检验中,F分布将会很有用.

F分布性质:

若 $F\sim F(n,m)$ ,那么 $\frac{1}{F}\sim F(n,m)$
$F_{1-\alpha}(n,m)=\frac{1}{F_\alpha(m,n)}$ ,此处 $F_\alpha(n,m)$ 是 $F(n,m)$ 分布的上 $\alpha$ 分位数.

性质2的推导:对于 $X\sim F(n,m)$ ,令 $Y=\frac{1}{X}$ ,则
$\begin{aligned} &P(X>F_{1-\alpha}(n,m))=1-\alpha\\ \Rightarrow&P\left(Y<\frac{1}{F_{1-\alpha}(n,m)}\right)=1-\alpha\\ \Rightarrow&P\left(Y>\frac{1}{F_{1-\alpha}(n,m)}\right)=\alpha \end{aligned}$
由性质1知, $Y\sim F(m,n)$ ,于是 $F_\alpha(m,n)=\frac{1}{F_{1-\alpha}(n,m)}$ ,与性质2等价.

F分布常见于两个正态总体的比较,接卡方分布中的总体 $X$ 定义,又设总体 $X'\sim N(\mu',\sigma'^2)$ ,样本为 $(X_1',X_2',\cdots,X_{n'}')$ ,与 $(X_1,X_2,\cdots,X_n)$ 相互独立.则:

\frac{S^2/S'^2}{\sigma^2/\sigma'^2}\sim F(n-1,n'-1)

t分布

t分布

设随机变量 $X\sim N(0,1),Y\sim\chi^2(n)$ ,并且 $X,Y$ 相互独立,那么定义:

T=\frac{X}{\sqrt{Y/n}}

称 $T$ 服从自由度为 $n$ 的t分布(即Student分布,学生氏分布).

t分布的概率密度为:

f_T(x)=tf_{T^2}(t^2)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})\sqrt{n\pi}}\left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}},t\in \mathbb{R}

t分布概率密度推导要领为:

$T^2=\frac{X^2/1}{Y^2/n}$ ,所以 $T^2\sim F(1,n)$
$T=\sqrt{T^2}$

t分布性质:

$f_n(t)$ 是偶函数,
$n\rightarrow\infty,f_n(t)\rightarrow\phi(t)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$
t分布的上 $\alpha$ 分位数 $t_\alpha$ 定义为 $P(T>t_\alpha)=\alpha$ ,满足 $-t_\alpha=t_{1-\alpha}$ ;
t分布的双侧 $\alpha$ 分位数 $t_{\alpha/2}$ 定义为 $P(|T|>t_{\alpha/2})=\alpha$ ,它同样是t分布的上 $\alpha/2$ 分位数.

t分布常见于用样本方差标准化样本均值的分布.设总体 $X\sim N(\mu,\sigma^2)$ , $\mu$ 已知,样本为 $(X_1,X_2,\cdots,X_n)$ ,那么:

\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)

L16 点估计

16.1 统计推断

统计推断是数理统计理论的重要部分,建立在概率论的基础上.目的是利用从总体抽出的样本,推断总体的性质(期望,方差,分布等).具体来讲,即以下步骤:

X\stackrel{采样}{\rightarrow}X_n\stackrel{g}{\rightarrow}统计量

其中,随机变量函数 $g$ 需要仔细选择,使得对应统计量能够很好地反映原总体的性质.

统计推断的基本问题是:

参数估计问题
- 点估计
- 区间估计
假设检验问题

首先讨论参数估计问题:

参数 $\theta$ 是刻画总体某方面概率特性的数量(如:正态分布的 $\mu,\sigma^2$ ).
当该数量未知时,从总体抽出一个样本,用一定方法对它参数估计.
- 方法问题:如何利用样本估计位置参数?
- 评判标准:如何评价估计的好坏?

其中,点估计估计未知参数的值;区间估计估计未知参数的取值范围,并使此范围包含参数真值的概率为给定的值(“置信度”).

16.2 点估计

例16.1

设在炸药制造厂，一天中发生着火的次数 $X$ 服从以 $\lambda$ 为参数的泊松分布,参数未知,现有以下样本值,试估计参数 $\lambda$ .

着火次数 $k$	0	1	2	3	4	5	6	7
发生 $k$ 次着火的天数 $n_k$	75	90	54	22	6	2	1	0	$\sum=250$

解:

由于 $X\sim \pi(\lambda)$ ,故有 $\lambda=\mathrm{E}(X)$ ,可以用样本均值估计总体均值 $\mathrm{E}(X)$ (利用大数定律),由数据计算得到
$\bar{X}=1.22$ ,于是参数的估计值:

\hat{\lambda}=1.22

如果用样本方差估计,由于 $\lambda=\mathrm{Var}(X)$ ,且样本方差算得 $s^2=1.27$ ,于是参数的估计值:

\hat{\lambda}=1.27

1.27和1.22很接近,一方面在一定程度上说明,最初对总体满足泊松分布的假设是合理的;但是两者毕竟不一样,哪个估计更好呢?

以上例题其实就是一个点估计的过程,下面为点估计下定义:

点估计:

用一个数值作为位置参数的估计值称为点估计.

设总体 $X$ 的分布函数形式已知, $\theta$ 是待估参数, $X_1,X_2,\cdots,X_n$ 为总体的一个样本.
点估计构造一个适当的统计量 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ ,用它的观察值 $\hat{\theta}(x_1,x_2,\cdots,x_n)$ 作为待估计参数的近似值.
约定:“尖帽符号 $\hat{}$ ”,表示估计量,它是一个统计量.

点估计确定参数的准则有很多种,这节课先介绍常用的三种:矩估计,最大似然估计,最小二乘估计.

16.3 矩估计法

对总体的 $k$ 阶矩,依然可以通过大数定律,用 $\bar{X^k}$ 来估计 $\mathrm{E}(X^k)$ .

矩估计:

用样本的 $k$ 阶矩作为总体 $k$ 阶矩的估计量,建立含有待估参数的方程,从而解出待估参数.

设随机变量 $X\sim f(x;\theta_1,\theta_2,\cdots,\theta_k)$ ,其中 $\theta_1,\theta_2,\cdots,\theta_k$ 是待估参数.假设总体的前 $k$ 阶矩存在:
$\mathrm{E}(X^r)=\mu_r(\theta_1,\theta_2,\cdots,\theta_k),1\leq r\leq k$
设 $X_1,X_2,\cdots,X_n$ 为来自总体 $X$ 的一个样本, $r$ 阶样本矩
$A_r\equiv \bar{X^r}=\frac{1}{n}\sum_{i=1}^nX_i^r$
$A_r$ 及其函数依概率收敛于相应的总体矩,因此可以:
- 用样本矩作为对应总体矩的估计量;
- 用样本矩的函数作为对应总体矩函数的估计量.
总体的前 $k$ 阶矩构成联立方程组,含有 $k$ 个未知参数:
$\mu_i=\mu_i(\theta_1,\theta_2,\cdots,\theta_k),1\leq i \leq k$
一般情况下,可以用上述方程反解出参数:
$\theta_i=\theta_i(\mu_1,\mu_2,\cdots,\mu_k),1\leq i \leq k$
用样本矩 $A_r$ 代替总体矩 $\mu_r,1\leq r \leq k$ 就得到待估参数的估计量,称为矩估计量:
$\hat{\theta_i}=\hat{\theta_i}(A_1,A_2,\cdots,A_k),1\leq i \leq k$
矩估计量的观察值称为矩估计值.

一般将上述矩估计用矢量表示:前 $k$ 阶样本矩 $\bm{A}=(A_1,A_2,\cdots,A_k)$ ,待估参数 $\bm{\theta}=(\theta_1,\theta_2,\cdots,\theta_k)$ ,样本 $\bm{X}=(X_1,X_2,\cdots,X_n)$ ,前 $k$ 阶总体矩 $\bm{\mu}(\bm{\theta})=(\mu_1(\bm{\theta}),\mu_2(\bm{\theta}),\cdots,\mu_k(\bm{\theta}))$ .于是矩估计的步骤为:

反解出 $\bm{\theta}=\bm{\theta}(\bm{\mu})$
待估参数的矩估计量为:
$\bm{\bm{\theta}}=\bm{\theta}(\bm{\mu}=\bm{A})$

因此,在例16.1中,如果我们用矩估计法做点估计,应当采用样本1阶矩来估计 $\lambda$ ,即样本均值.

矩估计中,取样本矩的数量 $k$ 取决于待估参数的数量,并且应当尽量取前 $k$ 阶样本矩,原因是阶数越小,估计效果越好.这一点会在下一堂课介绍.

例16.2

设总体 $X\sim \mathrm{Exp}(\lambda)$ ,即 $f(x)=\lambda e^{-\lambda x}$ . $X_1,X_2,\cdots,X_n$ 为总体的一个样本,求参数 $\lambda$ 的矩法估计量.

解:

总体的一阶矩:

\mu_1=\mathrm{E}(X)=\frac{1}{\lambda}

反解得到:

\lambda=\frac{1}{\mu_1}

于是参数的矩估计为:

\hat{\lambda}=\frac{1}{A_1}=\frac{1}{\bar{X}}

例16.3

证明:若总体的期望 $\mu$ 于方差 $\sigma^2$ 均存在,则它们的矩估计量分别为:

\hat{\mu}=\bar{X}\\\hat{\sigma^2}=\frac{n-1}{n}S^2=S_n^2

解:

总体的前2阶矩:

\begin{cases} \mu_1=\mathrm{E}(X)=\mu\\ \mu_2=\mathrm{E}(X^2)=\mathrm{Var}(X)+\mathrm{E}^2(X)=\sigma^2+\mu^2\end{cases}

反解得到:

\begin{cases} \mu=\mu_1\\ \sigma^2=\mu_2-\mu_1^2\end{cases}

用样本矩代替总体矩即得到对应矩估计.

例16.3

设总体 $X\sim U(a,b)$ ,取样本为 $X_1,X_2,...,X_n$ ,求参数 $a,b$ 的矩估计量.

解:

可验证矩估计量为:

\begin{cases} \hat{a}=A_1-\sqrt{3(A_2-A_1^2)}=A_1-\sqrt{3B_2}\\ \hat{b}=A_1+\sqrt{3(A_2-A_1^2)}=A_1+\sqrt{3B_2}\end{cases}

16.4 最大似然估计法

直觉告诉我们,一次试验就出现的事件有较大的概率.譬如,现有两个箱子,各放100个球.一个箱子里99个红球,1个白球;另一个箱子里1个红球,99个白球.现从某个箱子中拿出一个球,结果取得白球,那么是从哪个箱子里取的球呢?显然,更可能是从那个99个白球的箱子里取的球.

类似的,对于手头的样本,我们可以考虑连续变换待求参数 $\bm{\theta}$ ,使得从总体中抽出这样的样本的概率取最大值,那么对应的参数可以认为是对真值的一个好的估计.

最大似然估计:

用得到对应样本观测值的概率作为待求参数的似然函数,通过求似然函数的最大值来解出对应的参数估计值.

定义似然函数 $L(\bm{x},\bm{\theta})$ :
- 对离散型随机变量 $X$ ,设分布律为 $P(X=x)=p(x,\theta),x=u_1,u_2,...,\bm{\theta}\in\Theta$ ,则似然函数为简单随机样本 $X_1,X_2,\cdots,X_n$ 的联合分布:
$L(\bm{x},\bm{\theta})=P(X_1=x_1,X_2=x_2,...,X_n=x_n)=\prod_{i=1}^np(x_i,\bm{\theta})$
- 对连续型随机变量 $X$ ,设密度函数为 $f(x,\bm{\theta})$ ,则似然函数定义为:
$L(\bm{x},\bm{\theta})=\prod_{i=1}^nf(x_i,\bm{\theta})$
最大似然法(Maximum Likelihood Estimation,MLE):
$\hat{\bm{\theta}}(\bm{x})=\argmax{L(\bm{x};\bm{\theta})}$
称为参数 $\bm{\theta}$ 的最大似然估计值,称统计量 $\hat{\bm{\theta}}=\hat{\bm{\theta}}(\bm{X})$ 为参数 $\bm{\theta}$ 的最大似然估计量.
若 $L(\bm{x},\bm{\theta})$ 关于 $\bm{\theta}$ 可微,则称:
$\frac{\partial}{\partial \theta_r}L(\bm{x},\bm{\theta})=0,r=1,2,...,k$
为似然方程组, $\frac{\partial}{\partial \theta_r}\log L=0$ 为对数似然方程组. $\argmax L$ 的求解即求解上述方程组.

例16.4

设总体 $X$ 服从0-1分布,且 $P(X=1)=p$ ,用最大似然法求 $p$ 的估计值.

解:

设 $x_1,x_2,...,x_n$ 为总体样本 $X_1,X_2,...,X_n$ 的观测值,则得到该样本的概率为:

P(X_1=x_1,X_2=x_2,...,X_n=x_n)=\prod_{i=1}^nP(X_i=x_i)=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i}\equiv L(p)

对不同的 $p$ , $L(p)$ 不同,取使得 $L(p)$ 取得最大值:

\hat{p}=\argmax{L(p)}

又,由于 $\log$ 单调增,有:

\hat{p}=\argmax{\log{L(p)}}

于是:

\left.\frac{d}{dp}\log{L(p)}\right|_{p=\hat{p}}=\frac{\sum_{i=1}^nx_i}{\hat{p}}-\frac{n-\sum_{i=1}^nx_i}{1-\hat{p}}=0\\\Longrightarrow \hat{p}=\frac{1}{n}\sum_{i=1}^nx_i=\bar{x}

所以, $\hat{p}=\bar{x}$ 是 $p$ 的最大似然估计值,它刚好也是这个问题的矩估计值.

例16.5

设总体 $X\sim N(\mu,\sigma^2)$ ,取样本为 $X_1,X_2,...,X_n$ ,求 $\mu,\sigma^2$ 的最大似然估计量.

解:

可以求得:

\begin{cases} \hat{\mu}=\bar{x}\\ \hat{\sigma^2}=\bar{x^2}-(\bar{x})^2\end{cases}

结果和矩估计一样.

例16.6

设总体 $X\sim U(a,b)$ ,取样本为 $X_1,X_2,...,X_n$ , $a,b$ 的最大似然估计量.

解:

似然函数:

L(a,b)=\begin{cases} \frac{1}{(b-a)^n},&a\leq \min{x_i}\leq\max{x_i}\leq b\\ 0,&其他\end{cases}

当 $a=\min{x_i},b=\max{x_i}$ 时, $L(a,b)$ 最大,所以:

\hat{a}=\min{X_i},\hat{b}=\max{X_i}

该结果和矩估计不一样!

16.5 最小二乘估计

历史悠久;
计算高效;
估计量是样本的线性组合,复杂性可控;
本节课不展开,在线性回归中进一步讨论.

L17 点估计的评价

回忆点估计:构造统计量 $\hat{\theta}(X_1,X_2,...,X_n)$ ,以其观测值作为待估参数的近似值.点估计中,最重要的步骤就是估计量的选择（构造）,这一构造的好坏即对于点估计的评价.

17.1 评价标准

对于同一个未知参数,不同方法得到的估计量可能不同,于是提问:

应该选哪种估计量?
用什么标准评价一个估计量的好坏?

预告:标准与数字特征紧密相关:

无偏性—数学期望
有效性—方差
相合性—依概率收敛

17.2 相合性

相合性(consistency),又称一致性

相合性

设 $\hat{\theta}(X_1,X_2,...,X_n)$ 是总体参数 $\theta$ 的估计量,若

\forall \theta \in \Theta(\hat{\theta}\stackrel{P}{\longrightarrow}\theta)

则称 $\hat{\theta}$ 为 $\theta$ 的相合估计量.

这里由于 $\hat{\theta}$ 实际上依赖于样本容量 $n$ ,所以可以把 $\hat{\theta}_n$ 看作随机变量序列,因而相合性实际要求 $\hat{\theta}_n\stackrel{P}{\longrightarrow}\theta$ .相合性是好的估计量的基本要求.如果相合性不符合,即使样本容量 $n$ 再大,都无法将估计量估计得足够精确.

相合性判定的原始判定(依概率收敛)涉及概率取极限,比较复杂,这里有利用期望和方差的简化版本(前提:两者均存在).这一定理利用了:我们所期望收敛的随机变量 $\theta$ ,即总体的参数,其实是一个恒定的常数.

定理(相合性判定)

设 $\hat{\theta}(X_1,X_2,...,X_n)$ 是总体参数 $\theta$ 的估计量,若

\lim_{n\rightarrow \infty}\mathrm{E}(\hat{\theta}_n)=\theta,\lim_{n\rightarrow\infty}\mathrm{Var}(\hat{\theta}_n)=0

则 $\hat{\theta}$ 是 $\theta$ 的相合估计量.

这两个条件看上去还是不够紧凑,我们可以定义均方误差(mean-square error,MSE),把这两者合二为一

其实灵感来源就是: $(x-a)^2+(y-b)^2=0 \Leftrightarrow x=a,y=b$

均方误差(mean-square error,MSE)

\mathrm{MSE}(\hat{\theta}_n)\equiv \mathrm{E}[(\hat{\theta}_n-\theta)^2]=\mathrm{Var}(\hat{\theta}_n)+[\mathrm{E}(\hat{\theta}_n)-\theta]^2

于是相合性判定的定理条件可以写成:

\lim_{n\rightarrow\infty}\mathrm{MSE}(\hat{\theta}_n)=0

类似地,相合估计量的函数也对应具有相合性:

函数的相合性

若 $\hat{\theta}_{1n},\hat{\theta}_{2n},...,\hat{\theta}_{kn}$ 分别是 $\theta_1,\theta_2,...,\theta_k$ 的相合估计量,且 $\eta=g(\theta_1,\theta_2,...,\theta_k)$ 为连续函数,则 $\hat{\eta}=g(\hat{\theta}_{1n},\hat{\theta}_{2n},...,\hat{\theta}_{kn})$ 是 $\eta$ 的相合估计量.

例17.1

设 $X_1,X_2,...,X_n$ 是抽样自总体 $X\sim U(0,\theta)$ 的样本.证明 $\theta$ 的最大似然估计量是相合估计量.

解:

上一节中证明了, $\theta$ 的最大似然估计量为 $\hat{\theta}_n=\max(X_1,X_2,...,X_n)$ ,设其分布函数为 $F_{\hat{\theta}_n}(x)$ ,由次序统计量相关知识可知,

F_{\hat{\theta}_n}(x)=\left(\frac{x}{\theta}\right)^nI(0<x<\theta)

则概率密度函数为

f_{\hat{\theta}_n}(x)=\frac{n}{\theta}\left(\frac{x}{\theta}\right)^{n-1}I(0<x<\theta)

于是容易算出

\mathrm{E}(\hat{\theta}_n)=\int xf_{\hat{\theta}_n}(x)dx=\frac{n}{n+1}\theta\\\mathrm{Var}(\hat{\theta}_n)=\int (x-\mathrm{E}(\hat{\theta}_n))^2f_{\hat{\theta}_n}(x)dx=\frac{n}{(n+2)(n+1)^2}\theta^2

容易验证

\lim_{n\rightarrow \infty}\mathrm{E}(\hat{\theta}_n)=\theta,\lim_{n\rightarrow\infty}\mathrm{Var}(\hat{\theta}_n)=0

即 $\hat{\theta}_n$ 是 $\theta$ 的相合估计量.

17.3 无偏性

无偏性

称 $\hat{\theta}$ 是 $\theta$ 的无偏估计量,若

\mathrm{E}(\hat{\theta})\equiv\theta

对比相合性的定义,可见无偏性对于期望的要求比起相合性要更进一步,即要求无论样本容量 $n$ 是多少,估计量的期望总等于均值.(当然,我们没法要求每次从样本得到的估计量总等于真值)

样本均值 $\bar{X}$ 是总体期望 $\mathrm{E}(X)$ 的无偏估计量.
样本二阶原点矩 $A_2=\frac{1}{n}\sum_{i=1}^nX_i^2$ 是总体二阶原点矩 $\mu_2=\mathrm{E}(X^2)$ 的无偏估计量.
$S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2$ 是总体方差 $\mathrm{Var}(X)$ 的无偏估计量.
$S_n^2=\frac{n-1}{n}S^2$ 是总体方差 $\mathrm{Var}(X)$ 的渐进无偏估计量.

目前已经引入了"相合",“无偏”,"渐进无偏"三个概念,它们之间的推断关系是微妙的:

仅有渐进无偏性不能推出相合性.17.2中的相合性判定定理,实际上说的就是:
$渐进无偏估计+方差趋于零→相合估计$
无偏只对期望做要求,因而不能推出相合(反例:考虑分布为"双峰型"的无偏估计,它的方差并不趋于0,因而不相合)
只有期望存在,相合才可以推出渐进无偏(即相合性判定定理的逆定理)

可见,相合性与无偏性两者描述的范围有交集,但也有彼此的侧重点,没有包含关系.

例17.2

设 $X_1,X_2,...,X_m$ 是抽样自总体 $X\sim U(n,p)$ 的样本, $n>1$ ,求 $p^2$ 的无偏估计量.

解:

样本的前二阶矩为

A_1\equiv\mathrm{E}(\bar{X})=np\\A_2\equiv\mathrm{E}\left(\frac{1}{m}\sum_{i=1}^mX_i^2\right)=\mathrm{E}(X^2)=(n^2-n)p^2+np

于是

\begin{aligned} p^2 &=\frac{1}{n^2-n}\left[\mathrm{E}\left(\frac{1}{m}\sum_{i=1}^mX_i^2\right)-\mathrm{E}(\bar{X})\right]\\ &=\mathrm{E}\left[\frac{1}{(n^2-n)m}\sum_{i=1}^mX_i(X_i-1)\right]\end{aligned}

也就是说, $p^2$ 的无偏估计量可以为

\hat{p^2}=\frac{1}{(n^2-n)m}\sum_{i=1}^mX_i(X_i-1)

17.4 有效性

有效性

设 $\hat{\theta}_1(X_1,X_2,...,X_n),\hat{\theta}_2(X_1,X_2,...,X_n)$ 都是总体参数 $\theta$ 的无偏估计量,且 $\mathrm{Var}(\hat{\theta}_1)<\mathrm{Var}(\hat{\theta}_2)$ ,则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 更有效.

一致最小方差无偏估计(UMVUE)

如果一个估计量比任何其他估计量都有效,则称之为一致最小方差无偏估计(uniformly minimum variance unbiased estimator,UMVUE)

有趣的是,关于无偏估计的方差下界确有定理:

定理(Cramer-Rao下限)
$L(X;\theta)$ 是带参数 $\theta$ 的总体 $X$ 的似然函数.任何 $\theta$ 的无偏估计量 $\hat{\theta}_n$ 满足:

\mathrm{Var}(\hat{\theta}_n)\geq \frac{1}{n\mathrm{E}\left(\frac{\partial \log{L(X;\theta)}}{\partial\theta}\right)}

达到Cramer-Rao理论极限的估计量称为有效估计量.

以下结论是最大似然估计量应用的理论支撑,证明较难,不做细致讨论了.

如果参数存在有效无偏估计量,那么它一定是最大似然估计量;
一般情况下,最大似然估计量是相合(一致)的;
最大似然估计量渐进服从正态分布.

例17.3

设 $X_1,X_2,...,X_n$ 是取自某总体的样本,记总体均值和方差分别为 $\mu,\sigma^2$ . $\mu$ 的两个估计量分别定义为 $\hat{\mu}_1\equivX_1,\hat{\mu}_2\equiv\bar{X}$ ,哪个估计量更有效？

解:

容易发现两者均无偏,而

\mathrm{Var}(\hat{\mu}_1)=\sigma^2,\mathrm{Var}(\hat{\mu}_2)=\frac{\sigma^2}{n}

$n>1$ 时 $\mathrm{Var}(\hat{\mu}_1)>\mathrm{Var}(\hat{\mu}_2)$ ,因而 $\hat{\mu}_2$ 更有效.

上例给我们的启示:

用全部数据的平均估计总体均值要比只使用部分数据更有效;
数据积累,估计量的方差越来越小,参数越来越精确,相应地信息量越来越大.

17.5 例:最小二乘估计

**最小二乘估计法(Least Square Method,LSE)**是自古以来最广泛采用的参数估计法之一,源于天文学和测地学的应用.
当总体分布的函数形式并不严格知道,无法进行最大似然估计时,运用最小二乘法往往十分方便.
由Gauss和Legendre在同一时代发现.

假设某个随机变量 $Y$ 与 $X$ 和未知参数 $\theta$ 有关:

Y=f(X;\theta)

为了估计参数 $\theta$ ,在 $X$ 的不同取值 $x_1,x_2,...,x_n$ 测量 $Y$ ,得到对应的测量值 $y_1,y_2,...,y_n$ .然后用函数 $y=f(x,\theta)$ "拟合"数据。直观来说,如果得到的"拟合"曲线与每个数据点距离越小,则该曲线所对应的参数越好.

这一"数据拟合"过程的常用实现方法就是最小二乘法,即取使得

\chi^2(\theta)\equiv\sum_{i=1}^N[y_i-f(x_i;\theta)]^2

达到最小值的 $\hat{\theta}$ 作为估计量.

若在不同 $x_i$ 处得到的 $y_i$ 精度不同,假设 $y_i$ 的方差为 $\sigma_i^2$ ,则 $\chi^2(\theta)$ 定义为:

\chi^2(\theta)\equiv\sum_{i=1}^N\frac{[y_i-f(x_i;\theta)]^2}{\sigma_i^2}

$y_i$ 经常近似服从正态分布,那么 $\chi^2(\theta)$ 近似服从卡方分布.

在 $Y$ 服从指数族分布(泊松,伽马,正态,二项等)的前提下,其参数估计的迭代重加权最小二乘法等价于最大似然法.

实验物理学家的三个境界:

不管随机变量分布→无脑最小二乘
重视随机变量分布→无脑最大似然
理解参数估计理论,上过概率统计分析与量测技术→批判地选择最有效的方法

概率统计分析与量测技术笔记

L1 课程介绍,随机事件

L2 概率定义与解释

L3 条件概率与独立事件

L4 随机变量与分布

L5 连续性随机变量

L6 随机变量的函数

6.1 伽马分布

伽马分布定义

伽马分布性质

与泊松分布共轭

R语言绘图

6.2 卡方分布

卡方分布定义

卡方分布的构造

R语言绘图

6.3 贝塔分布

贝塔分布定义

贝塔分布性质

与二项分布共轭

R语言绘图

6.4 柯西分布和朗道分布

柯西分布

朗道分布

6.5 随机变量小结

6.6 随机变量的函数分布

离散型随机变量的函数分布

连续型随机变量的函数分布

L7 二维随机变量

L8 二维随机变量函数

8.1 二维正态分布

二维正态分布的定义

特征量的含义

多维伽马分布调研作业(选做,总评至多+15%)

8.2 随机变量函数的分布

一般情形下的变换

增补变量法

8.3 X+YX+YX+Y

8.4 Y/X,XYY/X,XYY/X,XY

8.5 min⁡{X,Y}\min\{X,Y\}min{X,Y}和max⁡{X,Y}\max\{X,Y\}max{X,Y}

L9 数学期望

9.1 数学期望

数学期望定义

常见分布的期望

9.2 随机函数的数学期望

9.3 期望的性质

9.4 例子

L10 协方差

10.1 方差

方差的定义

方差的性质

常见随机变量分布的方差

一个例子

10.2 全方差公式

10.3 协方差

协方差的定义

协方差的性质

协方差矩阵

10.4 其他数字特征

原点矩、中心矩

混合矩

基于矩的其他数字特征

L11 大数定律

11.1 大数定律

辛钦大数定律

伯努利大数定律

11.2 切比雪夫不等式

切比雪夫不等式及证明

切比雪夫不等式到大数定律

11.3 特征函数

特征函数及其性质

常见分布的特征函数

从特征函数到辛钦大数定律

L12 中心极限定理

12.1 中心极限定理

12.2 中心极限定理的证明

12.3 李雅普诺夫

12.4 马尔可夫

L13 蒙特卡洛方法

L13.5 指数分布族

8.3 $X+Y$

8.4 $Y/X,XY$

8.5 $\min\{X,Y\}$ 和 $\max\{X,Y\}$

$\chi^2$ 分布