Introduction

这是一本概率统计进阶版本的知识点理解书籍，相关内容基于作者个人学习工作中的理解整理。各位读者如有相关问题和建议可以在相应的github库中以issue形式提交，作者欢迎各种批评指正，但鉴于个人时间有限，目前更新周期不定，请谅解。作者个人详情可登录作者的个人网站了解

Contributing

本电子书可以在作者的个人github上找到相关源码，社区维护依赖于issue，具体修正由作者本人管理操作。

License

本书开源代码和文档使用GPLv3协议，商业用途必须联系作者，否则自负相关法律责任。Copyright by 施华。

NO.1.tip: 条件期望

背景

许多故事的开始似乎总有那样的身影让我们似曾相识......

1800年代Francis Galton第一次用回归一词命名了一种朝向均值的现象模型，计量经济学中为了分析条件概率也常常使用其对应的一阶矩进行建模分析，这些数学模型在概率统计中拥有着一个共同的名字——条件期望。从经典的回归到计量经济学，从现在的深度学习到强化学习，它一直出现在每一个故事的许多角落，或开始、或中章、或结尾。下面让我们一起缓缓揭开条件期望的面纱。

首先，我们使用测度论中的Radon Nikodym定理给出条件期望的严格定义。设\( (X,\cal F,P) \)是一个概率空间，\( f \)是它上面积分存在的随机变量。又设\( \cal G \)是\( \cal F \)的子\( \sigma \)-域，即\( \cal G \)是一个\( X \)上的\( \sigma \)域，而且\( \cal G \subset \cal F\)。对每个\( A \in \cal G \)，令\[ \varphi(A) = \int_{A} f dp \] 易见\( \varphi \)是\( \cal G\)上的符号测度，它和限制在\( \cal G \)上的测度\( P \)之间有关系\( \varphi << P\)。因此，由Radon Nikodym定理知，存在\( (X,\cal F,P) \)上\( a.s. \)意义下唯一的可测函数\( E(f|\cal G) \)，使对每个\( A \in \cal F \)有\[ \varphi(A) = \int_{A} E(f|\cal G) dp \](这个可测函数之所以记为\( E(f|\cal G) \)，是因为它既与\( f \)有关，又与\( \cal G \)有关)。利用\( E(f|\cal G) \)的性质，可以把条件期望公理化地定义如下：

设\( f \)为概率空间\( (X,\cal F,P) \)上积分存在的随机变量。称\( E(f|\cal G) \)为\( f \)关于\( \cal F \)的子\( \sigma \)域\( \cal G \)的条件期望，如果
(1) \( E(f|\cal G) \)是\( (X,\cal F,P) \)上积分存在的可测函数；
(2) 对任何\( A \in \cal G \)，有\[ \int_{A} E(f|\cal G) dp = \int_{A} f dp \]

从通俗意义上理解，条件期望即是一种符号测度对一种测度的Radon Nikodym导数，而严格的Radon Nikodym导数定义如下：

设\( \varphi \)是测度空间\( (X,\cal F,\mu) \)上的符号测度。如果存在\( a.e. \)意义下唯一的可测函数使下式成立，则称\( f \)为\( \varphi \)对\( \mu \)的Radon Nikodym导数\[ \rho(A) = \int_{A} f d \mu \quad,\quad \forall A \in \cal F \]

从几何意义上理解，条件期望是\( X \)到\( L^{2} \)空间的一种正交投影算子，因此它也会具有正交投影的特殊性质：
(1) 正交投影算子可以有效地将向量从一个低维空间映射到另一个低维空间，而不会破坏其所表示的特征信息；
(2) 正交投影算子的作用是可逆的，双向投影结果完全一致。

条件期望正因它具有如此良好的性质，才让我们在许多场景中使用它来建模现实。那么，接下来问题来了，我们如何明确一个条件期望呢？换一个角度思考条件期望，比如\( E(X|Y) \)，在观察\( Y \)之前，并不知道\( E(X|Y=y) \)的值，所以条件期望本质上是一种随机变量。循着这个思路，我们知道，为了确定一个随机变量，我们往往需要对其概率分布建模，而在统计学中，我们通常会假设样本来自一个给定的\( f(X|\Theta) \)。我们将这样的函数称为概率密度函数，然后采用各种方法去估计参数\( \Theta \)。由此引出一个关键概念——估计量，对于这个估计量，有多种方法求得。常见的方法有矩估计、极大似然估计、贝叶斯估计和EM算法。

在此，故事已开始，精彩待纷呈。后续，我们会开始进入到估计量的四大估计方法的传奇旅程。

NO.2.tip: 矩估计

背景

矩法也许是最早的求点估计量的方法，至少可以追溯到19世纪末的KarlPearson。此法的优点是使用很简单，从而几乎总是可以求出估计值。尽管令人遗憾的是在很多情况下，矩法导出的估计量还需要改进，但是在其他方法难以实施的时候，它仍然不失为一个很好的工作起点。另外，它也可以作为其他需要循环几次的算法的初始值。

源与流

设\(X_{1},...,X_{n}\)是来\(f(x|\theta_{1},...,\theta_{n})\)为其概率密度函数的总体的样本。矩法估计量这样得到的：令前\(k\)阶的样本句子矩与相应的前\(k\)阶总体矩相等，这样就得到一个联立方程组，求解之，就得到矩统计量。更清楚地说，我们定义 \begin{cases} m_{1}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{'},\mu_{1}^{'}=EX^{'},\\ m_{2}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{2},\mu_{2}^{'}=EX^{2},\\ ...\\ m_{k}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{k},\mu_{k}^{'}=EX^{k}, \end{cases}

在典型的情况下，总体矩\(\mu_{j}^{'}\)是参数\(\theta_{1},...,\theta_{k}\)的一个函数，可以记作\(\mu_{j}^{'}\)。于是\((\theta_{1},...,\theta_{k})\)的矩法估计量\((\tilde{\theta_{1}},...,\tilde{\theta_{k}})\)就可以通过求解下面的关于\((\theta_{1},...,\theta_{k})\)的方程组 \begin{cases} m_{1} = \mu_{1}^{'}(\theta_{1},...,\theta_{k}),\\
m_{2} = \mu_{2}^{'}(\theta_{1},...,\theta_{k}),\\
...\\ m_{k} = \mu_{k}^{'}(\theta_{1},...,\theta_{k}),\\
\end{cases} 得到。

值得一提的是，在计量经济学的世界中，矩法已是大名鼎鼎的明星。它是工具变量法（Instrumental Variable,IV）和广义矩估计法（Generalized Moment Method,GMM）的基础。在矩估计法中关键是利用了由随机干扰项的条件均值零假设所推出的非条件零均值特性，以及随机干扰项各解释变量间同期不相关特性\[E(X_{i}^{'}\mu_{i})=0\]作为总体矩条件。如果某个解释变量与随机干扰项相关，只要能找到1个工具变量，仍然可以构成一组矩条件，这就是工具变量法。如果存在大于\(k+1\)个变量与随机干扰项不相关，可以构成一组包含大于\(k+1\)个方程的矩条件，这就是广义矩估计法。

概率统计100问