NO.1.tip: 条件期望

背景

  许多故事的开始似乎总有那样的身影让我们似曾相识......

  1800年代Francis Galton第一次用回归一词命名了一种朝向均值的现象模型,计量经济学中为了分析条件概率也常常使用其对应的一阶矩进行建模分析,这些数学模型在概率统计中拥有着一个共同的名字——条件期望。从经典的回归到计量经济学,从现在的深度学习到强化学习,它一直出现在每一个故事的许多角落,或开始、或中章、或结尾。下面让我们一起缓缓揭开条件期望的面纱。

源与流

  首先,我们使用测度论中的Radon Nikodym定理给出条件期望的严格定义。设\( (X,\cal F,P) \)是一个概率空间,\( f \)是它上面积分存在的随机变量。又设\( \cal G \)是\( \cal F \)的子\( \sigma \)-域,即\( \cal G \)是一个\( X \)上的\( \sigma \)域,而且\( \cal G \subset \cal F\)。对每个\( A \in \cal G \),令\[ \varphi(A) = \int_{A} f dp \] 易见\( \varphi \)是\( \cal G\)上的符号测度,它和限制在\( \cal G \)上的测度\( P \)之间有关系\( \varphi << P\)。因此,由Radon Nikodym定理知,存在\( (X,\cal F,P) \)上\( a.s. \)意义下唯一的可测函数\( E(f|\cal G) \),使对每个\( A \in \cal F \)有\[ \varphi(A) = \int_{A} E(f|\cal G) dp \](这个可测函数之所以记为\( E(f|\cal G) \),是因为它既与\( f \)有关,又与\( \cal G \)有关)。利用\( E(f|\cal G) \)的性质,可以把条件期望公理化地定义如下:

  设\( f \)为概率空间\( (X,\cal F,P) \)上积分存在的随机变量。称\( E(f|\cal G) \)为\( f \)关于\( \cal F \)的子\( \sigma \)域\( \cal G \)的条件期望,如果
  (1) \( E(f|\cal G) \)是\( (X,\cal F,P) \)上积分存在的可测函数;
  (2) 对任何\( A \in \cal G \),有\[ \int_{A} E(f|\cal G) dp = \int_{A} f dp \]

  从通俗意义上理解,条件期望即是一种符号测度对一种测度的Radon Nikodym导数,而严格的Radon Nikodym导数定义如下:

  设\( \varphi \)是测度空间\( (X,\cal F,\mu) \)上的符号测度。如果存在\( a.e. \)意义下唯一的可测函数使下式成立,则称\( f \)为\( \varphi \)对\( \mu \)的Radon Nikodym导数\[ \rho(A) = \int_{A} f d \mu \quad,\quad \forall A \in \cal F \]

  从几何意义上理解,条件期望是\( X \)到\( L^{2} \)空间的一种正交投影算子,因此它也会具有正交投影的特殊性质:
  (1) 正交投影算子可以有效地将向量从一个低维空间映射到另一个低维空间,而不会破坏其所表示的特征信息;
  (2) 正交投影算子的作用是可逆的,双向投影结果完全一致。

  条件期望正因它具有如此良好的性质,才让我们在许多场景中使用它来建模现实。那么,接下来问题来了,我们如何明确一个条件期望呢?换一个角度思考条件期望,比如\( E(X|Y) \),在观察\( Y \)之前,并不知道\( E(X|Y=y) \)的值,所以条件期望本质上是一种随机变量。循着这个思路,我们知道,为了确定一个随机变量,我们往往需要对其概率分布建模,而在统计学中,我们通常会假设样本来自一个给定的\( f(X|\Theta) \)。我们将这样的函数称为概率密度函数,然后采用各种方法去估计参数\( \Theta \)。由此引出一个关键概念——估计量,对于这个估计量,有多种方法求得。常见的方法有矩估计、极大似然估计、贝叶斯估计和EM算法。

  在此,故事已开始,精彩待纷呈。后续,我们会开始进入到估计量的四大估计方法的传奇旅程。