概率空间与随机变量(Probability Spaces & Random Variables)

注:如果你已经熟悉测度论下的概率定义,可以跳过本节。

我们现在深入探讨测度论下的概率定义,尝试在保持一定数学严谨性的前提下提供一些直觉理解。首先,我们来看“概率空间”的定义: 。 这和你在第一门概率课里学到的概念类似,只不过换上了更精确的数学形式。

  • 样本空间(sample space),定义了实验中所有可能的结果。
  • 在有限样本空间中, 的任何子集都被称为一个事件(event)。直觉上,事件就是我们想要对其测量概率的“对象群组”,比如 中的单个元素、元素的并集、甚至是空集。

然而,当样本空间是某些类型的无限集合(比如实数轴)时,这种事件定义方式会失效。因此我们需要用事件空间 (其中 表示幂集)来更精确地定义事件,事件空间的构造使用了所谓的 -代数(sigma-algebra)

-代数的定义

为非空集合, 是其子集的集合。我们称 -代数,如果满足:

  1. 空集 属于
  2. ,则其补集
  3. ,则它们的可数并集

-代数中的元素被称为可测集合(measurable sets),而 被称为可测空间(measurable space)。

我们希望事件空间 是一个 -代数,并与 一起构成一个可测空间。虽然这听起来复杂,但它确保了我们用于定义事件的 的子集具有我们期望的“良好”概率特性。

直观上,可测空间的作用是给“体积”或“大小”的概念提供一个一致的分割方式(类似用不重叠的积木构造出一个房子)。这在面对非可数集合时是必要的;而对于有限集合,一般使用幂集 就足够了。

然后是概率空间的最后一个组成部分:

概率测度(probability measure) 是一个函数,定义在事件空间 上,满足以下性质:

  1. 将事件映射到单位区间
  2. 空集映射为 ,全集 映射为
  3. 满足可数可加性(countable additivity):对于两两不交的事件集合

这三条就是我们在概率论中最基础的公理,这里只是把它们更加形式化了,尤其是最后一条,它通常没有在初学阶段以“无限集合”形式出现。

我们再来看“体积”类比下的解释:概率测度就相当于把“体积的块”映射到 ,但要保持一致性。得益于事件空间是 -代数,加上等式 (2.1) 的条件,我们就能确保无论如何组合这些“体积块”,概率测度都是一致的。对于有限样本空间,这些功能是显然的;但在连续样本空间中,就需要严谨定义。

最后,在给定的概率空间 中,我们定义:

随机变量(random variable) 1是一个可测函数(measurable function)

其中:

  1. 的值域 必须构成一个可测空间 ,即 上的 -代数;
  2. 对于任意 ,其原像集合:

也就是说, 的取值集合必须能被映射回原始事件空间中的某个事件,使得我们可以用 对其进行概率计算。

因此,对于任意 ,我们可以使用:

这个定义确保了我们可以把样本空间中那些本来没有“数值”意义的事件(例如“正面”或“反面”)映射为实数,用于计算期望、方差等量。

对于很多概率应用,上述内容可能“过于严谨”,大多数概率实践者只用得上一阶定义。但对于随机微积分而言,这些定义让我们有能力处理不可数的无限情况,是深入理解的重要基础。

例 1:样本空间、事件、概率测度与随机变量

(摘自维基百科

假设我们有一副标准的52张扑克牌(不含大小王),实验为从这组牌中随机抽取一张。此时:

  • 样本空间 是包含全部 52 张牌的集合;
  • 事件 的任意子集,即事件空间 ,即 的幂集。

这意味着事件可以是:

  • “同时是红色和黑色的牌”(0 个元素,空集)
  • “红桃5”(1 个元素)
  • “任意一张国王”(4 个元素)
  • “任意一张人头牌(J、Q、K)”(12 个元素)
  • “任意一张牌”(52 个元素,全集)

当每张牌被抽到的概率相同,我们可以为事件 定义一个概率测度:


我们还可以定义一个随机变量 为:

这个随机变量是一个从样本空间 到实数子集 的映射。我们可以使用公式 2.3 来计算对应的概率,例如 的概率为:

这个随机变量所蕴含的 -代数 可以表示为 。 这表明我们只需关心与 的取值相关的事件集合(这里是“红色或非红色”),这些集合构成一个满足 -代数性质的子集。

概率论的两个学习阶段

(灵感来源:[1] 第一章笔记)

概率论的学习通常分为两个阶段:

第一阶段 聚焦于离散随机变量(具有概率质量函数)和连续随机变量(具有密度函数)。在这一阶段中,我们学习如何从这些变量中计算期望、方差、条件概率等基本量,掌握一些标准分布的性质,并了解如变量变换等技巧。

这一阶段的知识已足以应对大多数标准应用,从基本的统计检验到似然函数计算。

第二阶段 则深入到以测度论为基础的严谨定义中。在该框架下,随机变量被视为从样本空间 映射到实数子集 的函数。样本空间中某些子集称为事件,所有事件组成 -代数 中的每个集合 都对应一个由概率测度 赋予的概率

这一定义优雅地统一了离散与连续情形,同时也揭示了第一阶段中许多定理背后的细节。 例如:随机变量不等于分布——同一个随机变量可根据不同的概率测度拥有不同的分布。又如,并非所有分布都拥有密度函数(尽管我们常见的多数分布都有)。正如应用数学中的许多情况一样,这种严谨定义在大多数实际问题中不是必需的,直到你遇到了极端情况(corner case)。同时,由于学习成本较高,多数人(包括本文作者)对其掌握到“令人满意的程度”即可。


  1. 我这里刻意省略了对 勒贝格积分(Lebesgue integrals)以及其他一些内容的提及,以避免使这个话题变得过于复杂。
    它们在数学上确实非常重要,特别是在处理需要对一个集合上进行积分的随机变量时,是必不可少的工具。