爱尔兰海的地理和测深显示了利物浦的位置。斯莫尔斯灯塔、米尔福德港和圣大卫角(来源:CC BY-SA 3.0下的维基媒体)
爱尔兰海填满了爱尔兰和英国之间的陆地盆地。它包含地球上最浅的海水之一。在一些地方,水深仅达到40米,甚至距离海岸线30英里。地表下还潜伏着大片的沙洲,等待着诱捕这艘不幸的船,其中有很多。通常,一艘挣扎的船会垂直下沉,船上的乘客会直接下沉,然后被困在沙子里,直立在海床上,桅杆的顶部在水线以上清晰可见——这是人类悲剧的可怕标志,位于水面以下30米处。这就是鹈鹕号的命运,她于 1793 年 3 月 20 日在利物浦港内沉没,距离海岸线仅一箭之遥。
爱尔兰海的地理环境也使它容易受到不知从哪里来的强风暴的影响,并以惊人的突然性和对您可能拥有的任何航海经验的傲慢无视让您感到惊讶。在风的轻微鼓励下,海洋的浅水会盘绕成来势汹汹的高耸波浪,并产生巨大的令人眼花缭乱的不透明浪花。稍有判断力或运气的失误,爱尔兰海的风、海和沙子就会使你的船搁浅或带来更糟糕的命运。可悲的是,尼姆罗德只是散落在爱尔兰海海底的数百艘此类沉船之一。
一架皇家空军直升机在爱尔兰海的一场风暴中帮助了一艘法国渔船阿尔夫(LS683637)。(来源:维基媒体,许可OGL v1.0)
按理说,多年来,爱尔兰海已成为地球上研究最深入、监测最严密的水体之一。从不同深度的海水温度,到地表风速,到海水的碳化学成分,再到商业鱼类的分布,英国和爱尔兰政府密切关注数百个海洋参数。数十个海上浮标、测量船和卫星全天候收集数据,并将其输入到复杂的统计模型中,这些模型自动、不知疲倦地运行,吞噬了数千次测量,并对未来几天的海况进行了预测——这些预测使爱尔兰海的航运在很大程度上是安全的。
正是在如此丰富的数据中,我们将研究随机变量的统计收敛的概念。具体来说,我们将研究以下四种类型的收敛:
分布趋同概率收敛均值收敛几乎可以肯定收敛
在四种类型的收敛之间,存在一定的层次结构,概率收敛意味着分布收敛,均值收敛和几乎确定收敛独立意味着概率收敛。
要理解四种类型的收敛中的任何一种,了解随机变量序列的概念是很有用的。这让我们回到了尼姆罗德离开利物浦的旅程。
三、随机变量序列
很难想象还有什么情况比宁录所经历的更有利于灾难的发生。她的沉没是看似无休止的不幸游行的不可避免的后果。如果她的引擎没有出现故障,或者莱尔船长没有找到拖船,或者他选择了不同的避难港,或者风暴没有变成飓风,或者海浪和岩石没有把她打碎,或者救援人员设法到达了受灾的船。假设似乎行进到遥远地平线上的某个点。
尼姆罗德的航行——无论是一次成功前往科克的旅程,还是安全到达许多可能的避难港之一,或者是全副武装地沉没,或者任何其他可能性,只受到你允许自己扭曲想象力的程度的限制——都可以用许多可能的事件序列中的任何一个来表示。在 1860 年 2 月 25 日上午和 1860 年 2 月 28 日上午之间,恰好有一个序列实现了——这个序列将以一种不健康的痛苦结局结束。
如果你允许自己以这种方式看待宁录命运的现实,你可能会发现值得你花时间将她的旅程表示为一个漫长的、理论上无限的随机变量序列,序列中的最后一个变量代表宁录旅程可能结束的许多不同方式。
让我们将这个变量序列表示为 X_1、X_2、X_3,...,X_n。
在统计学中,我们将随机变量视为一个函数。就像任何其他函数一样,随机变量将值从域映射到范围。随机变量的域是执行随机实验产生的结果的样本空间。抛硬币的行为是随机实验的一个例子。这个随机实验产生的结果是正面和反面。这些结果产生离散样本空间{Heads, Tails},它可以形成一些随机变量的域。随机实验由一个或多个“设备”组成,当操作时,它们共同产生随机结果。硬币就是这样一种装置。设备的另一个例子是随机数生成器(可以是软件程序),它从样本空间 [0, 1] 输出一个随机数,与 {Heads, Tails} 相反,该随机数本质上是连续的,大小是无限的。随机变量的范围是一组值,这些值通常是您在所居住的物理世界中关心的事物的编码版本。例如,考虑序列 X_1、X_2、X_3,...,X_n 中的随机变量 X_3。让 X_3 指定 Lyall 船长为他的船固定(或不固定)拖曳的布尔事件。X_3 的范围可以是离散和有限集合 {0, 1},其中 0 可能意味着 Lyall 船长未能为他的船获得拖曳,而 1 可能意味着他成功地这样做了。X_3 的域是什么,或者序列其余部分的任何变量是什么?
在序列 X_1、X_2、X_3 中,...X_k,...,X_n,我们让每个 X_k 的域是连续样本空间 [0, 1]。我们还假设 X_k 的范围是一组值,这些值编码了 Nimrod 在从利物浦出发的旅程中理论上可能发生的许多不同事情。因此,变量 X_1、X_2、X_3,...,X_n 都是某个值 s ε [0, 1] 的函数。因此,它们可以表示为 X_1(s)、X_2(s)、X_3(s),...,X_n(s)。我们将做出额外的关键假设,即 X_n(s) 是序列中的最后一个(第 n 个)随机变量,它代表了可以认为 Nimrod 航行结束的多种不同方式。每当 's' 在 [0, 1] 中占据一个值时,X_n(s) 代表 Nimrod 航行结束的特定方式。
如何观察特定的值序列?当您从 [0, 1] 随机抽取 s 值时,将观察到这样的序列(又名实现或实现)。由于我们对 s 在区间 [0, 1] 上的分布方式一无所知,因此我们将寻求理由不足的原则来假设 s 均匀分布在 [0, 1] 上。因此,区间 [0, 1] 中 s 的实数值的无限不可数数中的每一个都是相等的概率。这有点像抛出一个无偏的骰子,它有无数个无限的面,然后选择它出现的值,作为你选择的 s 值。
不可数的无穷大和不可数的无限面骰子是你在奇怪的奇妙的实数世界中经常遇到的数学生物。
所以无论如何,假设你抛出这个奇妙的嵌合骰子,它以 [0, 1] s_a ε出现一些值。您将使用此值来计算序列中每个 X_k(s=s_a) 的值,该序列将生成 Nimrod 航行期间发生的事件。这将产生以下观察到的事件序列:
X_1(s=s_a)、X_2(s=s_a)、X_3(s=s_a),...,X_n(s=s_a)。
如果你再次抛骰子,你可能会得到另一个值 [0, 1] s_b ε,这将产生另一个可能的“观察到”序列:
X_1(s_b)、X_2(s_b)、X_3(s_b),...,X_n(s_b)。
就好像每次你抛出你的魔法骰子时,你都在产生一个新的宇宙,而在这个宇宙中,有一个新实现的随机变量序列的现实。让这个想法引起你的注意。我们将大量使用这个概念,同时在本文后面研究均值收敛原理,几乎可以肯定收敛。
同时,让我们把注意力转向了解最简单的收敛形式:分布收敛。
在下文中,我将主要删除参数 's' ,同时讨论随机变量。我不会说 X,而是简单地说 X。除非我另有说明,否则我们假设 X 总是作用于“s”。我们假设 's' 的每个值都是一个唯一概率宇宙的代理。
四、分布趋同
这是最容易理解的收敛形式。为了帮助我们理解,我将使用东大西洋部分地区以米为单位测量的表面波高度数据集。该数据由爱尔兰政府海洋研究所发布。这是 272,000 个波高的散点图,按纬度、经度索引,并在 2024 年 3 月 19 日测量。
让我们放大这个数据集的一个子集,它对应于爱尔兰海。
爱尔兰海的波浪高度(来源:海洋研究所))
现在想象一下,您从资助机构获得了一大笔资金,用于监测爱尔兰海的平均波高。假设您获得了足够的赠款来租用五个波高传感器。因此,您将传感器放置在爱尔兰海的五个随机选择的位置,从这些传感器收集测量值并取五个测量值的平均值。我们称之为平均 X_bar_5(将 X_bar_5想象成一个 X,头上有一个条形,下标为 5)。如果你在海上的其他五个随机地点重复这个“下降传感器-测量-计算-平均”的练习,你肯定会得到不同的平均波高。第三个这样的实验将为 X_bar_5 再产生一个值。显然,X_bar_5是一个随机变量。下面是 100 个此类 X_bar_5 值的散点图:
来自大小为 5 的样本的 100 个样本均值的散点图(图片来自作者)
为了获得这 100 个值,我所做的就是反复采样与爱尔兰海地理范围相对应的波高数据集。波浪高度数据库的此子集包含 11,923 个纬经度索引波高值,这些值对应于爱尔兰海的表面积。我从这组 11,923 个位置中随机选择了 5 个位置,并计算了该样本的平均波高。我重复了这个抽样练习 100 次(替换),得到 100 个 X_bar_5 值。实际上,我将 11,923 个地点视为人口。这意味着我作弊了一点。但是,嘿,你什么时候才能接触到任何东西的真实人口?事实上,对于这种自欺欺人的艺术,恰好有一个绅士化的词,即从本身就是随机样本中重复随机抽样。这称为引导。
由于 X_bar_5 是一个随机变量,我们还可以绘制其(经验定义的)累积分布函数 (CDF)。我们将绘制此 CDF,但不是 X_bar_5。我们将绘制 Z 的 CDF_bar_5其中 Z_bar_5 是 X 的标准化版本_bar_5通过从 X 的每个观测值中减去 100 个样本均值的平均值_bar_5并将差值除以 100 个样本均值的标准差而获得。这是 Z_bar_5 的 CDF:
(图片由作者提供)
现在假设你说服你的资助机构再支付 10 个传感器。因此,您将 15 个传感器放在海上的 15 个随机地点,收集它们的测量值并计算它们的平均值。我们称之为平均 X_bar_15。X_bar_15 也是一个随机变量,原因与 X_bar_5 相同。就像 X_bar_5 一样,如果你重复 100 次跌落传感器测量计算平均值实验,你会得到 100 个 X 值_bar_15从中你可以绘制其标准化版本的 CDF,即 Z_bar_15。这是这个 CDF 的图:
(图片由作者提供)
假设您的资金以惊人的速度增长。您租用了越来越多的传感器,并用 5、15、105、255 和 495 个传感器重复了跌落传感器-获取-测量-计算-平均值实验。每次,您都会绘制 X_bar_15、X_bar_105、X_bar_255 和 X_bar_495 的标准化副本的 CDF。因此,让我们看一下您绘制的所有 CDF。
X_bar_15、X_bar_105、X_bar_255 和 X_bar_495 标准化版本的 CDF(图片由作者提供)
我们看到了什么?我们看到 Z_bar_n 的 CDF 形状(其中 n 是样本数量)似乎收敛到标准正态随机变量 N(0, 1) 的 CDF——一个均值和单位方差为零的随机变量。我在右下角用橙色显示了它的 CDF。
在这种情况下,随着样本数量的增加,CDF 的收敛将持续不断,直到达到理论上无限的样本数量。当 n 趋于无穷大时,Z 的 CDF 看起来与 N(0, 1) 的 CDF 相同_bar_n。
随机变量序列的 CDF 与目标随机变量的 CDF 收敛的这种形式称为分布收敛。
分布收敛性定义如下:
如果满足以下条件,则称随机变量 X_1、X_2、X_3,...,X_n 的序列在分布上收敛到随机变量 X:
X_n 到 X 分布收敛的条件(图片由作者提供)
在上图中,F(X) 和 F_X(x) 是用于连续随机变量的累积分布函数的符号。f(X) 和 f_X(x) 是通常用于连续随机变量的概率密度函数的符号。顺便说一句,P(X) 或 P_X(x) 是用于离散随机变量的概率质量函数的符号。收敛原理适用于连续随机变量和离散随机变量,尽管在上图中,我已经为连续随机变量进行了说明。
分布的收敛性以简写形式表示如下:
X_n 在分布中收敛到 X(图片由作者提供)
在上面的表示法中,当我们说 X_n 收敛到 X 时,我们假设存在它前面的序列 X_1、X_2,...,X_(n-1)。在我们的波高情景中,Z_bar_n 的分布收敛到 N(0, 1)。
标准化样本均值在分布上收敛到标准正态随机变量 N(0, 1)(图片来自作者)
并非所有随机变量序列都会在分布上收敛到目标变量。但是随机样本的均值在分布上确实收敛。准确地说,标准化样本均值的 CDF 保证收敛于标准正态随机变量 N(0, 1) 的 CDF。这种铁定的保证是由中心极限定理提供的。事实上,中心极限定理很可能是分布收敛性最著名的应用。
尽管有像中心极限定理这样的超级明星客户端,但分布收敛实际上是一种相当弱的收敛形式。想一想:如果 X_n 在分布上收敛到 X,这意味着对于任何 x,小于或等于 x 的 X_n 观测值的分数对于 X_n 和 X 都是相同的。这是分布趋同给你的唯一承诺。例如,如果随机变量 X_1、X_2、X_3,...,X_n 的序列在分布上收敛到 N(0, 1),则下表显示了保证小于或等于 x = — 3, — 2, — 1, 0, +1, +2 和 +3 的 X_n 观测值的分数:
如果 X_1、X_2、X_3,...,X_n 在分布上收敛到 N(0,1),则 P(X_n ≤ x) (图片来自作者)
一种比分布收敛更强的收敛形式是概率收敛,这是我们的下一个主题。
五、概率收敛
在任何时间点,爱尔兰海的所有海浪都会表现出一定的海域平均波高。要知道这个平均值,你需要知道当时在海面上嬉戏的无数波浪的高度。显然不可能获得这些数据。因此,让我换一种说法:你永远无法计算出整个海域的平均波高。这个不可观测、不可计算的波高,我们表示为总体平均值μ。经过的暴风雨会增加μ而一段时间的平静会降低其价值。由于您无法计算总体均值μ,因此您能做的最好的事情就是找到一种方法来估计它。
估计μ的一种简单方法是测量爱尔兰海随机位置的波高并计算该样本的平均值。该样本均值 X_bar 可用作总体均值 μ 的工作估计值。但是它的估计有多准确呢?如果它的准确度不能满足您的需求,您能否以某种方式提高其准确性,例如通过增加样品的大小?概率收敛原理将帮助您回答这些非常实际的问题。
因此,让我们继续进行我们的思想实验,即使用一组有限的波高传感器来测量波高。假设您收集 100 个随机样本,每个样本有 5 个传感器,并计算每个样本的平均值。和以前一样,我们将用 X_bar_5 指定平均值。这里再次供我们回忆的是 X_bar_5 的散点图:
A scatter plot of 100 sample means from samples of size 5 (Image by Author)
这让我们回到了这个问题:X_bar_5 作为总体均值 μ 的估计有多准确?就其本身而言,这个问题是完全无法回答的,因为你根本不了解μ。但假设你知道μ的值是 1.20 米。该值恰好是与爱尔兰海相关的波高数据集子集中 11,923 次波高测量值的平均值,我非常方便地将其指定为“人口”。你会看到,一旦你决定要通过你的数据作弊,通常就无法阻止随之而来的道德滑坡。
所以无论如何,从你的 5 个浮标网络中,你已经收集了 100 个样本均值,而你恰好在你的后口袋里有 1.20 米的总体平均值来比较它们。如果您允许自己误差为 +/—10%(0.12 米),您可能想知道这 100 个样本均值中有多少落在 +/ — 0.12 米的μ范围内。下图显示了 100 个样本均值 w.r.t. 到总体平均值 1.20 米,以及两条阈值线表示 (1.20 — 0.12) 和 (1.20+0.12) 米:
大小为 5 的样本的 100 个样本均值的散点图。蓝色虚线表示假定的人口平均值为 1.2 米。红色虚线表示总体均值周围的公差带(图片来自作者)
在上图中,您会发现 100 个样本均值中只有 21 个位于 [1.08, 1.32] 区间内。因此,偶然发现 5 个波高测量值的随机样本,其平均值在您选择的 +/ — 10% 公差阈值内,概率仅为 0.21 或 21%。遇到这种随机样本的几率为 p/(1 — p) = 0.21/(1 — 0.21) = 0.2658 或大约 27%。这比一枚公平的硬币落在正面的几率还要糟糕——要糟糕得多!这时,您应该要求更多的钱来租用更多的传感器。
如果您的资助机构要求至少 10% 的准确率,那么还有什么比这更好的时机来向他们强调这些可怕的几率。并告诉他们,如果他们想要更好的赔率,或者在相同的赔率下获得更高的精度,他们需要停止紧绷,让你租用更多的传感器。
但是,如果他们要求您证明您的主张怎么办?在你向任何人证明任何事情之前,我们为什么不向自己证明呢?我们将使用以下样本量序列 [5, 15, 45, 75, 155, 305] 对数据集进行采样。为什么特别有这些尺寸?他们没有什么特别之处。这只是因为从 5 开始,我们将样本量增加了 10。对于每个样本量,我们将从波高数据库中随机选择 100 个波高值并进行替换。我们将计算并绘制由此找到的 100 个样本均值。这是 6 个散点图的拼贴画:
来自 100 个不同大小的 6 个随机样本的平均波高散点图。(图片由作者提供)
这些图似乎清楚地表明,当您调高样本数量时,位于阈值柱内的样本均值数量会增加,直到几乎所有样本均值都位于所选误差阈值内。
下图是可视化此行为的另一种方法。X 轴包含从 5 到 495 的样本数量,以 10 为步长,而 Y 轴显示每个样本数量的 100 个样本均值。
样本均值与样本量(图片由作者提供)
当样本数量增加到 330 左右时,样本均值已收敛到 1.08 至 1.32 米的置信精度,即在 1.2 米的 +/ — 10% 以内。
无论您选择的误差阈值有多小,样本均值的这种行为都会贯穿始终,换句话说,上图中两条红线形成的通道有多窄。在某个非常大(理论上是无限的)样本数量 n 时,所有样本均值都将位于您选择的误差阈值 (+/ — ε) 内。因此,在这种无症状样本量下,任何随机选择的这种样本的平均值在总体均值 μ 的 +/ — ε 以内的概率为 1.0,即绝对确定性。
样本均值到总体均值的这种特殊收敛方式称为概率收敛。
一般而言,概率收敛定义如下:
随机变量序列 X_1、X_2、X_3,...,X_n 在概率上收敛到某个目标随机变量 X,如果以下表达式对于任何正值 ε 成立,无论它有多小:
X_n 到 X 概率收敛的条件(图片由作者提供)
在速记形式中,概率收敛写如下:
X_n 在概率上收敛到 X(图片来自作者)
在我们的示例中,样本均值 X_bar_n 的概率收敛于总体均值 μ。
样本均值在概率上收敛于总体均值(图片由作者提供)
正如中心极限定理是分布收敛原理的著名应用一样,大数弱定律也是概率收敛的著名应用。
概率收敛性比分布收敛性“强”,因为如果随机变量 X_1、X_2、X_3,...,X_n 序列在概率上收敛到某个随机变量 X,那么它的分布也会收敛到 X。但反之亦然。
为了说明“反之亦然”的情况,我们将从统计学教科书非常喜欢的硬币、骰子和纸牌的土地上举一个例子。想象一下一个由 n 个硬币组成的序列,使得每个硬币都偏向于不同程度的尾面。序列中的第一枚硬币是如此无可救药的偏见,以至于它总是以反面的形式出现。第二枚硬币的偏向比第一枚硬币少一点,因此至少偶尔会以正面的形式出现。第三枚硬币的偏差程度甚至更小,依此类推。从数学上讲,我们可以通过创建一个伯努利随机变量 X_k 来表示第 k 个硬币来表示这种状态。X_k 的样本空间(和域)是 {Tails, Heads}。X_k 的范围是 {0, 1},分别对应于 Tails 和 Heads 的输入。第 k 个硬币上的偏差可以用 X 的概率质量函数表示_k如下所示:
k ε [1, ∞] 的 X_k PMF(图片来自作者)
很容易验证 P(X_k=0) + P(X_k = 1) = 1。因此,我们的 PMF 设计是合理的。您可能还想验证当 k = 1 时,项 (1 — 1/k) = 0,因此 P(X_k=0) = 1 且 P(X_k=1) = 0。因此,序列中的第一个硬币总是以反面的形式出现。当 k = ∞ 时,(1 — 1/k) = 1。这一次,P(X_k=0) 和 P(X_k=1) 都正好是 1/2,因此,序列中的无限第 1 个硬币是完全公平的硬币。正是我们想要的方式。
直观地看出,X_n 在分布上收敛到伯努利随机变量 X ~ 伯努利 (0.5),具有以下概率质量函数:
PMF of X ~ Bernoulli(0.5) (图片由作者提供)
事实上,如果绘制 X 的 CDF _n 的 n 递增序列,则会看到 CDF 收敛到伯努利 (0.5) 的 CDF。阅读下面从左上角到右下角的图。注意水平线如何越来越低,直到它在 y=0.5 处静止。
(图片由作者提供)
从图中可以看出,当 k(或 n)趋于无穷大时,X_n(或 X_k)的 CDF 收敛到 X ~ 伯努利 (0.5) 的 CDF。因此,序列 X_1、X_2、...、X_n 在分布上收敛到 X。但它的概率会收敛到 X 吗?事实证明,事实并非如此。像两种不同的硬币一样,X_n 和 X 是两个独立的伯努利随机变量。我们看到,当 n 趋于无穷大时,X_n 变成了一个完全公平的硬币。根据设计,X 总是表现得像一枚完全公平的硬币。但是随机变量的实现值 |X_n — X| 将始终在 0 和 1 之间反弹,因为两个硬币分别以反面 (0) 或正面 (1) 的形式出现。因此,观测值的比例 |X_n — X| 等于零的观测值总数 |X_n — X|永远不会收敛到 0。因此,不能保证满足以下概率收敛条件:
X_n 到 X 概率收敛的条件(图片由作者提供)
因此,我们看到,虽然 X_n 在分布上收敛到 X ~ 伯努利(0.5),但 X_n 在概率上肯定不会收敛到 X。
由于概率收敛是一种很强的收敛形式,因此有一些随机变量序列表达了更强的收敛形式。有以下两种类型的收敛:
均值收敛几乎可以肯定收敛
接下来我们将看均值收敛。
六、均值收敛
让我们回到宁录最后一次航行的无喜悦结果。从它离开利物浦到沉没在圣大卫角,尼姆罗德的生存机会不断下降,直到它真正沉没时达到零。假设我们把宁录的旅程看作是以下十二个事件的序列:
(1) 离开利物浦 → (2) 斯莫尔斯灯塔附近发动机发生故障 → (3) 未能固定拖曳→ (4) 驶向米尔福德港 → (5) 遇到暴风雨 → (6) 遇到飓风 → (7) 吹向圣大卫角 → (8) 锚失效 → (9) 帆被吹成碎片 → (10) 撞到岩石上 → (11) 被巨浪打成 3 块 → (12) 沉没
现在让我们定义一个伯努利(p)随机变量X_k。设 X_k 的域是一个布尔值,指示是否发生了从 1 到 k 的所有事件。设 X_k 的范围为 {0, 1},使得:
X_k = 0,表示 Nimrod 在到达岸边之前沉没或在岸边沉没。X_k = 1,表示宁录安全到达岸边。
让我们还将意义归因于与上述两个结果相关的概率,范围为 {0, 1}:
P(X_k = 0 |(k) ) 是 Nimrod 无法安全到达岸边的概率,因为事件 1 到 k 已经发生。
P(X_k = 1 |(k) ) 是 Nimrod 安全到达岸边的概率,因为事故 1 到 k 已经发生。
现在,我们将设计 X_k 的概率质量函数。回想一下,X_k 是一个伯努利 (p) 变量,其中 p 是 Nimrod 安全到达岸边的概率,因为事件 1 到 k 已经发生。因此:
P(X_k = 1 |(k) ) = p
当 k = 1 时,我们将 p 初始化为 0.5,表明当 Nimrod 离开利物浦时,它有 50/50 的机会成功完成旅行。当 k 从 1 增加到 12 时,我们将 p 从 0.5 均匀地降低到 0.0。由于 Nimrod 在 k = 12 时沉没,因此 Nimrod 成功完成旅程的可能性为零。对于 k > 12,p 保持 0。
鉴于此设计,X_k 的 PMF 如下所示:
X_k 的 PMF 描绘了 Nimrod 在离开利物浦的旅程中 (k) 里程碑中未来的生存机会。(图片由作者提供)
您可能需要验证当 k = 1 时,项 (k — 1)/12 = 0,因此 P(X_k = 0) = P(X_k = 1) = 0.5。对于 1 < k ≤ 11,项 (k — 1)/12 逐渐接近 1。因此,概率 P(X_k = 0) 逐渐增加,而 P(X_k = 1) 相应减弱。例如,根据我们的模型,当 Nimrod 被圣大卫头部的大浪分成三块时,k = 11。那时,她未来的生存机会是 0.5(1 — 11/12) = 0.04167 或仅 4%。
下面是 X_1 到 X_12 的 PMF 的一组条形图。从左上角到右下角阅读图。在每个图中,Y 轴表示概率,从 0 到 1。每个数字左侧的红色条代表宁录最终沉没的概率。
X_k的PMF(图片由作者提供)
现在,让我们使用以下 PMF 定义另一个伯努利随机变量 X:
X 的 PMF(图片由作者提供)
我们假设 X 独立于 X_k。因此,X 和 X_k 就像两枚完全不同的硬币,它们会出现彼此独立的正面或反面。
让我们再定义一个随机变量 W_k。 W_k 是 X_k 和 X 的观测值之间的绝对差值。
W= |X_k — X|
关于 W_k 的期望值,即 E(W_k),我们能说些什么?
E(W_k) 是 X_k 和 X 观测值之间绝对差值的平均值。E(W_k) 可以使用离散随机变量的期望值公式计算,如下所示:
的期望值 |X_k — X|(图片由作者提供)
现在让我们问一个问题,它是均值收敛原则的核心问题:
在什么情况下 E(W) 会为零?
|X_k — X| 作为绝对值永远不会是负数。因此,只有两种方式 E(|X_k — X|)如果出现以下情况,将为零:
对于 X_k 和 X 的每一对观测值,|X_k — X| 为零,或观察到任何非零值差异的概率为零。
无论哪种方式,在所有概率宇宙中,观测到的 X_k 和 X 值都需要完美地协同移动。
在我们的场景中,这种情况发生在 k ≥ 12 上。这是因为,当 k ≥ 12 时,Nimrod 沉没在圣大卫角,因此 X_12 ~ 伯努利(0)。这意味着 X_12 始终显示为 0。回想一下,X 是伯努利 (0) 的构造。所以它总是以 0 的形式出现。因此,对于 k ≥ 12,|X_k — X| 始终为 0,E(|X_k — X|)。
我们可以将这种情况表达如下:
X_k收敛于X的平均值(图片由作者提供)
根据我们的模型设计,上述条件从 k ≥ 12 开始满足,并且对所有 k 一直满足到无穷大。因此,当 k 趋于无穷大时,上述条件将得到微不足道的满足。
这种将随机变量序列收敛到目标变量的形式称为均值收敛。
您可以将均值收敛视为两个随机变量与其观测值完全同步的情况。
在我们的图中,X_k 的范围是 {0, 1},概率为 {(1— p), p},而 X_k 是一个伯努利随机变量。我们可以很容易地将均值收敛的概念扩展到非伯努利随机变量。
举例来说,设 X_1、X_2、X_3,...,X_n 是随机变量,每个变量都表示投掷唯一 6 面骰子的结果。设 X 表示投掷另一个 6 面骰子的结果。你首先扔一组(n+1)骰子。每个骰子都以独立于 1 到 6 的数字出现。在每组 (n+1) 抛出后,您观察到某些 X_1、X_2、X_3,...,X_n 的值与 X 的观测值匹配。其他人则没有。对于序列 X_1、X_2、X_3,...,X_n 中的任何 X_k,X_k 和 X 的观测值之间的绝对差值的期望值,即 |X_k — X|无论 n 有多大,显然都不是零。因此,序列 X_1、X_2、X_3,...,X_n 在均值上不收敛到 X。
然而,假设在某个奇异的宇宙中,你发现当序列 n 的长度趋于无穷大时,无限第 1 个骰子总是与 X 完全相同。无论你掷出多少次(n+1)骰子,你都会发现观察到的X_n和X的值总是相同的,但只有当n趋于无穷大时。所以期望值的差异 |X_n — X|收敛到零,因为 n 趋于无穷大。换言之,序列 X_1、X_2、X_3,...,X_n 在 X 的平均值上收敛。
均值收敛的概念可以扩展到第 r 个均值,如下所示:
设 X_1、X_2、X_3,...,X_n 是 n 个随机变量的序列。如果满足以下条件,则 X_n 收敛到 r 次平均值的 X,或收敛到 r 次幂范数的 L:
均值收敛(图片由作者提供)
要了解为什么均值收敛比概率收敛更能说明收敛性,您应该将后者视为仅对聚合计数进行陈述,而不是对随机变量的单个观测值进行陈述。要使序列 X_1、X_2、X_3,...,X_n 在概率上收敛到 X,只需要位于区间 [X — ε, X+ε] 内的 X_n 观测值数与 X_n 的观测值总数之比趋于 1,因为 n 趋于无穷大。概率收敛原理并不关心 X_n 的特定观测值的行为,特别是它们需要与 X 的相应观测值完美匹配。均值收敛的后一个要求比概率收敛的要求要强得多_n对 X 的要求要强得多。
就像均值中的收敛一样,还有另一种强烈的收敛味道,称为几乎肯定收敛,这就是我们接下来要研究的内容。
七、几乎可以肯定收敛
在文章的开头,我们研究了如何将 Nimrod 的航行表示为随机变量 X_1(s)、X_2(s),...,X_n(s) 的序列。我们注意到,像 X_1 这样的随机变量是一个函数,它将样本空间 S 的结果 s 作为参数,并将其映射到 X_1 范围内的某个编码版本的现实。例如,X_k(s) 是一个函数,它将连续实值区间 [0, 1] 中的值映射到一组值,这些值表示 Nimrod 航行期间可能发生的许多事件。每当从区间 [0, 1] 中分配一个随机值时,就会产生一个新的理论宇宙,其中包含一个已实现的值序列,该值代表了物质化海上航行的物理现实。
现在让我们再定义一个随机变量,称为 X(s)。X(s) 的范围是一组值,这些值编码了 Nimrod 的许多可能命运。在这方面,X(s) 的范围与 X_n(s) 的范围匹配,X(s) 是序列 X_1(s)、X_2(s),...,X_n(s) 中的最后一个随机变量。
每次从 [0, 1] 中分配一个随机值时,X_1(s),...,X_n(n) 都会获得一组已实现的值。X_n(s)所获得的值代表了宁录在那个宇宙中航行的最终结果。在这个宇宙中达到一个值也是 X(s)。但是 X(s) 获得的值可能与 X_n(s) 获得的值不同。
如果你把你的嵌合无限边骰子扔很多很多次,你就会产生大量的理论宇宙,从而产生大量的随机序列X_1(s)到X_n(s)的理论实现,以及X(s)的相应观测值集。在其中一些已实现的序列中,观察到的值 X_n(s) 将与相应 X(s) 的值匹配。
现在,假设您以越来越详细的细节对 Nimrod 的旅程进行建模,以便您用于模拟她的旅程的随机变量序列的长度“n”逐渐增加,直到在某个时候达到无穷大的理论值。在这一点上,你会注意到正在发生的两件事之一:
你会注意到,无论你掷骰子多少次,对于 s ε [0, 1] 的某些值,相应的序列 X_1(s)、X_2(s),...,X_n(s) 都不会收敛到相应的 X(s)。
或者,您会注意到以下内容:
您会观察到,对于 s ε [0, 1] 的每个值,相应的实现 X_1(s),X_2(s),...,X_n(s) 收敛到 X(s)。在每个实现的序列中,X_n(s)获得的值与X(s)获得的值完全匹配。如果这是您观察到的,那么随机变量 X_1、X_2,...,X_n 的序列几乎可以肯定已经收敛到目标随机变量 X。
几乎肯定收敛的正式定义如下:
如果满足以下条件,则几乎可以肯定的是,随机变量序列 X_1(s)、X_2(s),...,X(s) 已收敛到目标随机变量 X(s):
几乎可以肯定的是收敛(图片由作者提供)
在简写形式中,几乎可以肯定收敛写成如下:
几乎可以肯定的是收敛(图片由作者提供)
如果我们将 X(s) 建模为 p=1 的伯努利变量,即它总是出现某个结果,它可以带来一些发人深省的可能性。
假设我们定义 X(s) 如下:
(图片由作者提供)
在上面的定义中,我们说对于任何 s ε [0, 1] 时,X 的观测值始终为 0。
现在假设您使用序列 X_1(s)、X_2(s),...,X_n(s) 对随机过程进行建模。宁录的航行就是这种随机过程的一个例子。如果你能够证明,当 n 趋于无穷大时,序列 X_1(s)、X_2(s),...,X_n(s) 几乎可以肯定地收敛到 X(s),那么你实际上已经证明了,在每一个理论宇宙中,表示 Nimrod 航行的随机过程将收敛到 0。您可以根据需要生成任意数量的现实替代版本。它们都会收敛到一个完美的零——无论你希望这个零代表什么。现在有一个想法要咀嚼。