Chapter 5 大数定律及中心极限定理¶
约 1753 个字 预计阅读时间 9 分钟
大数定律¶
大数定律揭示了一些随机事件在大数条件下呈现出的稳定性。不论是独立重复试验下的事件发生频率(伯努利大数定律),还是随机变量序列的算术平均(辛钦大数定律),都能依概率收敛到一个稳定值(分别是概率和期望)。
依概率收敛¶
设 \(\{Y_n,n\geq1\}\) 为一随机变量序列,若对于 \(\forall\varepsilon>0\),均有 \(\lim_{n\to+\infty}P\{|Y_n-Y|\geq\varepsilon\}=0\)(或者 \(\lim_{n\to+\infty}P\{|Y_n-c|<\varepsilon\}=1\)),则称 \(\{Y_n,n\geq1\}\) 依概率收敛(Convergence in Probability) 于 \(Y\),记做 \(Y_n\xrightarrow{P} Y\;,\;\;n\to+\infty\)。
特别地,当 \(Y=c\) 为一常数时,称 \(\{Y_n,n\geq1\}\) 依概率收敛于常数 \(c\)。
- 这种收敛不是数学意义上的一般收敛,而是概率意义下的一种收敛;
- 其含义是:\(Y_n\) 对 \(Y\) 的绝对偏差不小于任何一个给定量的可能性随 \(n\) 的增大而越来越小;或者绝对偏差 \(|Y_n-Y|\) 小于任何一个给定量的可能性随 \(n\) 的增大时而越来越接近于 \(1\);
依概率收敛有如下重要性质:
若 \(X_n \xrightarrow{P} a\),\(Y_n \xrightarrow{P} b\),当 \(n\to+\infty\) 时,函数 \(g(x,y)\) 在点 \((a,b)\) 连续,则:
特别地,若 \(X_n \xrightarrow{P} a\),\(f(x)\) 在点 \(a\) 连续,则:
两个重要不等式¶
马尔可夫(Markov)不等式¶
若随机变量 \(Y\) 的 \(k\) 阶(原点)矩存在(\(k\geq1\)),即 \(E(Y^k)\) 存在,则对 \(\forall \varepsilon > 0\),均有:
特别地,当 \(Y\) 取非负值的随机变量且它的 \(k\) 阶矩存在时,有:
切比雪夫(Chebyshev)不等式¶
若随机变量 \(X\) 具有数学期望 \(E(X)=\mu\),方差 \(Var(X) = \sigma^2\),则对 \(\forall \varepsilon > 0\),均有:
- 切比雪夫不等式是马尔可夫不等式的推论;
- 切比雪夫不等式应用范围更广,但是计算结果更粗糙;
常见的几种大数定律¶
- 大数定律主要讨论什么条件下,随机变量序列的算术平均依概率收敛到一个稳定值(伯努利大数定律中的概率,辛钦大数定律中的均值)。
大数定律的一般形式¶
设 \(\{Y_i,i\geq1\}\) 为一随机变量序列,若存在常数序列 \(\{c_n,n\geq 1\}\),使得 \(\forall \varepsilon > 0\),均有:
成立,即有 \((\frac{1}{n}\sum\limits_{i=1}^{n}Y_i-c_n)\xrightarrow{P}0\;\;,\;\;n\to+\infty\),则称随机变量序列 \(\{Y_i,i\geq1\}\) 服从弱大数定理(Weak Law of Large Numbers),简称服从大数定律。
特别地,若 \(c_n\equiv c\) 无关,则可以写为:
关于服从大数定律,橙书给出的定义式是:
接下来给出几种常见的大数定律,它们的区别体现在条件上:有些是相互独立的随机变量,有些是相依的随机变量;有些是同分布的随机变量,有些是不同分布的随机变量。
辛钦(Khinchin)大数定律¶
设 \(\{X_i,i\geq 1\}\) 为独立同分布的随机变量序列,且数学期望为 \(\mu\),则对于 \(\forall\varepsilon>0\),有:
成立,即随机变量序列 \(\{X_i,i\geq 1\}\) 服从大数定律。
注意,辛钦大数定律的条件中,只要求期望存在,不要求方差存在。
此外,辛钦大数定律有如下推论:
推论
设 \(\{X_i,i\geq 1\}\) 为独立同分布的随机变量序列,若 \(h(x)\) 为连续函数,且 \(E(|h(X_1)|)<+\infty\),则对于 \(\forall\varepsilon>0\),有:
其中 \(a=E(|h(X_1)|)\),即随机变量 \(\{ h(X_i) , i \geq 1 \}\) 也服从大数定律。
伯努利(Bernoulli)大数定律¶
设 \(n_A\) 表示 \(n\) 重伯努利试验中事件 \(A\) 发生的次数,并记事件 \(A\) 在每次试验中发生的概率为 \(p\),则对于 \(\forall \varepsilon > 0\),有:
- 伯努利大数定律建立了在大量重复试验中事件出现频率的稳定性,正因为这种稳定性,概率的概念才有客观意义;
- 伯努利大数定律还提供了通过试验来确定事件概率的方法:既然频率 \(\frac{n_A}{n}\) 与概率 \(p\) 有较大偏差的可能性很小,因此可以通过做试验来确定某事件发生的频率,并把它作为相应的概率估计。这是一种参数估计法,该方法的重要理论基础之一就是大数定律。
马尔可夫大数定律¶
设 \(\lbrace X_i,i \geq 1 \rbrace\) 为一随机变量序列,若对所有的 \(i \geq 1\),\(X_i\) 的方差都存在,且 \(lim_{n \rightarrow +\infty} \frac{1}{n^2} Var(\sum\limits_{i=1}^{n} X_i) = 0\),则对 \(\forall \epsilon > 0\),有:
成立,即随机变量 \(\lbrace X_i,i \geq 1 \rbrace\) 服从大数定律。
切比雪夫大数定律¶
设 \(\lbrace X_i,i \geq 1 \rbrace\) 为相互独立的随机变量序列,若存在常数 \(C\),使得 \(Var(X_i) \leq C , i=1,2,...\),即所有的 \(X_i\) 的方差有共同的上界,则对 \(\forall \epsilon > 0\),有:
成立,即随机变量 \(\lbrace X_i,i \geq 1 \rbrace\) 服从大数定律。
推论
设 \(\lbrace X_i,i \geq 1 \rbrace\) 为相互独立的随机变量序列,若它们的方差存在且相同(记为 \({\sigma}^2\)),则随机变量 \(\lbrace X_i,i \geq 1 \rbrace\) 服从大数定律。
特别地(较常用,需要掌握),\(\lbrace X_i,i \geq 1 \rbrace\) 为相互独立的随机变量序列,且它们具有相同的期望 \(\mu\) 和相同的方差 \({\sigma}^2\),则 \(\frac{1}{n} \sum\limits_{i=1}^{n}X_i \xrightarrow{P} \mu \; , \; n \rightarrow +\infty\)。
中心极限定理¶
有许多随机变量,它们是由大量的相互独立的随机变量的综合影响所形成的,而其中每个个别因素的作用都很小。这种随机变量往往服从或近似服从正态分布,或者说它的极限分布是正态分布。中心极限定理正是从数学上论证了这一现象。
对于概率论与数理统计这门课程,我们只需要掌握独立同分布的中心极限定理(林德伯格-莱维中心极限定理)及其推论(二项分布的正态近似,即棣莫弗-拉普拉斯定理)即可。
独立同分布情形¶
林德伯格-莱维中心极限定理¶
设 \(\{X_i,i\geq 1\}\) 为独立同分布的随机变量序列,且 \(E(X_i)=\mu\;\;,\;\;Var(X_i)=\sigma^2\;\;(\sigma>0)\),则 \(\forall x\in \mathbf{R}\),有:
换句话来说,\(E(X_i)=\mu\;\;,\;\;Var(X_i)=\sigma^2\;\;(\sigma>0)\) 的独立同分布的随机变量序列的部分和 \(\sum\limits_{i=1}^{n}X_i\) 的标准化量近似于一个正态变量:
等价地,也可以写成如下形式:
或者
棣莫弗-拉普拉斯中心极限定理¶
棣莫弗-拉普拉斯中心极限定理是林德伯格-莱维中心极限定理的推论:
设 \(n_A\) 表示 \(n\) 重伯努利试验中事件 \(A\) 发生的次数,并记 \(P(A)=p\),则对于 \(\forall x\in\mathbf{R}\),均有:
也就是说,当 \(n\) 很大时,二项分布可以用正态分布去近似(期望与方差不变):
其中 \(n_A = \sum\limits_{i=1}^{n} X_i\)。
独立不同分布情形(不要求)¶
李雅普诺夫中心极限定理¶
设 \(\{X_i,i\geq 1\}\) 为相互独立的随机变量序列,且 \(E(X_i)=\mu_i\;\;,\;\;Var(X_i)=\sigma_i^2\;\;(\sigma>0)\),若 \(\exists\varepsilon>0\) 使得:
则有: