跳转至

Chapter 5 大数定律及中心极限定理

约 1753 个字 预计阅读时间 9 分钟

大数定律

大数定律揭示了一些随机事件在大数条件下呈现出的稳定性。不论是独立重复试验下的事件发生频率(伯努利大数定律),还是随机变量序列的算术平均(辛钦大数定律),都能依概率收敛到一个稳定值(分别是概率和期望)。

依概率收敛

\(\{Y_n,n\geq1\}\) 为一随机变量序列,若对于 \(\forall\varepsilon>0\),均有 \(\lim_{n\to+\infty}P\{|Y_n-Y|\geq\varepsilon\}=0\)(或者 \(\lim_{n\to+\infty}P\{|Y_n-c|<\varepsilon\}=1\)),则称 \(\{Y_n,n\geq1\}\) 依概率收敛(Convergence in Probability)\(Y\),记做 \(Y_n\xrightarrow{P} Y\;,\;\;n\to+\infty\)

特别地,当 \(Y=c\) 为一常数时,称 \(\{Y_n,n\geq1\}\) 依概率收敛于常数 \(c\)

  • 这种收敛不是数学意义上的一般收敛,而是概率意义下的一种收敛;
  • 其含义是:\(Y_n\)\(Y\) 的绝对偏差不小于任何一个给定量的可能性随 \(n\) 的增大而越来越小;或者绝对偏差 \(|Y_n-Y|\) 小于任何一个给定量的可能性随 \(n\) 的增大时而越来越接近于 \(1\)

依概率收敛有如下重要性质

\(X_n \xrightarrow{P} a\)\(Y_n \xrightarrow{P} b\),当 \(n\to+\infty\) 时,函数 \(g(x,y)\) 在点 \((a,b)\) 连续,则:

\[ g(X_n,Y_n) \xrightarrow{P} g(a,b) \;,\;\; n\to+\infty \]

特别地,若 \(X_n \xrightarrow{P} a\)\(f(x)\) 在点 \(a\) 连续,则:

\[ f(X_n) \xrightarrow{P} f(a) \;,\;\; n\to+\infty \]

两个重要不等式

马尔可夫(Markov)不等式

若随机变量 \(Y\)\(k\) 阶(原点)矩存在(\(k\geq1\)),即 \(E(Y^k)\) 存在,则对 \(\forall \varepsilon > 0\),均有:

\[ P \{ |Y| \geq \varepsilon \}\leq \frac{E(|Y|^k)}{\varepsilon^k} \;\; \text{or} \;\; P\{|Y|< \varepsilon\} \geq 1- \frac{E(|Y|^k)}{\varepsilon^k} \]

特别地,当 \(Y\) 取非负值的随机变量且它的 \(k\) 阶矩存在时,有:

\[ P\{Y\geq \varepsilon\} \leq \frac{E(Y^k)}{\varepsilon^k} \]

切比雪夫(Chebyshev)不等式

若随机变量 \(X\) 具有数学期望 \(E(X)=\mu\),方差 \(Var(X) = \sigma^2\),则对 \(\forall \varepsilon > 0\),均有:

\[ P\{ |X-\mu|\geq \varepsilon \} \leq \frac{\sigma^2}{\varepsilon^2} \;\; \text{or} \;\; P\{ |X-\mu|< \varepsilon \} \geq1- \frac{\sigma^2}{\varepsilon^2} \]
  • 切比雪夫不等式是马尔可夫不等式的推论;
  • 切比雪夫不等式应用范围更广,但是计算结果更粗糙;

常见的几种大数定律

  • 大数定律主要讨论什么条件下,随机变量序列的算术平均依概率收敛到一个稳定值(伯努利大数定律中的概率,辛钦大数定律中的均值)。

大数定律的一般形式

\(\{Y_i,i\geq1\}\) 为一随机变量序列,若存在常数序列 \(\{c_n,n\geq 1\}\),使得 \(\forall \varepsilon > 0\),均有:

\[ \lim_{n\to+\infty}P\{|\frac{1}{n}\sum\limits_{i=1}^{n}Y_i-c_n|\geq \varepsilon\}=0 \;\; \text{or} \;\; \lim_{n\to+\infty}P\{|\frac{1}{n}\sum\limits_{i=1}^{n}Y_i-c_n|< \varepsilon\}=1 \]

成立,即有 \((\frac{1}{n}\sum\limits_{i=1}^{n}Y_i-c_n)\xrightarrow{P}0\;\;,\;\;n\to+\infty\),则称随机变量序列 \(\{Y_i,i\geq1\}\) 服从弱大数定理(Weak Law of Large Numbers),简称服从大数定律

特别地,若 \(c_n\equiv c\) 无关,则可以写为:

\[ \frac{1}{n}\sum\limits_{i=1}^{n}Y_i \xrightarrow{P} c \;\;,\;\; n\to+\infty \]

关于服从大数定律,橙书给出的定义式是:

\[ \lim_{n\to \infty}P\big(\big|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i) \big|<\varepsilon\big)=1 \]

接下来给出几种常见的大数定律,它们的区别体现在条件上:有些是相互独立的随机变量,有些是相依的随机变量;有些是同分布的随机变量,有些是不同分布的随机变量。


辛钦(Khinchin)大数定律

\(\{X_i,i\geq 1\}\) 为独立同分布的随机变量序列,且数学期望为 \(\mu\),则对于 \(\forall\varepsilon>0\),有:

\[ \lim_{n\to+\infty}P\{|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\mu|\geq \varepsilon\}=0 \;\; \text{or} \;\; \frac{1}{n}\sum\limits_{i=1}^{n}X_i\xrightarrow{P}\mu\;\;,\;\;n\to+\infty \]

成立,即随机变量序列 \(\{X_i,i\geq 1\}\) 服从大数定律。

注意,辛钦大数定律的条件中,只要求期望存在,不要求方差存在。

此外,辛钦大数定律有如下推论

推论

\(\{X_i,i\geq 1\}\) 为独立同分布的随机变量序列,若 \(h(x)\) 为连续函数,且 \(E(|h(X_1)|)<+\infty\),则对于 \(\forall\varepsilon>0\),有:

\[ \lim_{n\to+\infty}P\{|\frac{1}{n}\sum^{n}_{i=1}h(X_i)-a|\geq\varepsilon\}=0 \;\; \text{or} \;\; \frac{1}{n}\sum\limits_{i=1}^{n}h(X_i)\xrightarrow{P}a\;\;,\;\;n\to+\infty \]

其中 \(a=E(|h(X_1)|)\),即随机变量 \(\{ h(X_i) , i \geq 1 \}\) 也服从大数定律。


伯努利(Bernoulli)大数定律

\(n_A\) 表示 \(n\) 重伯努利试验中事件 \(A\) 发生的次数,并记事件 \(A\) 在每次试验中发生的概率为 \(p\),则对于 \(\forall \varepsilon > 0\),有:

\[ \lim_{n\to+\infty}P\{|\frac{n_A}{n}-p|\geq \varepsilon\}=0 \;\; \text{or} \;\; \frac{n_A}{n} \xrightarrow{P} p \;\;,\;\; n\to+\infty \]
  • 伯努利大数定律建立了在大量重复试验中事件出现频率的稳定性,正因为这种稳定性,概率的概念才有客观意义;
  • 伯努利大数定律还提供了通过试验来确定事件概率的方法:既然频率 \(\frac{n_A}{n}\) 与概率 \(p\) 有较大偏差的可能性很小,因此可以通过做试验来确定某事件发生的频率,并把它作为相应的概率估计。这是一种参数估计法,该方法的重要理论基础之一就是大数定律。

马尔可夫大数定律

\(\lbrace X_i,i \geq 1 \rbrace\) 为一随机变量序列,若对所有的 \(i \geq 1\)\(X_i\) 的方差都存在,且 \(lim_{n \rightarrow +\infty} \frac{1}{n^2} Var(\sum\limits_{i=1}^{n} X_i) = 0\),则对 \(\forall \epsilon > 0\),有:

\[ \lim_{n \rightarrow +\infty} P \lbrace | \frac{1}{n} \sum\limits_{i=1}^{n}X_i - \frac{1}{n}E(X_i) | \geq \epsilon \rbrace = 0 \]

成立,即随机变量 \(\lbrace X_i,i \geq 1 \rbrace\) 服从大数定律。


切比雪夫大数定律

\(\lbrace X_i,i \geq 1 \rbrace\) 为相互独立的随机变量序列,若存在常数 \(C\),使得 \(Var(X_i) \leq C , i=1,2,...\),即所有的 \(X_i\) 的方差有共同的上界,则对 \(\forall \epsilon > 0\),有:

\[ \lim_{n \rightarrow +\infty} P \lbrace | \frac{1}{n} \sum\limits_{i=1}^{n}X_i - \frac{1}{n}E(X_i) | \geq \epsilon \rbrace = 0 \]

成立,即随机变量 \(\lbrace X_i,i \geq 1 \rbrace\) 服从大数定律。

推论

\(\lbrace X_i,i \geq 1 \rbrace\) 为相互独立的随机变量序列,若它们的方差存在且相同(记为 \({\sigma}^2\)),则随机变量 \(\lbrace X_i,i \geq 1 \rbrace\) 服从大数定律。

特别地(较常用,需要掌握),\(\lbrace X_i,i \geq 1 \rbrace\) 为相互独立的随机变量序列,且它们具有相同的期望 \(\mu\) 和相同的方差 \({\sigma}^2\),则 \(\frac{1}{n} \sum\limits_{i=1}^{n}X_i \xrightarrow{P} \mu \; , \; n \rightarrow +\infty\)

中心极限定理

有许多随机变量,它们是由大量的相互独立的随机变量的综合影响所形成的,而其中每个个别因素的作用都很小。这种随机变量往往服从或近似服从正态分布,或者说它的极限分布是正态分布。中心极限定理正是从数学上论证了这一现象。

对于概率论与数理统计这门课程,我们只需要掌握独立同分布的中心极限定理(林德伯格-莱维中心极限定理)及其推论(二项分布的正态近似,即棣莫弗-拉普拉斯定理)即可。

独立同分布情形

林德伯格-莱维中心极限定理

\(\{X_i,i\geq 1\}\) 为独立同分布的随机变量序列,且 \(E(X_i)=\mu\;\;,\;\;Var(X_i)=\sigma^2\;\;(\sigma>0)\),则 \(\forall x\in \mathbf{R}\),有:

\[ \begin{aligned} \lim_{n\to+\infty}P\left\{ \frac{ \begin{aligned} \sum\limits_{i=1}^{n}X_i-E(\sum\limits_{i=1}^{n}X_i) \end{aligned} }{\begin{aligned} \sqrt{\mathrm{Var}(\sum\limits_{i=1}^{n}X_i)} \end{aligned}}\leq x\right\}&= \lim_{n\to+\infty}P\left\{ \frac{ \begin{aligned} \sum\limits_{i=1}^{n}X_i-n\mu \end{aligned} }{\begin{aligned} \sigma\sqrt{n} \end{aligned}}\leq x\right\} \\ &=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}\mathrm{d}t \\ &=\Phi(x) \end{aligned} \]

换句话来说,\(E(X_i)=\mu\;\;,\;\;Var(X_i)=\sigma^2\;\;(\sigma>0)\) 的独立同分布的随机变量序列的部分和 \(\sum\limits_{i=1}^{n}X_i\) 的标准化量近似于一个正态变量:

\[ \frac{ \begin{aligned} \sum\limits_{i=1}^{n}X_i-n\mu \end{aligned} }{\begin{aligned} \sigma\sqrt{n} \end{aligned}} \overset{\text{approximately}}{\sim} N(0,1)\;\;,\;\;\text{where }n\text{ is big enough} \]

等价地,也可以写成如下形式:

\[ \frac{ \begin{aligned} \frac{1}{n}\sum\limits_{i=1}^{n}X_i-\mu \end{aligned} }{\begin{aligned} \frac{\sigma}{\sqrt{n}} \end{aligned}} \overset{\text{approximately}}{\sim} N(0,1)\;\;,\;\;\text{where }n\text{ is big enough} \]

或者

\[ \sum\limits_{i=1}^{n}X_i \overset{\text{approximately}}{\sim} N(n\mu,n\sigma^2)\;\;,\;\;\text{where }n\text{ is big enough} \]

棣莫弗-拉普拉斯中心极限定理

棣莫弗-拉普拉斯中心极限定理是林德伯格-莱维中心极限定理的推论

\(n_A\) 表示 \(n\) 重伯努利试验中事件 \(A\) 发生的次数,并记 \(P(A)=p\),则对于 \(\forall x\in\mathbf{R}\),均有:

\[ \lim_{n\to+\infty}P\{\frac{n_A-np}{\sqrt{np(1-p)}}\leq x\}=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}\mathrm{d}t=\Phi(x) \]

也就是说,当 \(n\) 很大时,二项分布可以用正态分布去近似(期望与方差不变):

\[ n_A \overset{\text{approximately}}{\sim} N(np,np(1-p)) \;\;,\;\;\text{where }n\text{ is big enough} \]

其中 \(n_A = \sum\limits_{i=1}^{n} X_i\)

独立不同分布情形(不要求)

李雅普诺夫中心极限定理

\(\{X_i,i\geq 1\}\) 为相互独立的随机变量序列,且 \(E(X_i)=\mu_i\;\;,\;\;Var(X_i)=\sigma_i^2\;\;(\sigma>0)\),若 \(\exists\varepsilon>0\) 使得:

\[ \lim_{n\to+\infty}\frac{1}{B_n^{2+\varepsilon}}\sum\limits_{i=1}^{n}E|X_i-\mu_i|^{2+\varepsilon}=0\;\;\;\text{where}\;\;\;B_n^{2}=\sum\limits_{i=1}^{n}\sigma_i^2 \]

则有:

\[ \lim_{n\to+\infty}P\{ \frac{1}{B_n} \sum\limits_{i=1}^n(X_i-\mu_i)\leq x \} = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}\mathrm{d}t=\Phi(x) \]