样本及抽样分布

2021-07-17 数学基础 数理统计

# 一、总体

总体是指研究对象的全体,个体是指总体中的成员。总体中包含的个体数记为总体的容量。

根据容量的大小可分为有限总体和无限总体,通常将容量非常大的有限总体也按无限总体处理。

# 二、样本

我们在推断总体分布的未知参数时,采取的方法是从总体中抽取一部分个体,根据这部分个体的数据,利用概率论的知识等作出分析推断。

被抽取的部分个体叫做总体的一个样本。

# 2.1 简单随机样本

满足以下两个条件的随机样本 (X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 称为容量是 nn 的简单随机样本。

  1. 代表性:每个 XiX_iXX 同分布;
  2. 独立性:X1,X2,,XnX_1,X_2,\cdots,X_n 是相互独立的随机变量。

说明:后面提到的样本均指简单随机样本。

# 2.2 简单随机抽样

获得简单随机样本的抽样称为简单随机抽样。

  • 对于有限总体,采用放回抽样。
  • 当总体容量很大时,放回抽样有时很不方便,因此通常将不放回抽样所得到的样本近似当作简单随机样本来处理。
  • 对于无限总体,一般采用不放回抽样。

# 三、统计量与常用统计量

# 3.1 统计量

样本的不含任何未知参数的函数,称为统计量。

从样本中提取有用的信息来研究总体的分布及各种特征数的过程,就是构造统计量。

# 3.2 常用统计量

  1. 样本均值:X=1ni=1nXi\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i
  2. 样本方差:S2=1n1i=1n(XiX)2S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2
  3. 样本标准差:S=S2S=\sqrt{S^2}
  4. 样本 kk 阶矩:Ak=1ni=1nXikA_k=\frac{1}{n}\sum\limits_{i=1}^{n}X_i^k
  5. 样本 kk 阶中心矩:Bk=1ni=1n(XiX)kB_k=\frac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^k

注:方差公式中分母 n1n-1 保证计算结果是无偏估计。

# 四、抽样分布

统计量的分布被称为抽样分布,下面将介绍数理统计中三个重要的抽样分布。

# 4.1 卡方分布

设随机变量 X1,X2,,XnX_1,X_2,\cdots,X_n 相互独立,都服从 N(0,1)N(0,1),则称

χ2=i=1nXi2\chi^2=\sum\limits_{i=1}^{n}X_i^2

服从自由度为 nnχ2\chi^2 分布,记为 χ2χ2(n)\chi^2\sim{\chi^2(n)}

概率密度

χ2\chi^2 分布的概率密度为:

fn(x)={12Γ(n/2)(x2)n21ex2,x>0;0,x0.f_n(x)=\left\{\begin{array}{c}\frac{1}{2\Gamma(n/2)}(\frac{x}{2})^{\frac{n}{2}-1}e^{-\frac{x}{2}},&x>0;\\0,&x\le{0}.\\\end{array}\right.

其中 Γ(α)=0+xα1exdx\Gamma(\alpha)=\int_{0}^{+\infty}x^{\alpha-1}e^{-x}\mathrm{d}x

α\alpha 分位数

给定 α\alpha0<α<10<\alpha<1,称满足条件 P(χ2>χα2(n))=αP(\chi^2>\chi_{\alpha}^2(n))=\alpha 的点 χα2(n)\chi_{\alpha}^2(n)χ2(n)\chi^2(n) 分布的上 α\alpha 分位数。

性质

  • χ2χ2(n)\chi^2\sim{\chi^2(n)},则 E(χ2)=n,D(χ2)=2nE(\chi^2)=n,D(\chi^2)=2n
  • Y1,,YmY_1,\cdots,Y_m 相互独立,Yiχ2(ni)Y_i\sim{\chi^2(n_i)},则 i=1mYiχ2(i=1mni)\sum\limits_{i=1}^{m}Y_i\sim{\chi^2(\sum\limits_{i=1}^{m}n_i)}

# 4.2 t 分布

XN(0,1),Yχ2(n)X\sim{N(0,1)},Y\sim{\chi^2(n)},且 XXYY 相互独立,则称随机变量

T=XY/nT=\frac{X}{\sqrt{Y/n}}

服从自由度为 nntt 分布(也称为学生氏分布),记为 Tt(n)T\sim{t(n)}

概率密度

t(n)t(n) 分布的概率密度为:

f(x;n)=Γ(n+12)nπΓ(n2)(1+x2n)n+12,<x<+f(x;n)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{x^2}{n})^{-\frac{n+1}{2}},-\infty<x<+\infty

特别地,n=1n=1tt 分布就是柯西分布。

α\alpha 分位数

给定 α\alpha0<α<10<\alpha<1,称满足条件

tα(n)f(x;n)dx=α\int_{t_{\alpha}(n)}^{\infty}f(x;n)\mathrm{d}x=\alpha

的点 tα(n)t_{\alpha}(n)t(n)t(n) 分布的上 α\alpha 分位数,且 t1α(n)=tα(n)t_{1-\alpha}(n)=-t_{\alpha}(n)

# 4.3 F 分布

Xχ2(n1),Yχ2(n2)X\sim{\chi^2(n_1)},Y\sim{\chi^2(n_2)},且 X,YX,Y 独立,则称随机变量

F=X/n1Y/n2F=\frac{X/n_1}{Y/n_2}

服从自由度为 (n1,n2)(n_1,n_2)FF 分布,记为 FF(n1,n2)F\sim{F(n_1,n_2)},其中 n1n_1 为第一自由度,n2n_2 为第二自由度。

概率密度

F(n1,n2)F(n_1,n_2) 分布的概率密度为:

f(x;n1,n2)={1B(n12,n22)n1n12n2n22xn121(n2+n1x)n1+n22,x>0;0,x0.f(x;n_1,n_2)=\left\{\begin{array}{c}\frac{1}{B(\frac{n_1}{2},\frac{n_2}{2})}n_1^{\frac{n_1}{2}}n_2^{\frac{n_2}{2}}x^{\frac{n_1}{2}-1}(n_2+n_1x)^{-\frac{n_1+n_2}{2}},&x>0;\\0,&x\le{0}.\\\end{array}\right.

其中 B(a,b)=01xa1(1x)b1dx=Γ(a)Γ(b)Γ(a+b)B(a,b)=\int_{0}^{1}x^{a-1}(1-x)^{b-1}\mathrm{d}x=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}

α\alpha 分位数

给定 α\alpha0<α<10<\alpha<1,称满足条件

Fα(n1,n2)f(x;n1,n2)dx=α\int_{F_\alpha(n_1,n_2)}^{\infty}f(x;n_1,n_2)\mathrm{d}x=\alpha

的点 Fα(n1,n2)F_\alpha(n_1,n_2)F(n1,n2)F(n_1,n_2) 分布的上 α\alpha 分位数,且 F1α(n1,n2)=1Fα(n2,n1)F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}

性质

FF(n1,n2)F\sim{F(n_1,n_2)},则 1FF(n2,n1)\frac{1}{F}\sim{F(n_2,n_1)}

# 4.4 正态总体的抽样分布

定理一

设总体 XN(μ,σ2)X\sim{N(\mu,\sigma^2)}X1,X2,,XnX_1,X_2,\cdots,X_n 是样本,样本均值 X=1ni=1nXi\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i,样本方差 S2=1n1i=1n(XiX)2S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2,则

  • XN(μ,σ2n)\overline{X}\sim{N(\mu,\frac{\sigma^2}{n})}
  • (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim{\chi^2(n-1)}X\overline{X}S2S^2 相互独立。

定理二

设总体 XN(μ,σ2)X\sim{N(\mu,\sigma^2)}X1,X2,,XnX_1,X_2,\cdots,X_n 是样本,样本均值 X=1ni=1nXi\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i,样本方差 S2=1n1i=1n(XiX)2S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2,则

XμS/nt(n1)\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim{t(n-1)}

定理三

设样本 (X1,,Xn1)(X_1,\cdots,X_{n_1})(Y1,,Yn2)(Y_1,\cdots,Y_{n_2}) 分别来自总体 N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ2,σ22)N(\mu_2,\sigma_2^2),并且它们相互独立,样本均值分别为 X,Y\overline{X},\overline{Y},样本方差分别为 S12,S22S_1^2,S_2^2,则可以得到下面三个抽样分布:

抽样分布一

F=S12/σ12S22/σ22=S12S22/σ12σ22F(n11,n21)F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}=\frac{S_1^2}{S_2^2}/\frac{\sigma_1^2}{\sigma_2^2}\sim{F(n_1-1,n_2-1)}

抽样分布二

(XY)(μ1μ2)σ12n1+σ22n2N(0,1)\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim{N(0,1)}

抽样分布三

σ12=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2 时,

(XY)(μ1μ2)Sw1n1+1n2t(n1+n22)\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim{t(n_1+n_2-2)}

其中 Sw2=(n11)S12+(n21)S22n1+n22S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}Sw=Sw2S_w=\sqrt{S_w^2}

# 4.5 小结

对于单个正态总体 N(μ,σ2)N(\mu,\sigma^2),得到 X,S2\overline{X},S^2 的分布,用于对 μ,σ2\mu,\sigma^2 进行推断(区间估计,假设检验)。

对于两个独立正态总体 N(μ1,σ12),N(μ2,σ22)N(\mu_1,\sigma_1^2),N(\mu_2,\sigma_2^2),得到 XY,S12S22\overline{X}-\overline{Y},\frac{S_1^2}{S_2^2} 的分布,用于对 μ1μ2,σ12σ22\mu_1-\mu_2,\frac{\sigma_1^2}{\sigma_2^2} 进行推断。

Last Updated: 2023-01-28 4:31:25