随机变量及其分布

2021-07-16 数学基础 概率论

# 一、随机变量

# 1.1 随机变量的定义

设随机试验的样本空间为 SS,若 X=X(e)X=X(e) 为定义在 SS 上的实值单值函数,则称 X(e)X(e) 为随机变量,简写为 XX

# 1.2 随机变量的分类

  1. 离散型随机变量:随机变量 XX 的取值为有限个或可数个。
  2. 连续型随机变量:随机变量 XX 的取值为不可数个。

# 二、分布函数

# 2.1 分布函数的定义

随机变量 XX,对任意实数 xx,称函数

F(x)=P(Xx)F(x)=P(X\le{x})

XX 的概率分布函数,简称分布函数。

# 2.2 分布函数的性质

  • 0F(x)10\le{F(x)}\le1
  • F(x)F(x) 单调不减;
  • F()=0F(-\infty)=0F(+)=1F(+\infty)=1
  • F(x)F(x) 是右连续函数,即 F(x+0)=F(x)F(x+0)=F(x)

# 三、概率密度函数

# 3.1 概率密度函数的定义

对于随机变量 XX 的分布函数 F(x)F(x),若存在非负的函数 f(x)f(x),使对于任意实数 xx 有:

F(x)=xf(t)dtF(x)=\int_{-\infty}^{x}f(t)\mathrm{d}t

则称 XX 为连续型随机变量,其中 f(x)f(x) 称为 XX 的概率密度函数,简称概率密度。

# 3.2 概率密度函数的性质

  • f(x)0f(x)\ge{0}
  • +f(x)dx=1\int_{-\infty}^{+\infty}f(x)\mathrm{d}x=1
  • 对于连续型的随机变量 XX,有 P(XD)=Df(x)dx,DRP(X\in{D})=\int_{D}f(x)\mathrm{d}x,\forall{D}\subset{R}
  • f(x)f(x) 的连续点 xxF(x)=f(x)F^{'}(x)=f(x)

说明

  1. f(x)f(x) 值的含义:当 Δx\Delta{x} 充分小时,P(x<Xx+Δx)f(x)ΔxP(x<X\le{x+\Delta{x}})\approx{f(x)\cdot{\Delta{x}}}
  2. f(x)f(x) 的值是可以大于 11 的。

# 四、离散型随机变量

# 4.1 两点分布

XX 的概率分布律满足:

P(X=k)=pk(1p)1k,k=0,1P(X=k)=p^k(1-p)^{1-k},k=0,1

其中 0<p<10<p<1,就称 XX 服从参数为 pp010-1 分布(或两点分布),记为 X01(p)X\sim{0-1(p)}XB(1,p)X\sim{B(1,p)}

应用

一个随机试验,设 AA 是一随机事件,且 P(A)=p,(0<p<1)P(A)=p,(0<p<1)。若仅考虑事件 AA 发生与否,就可以定义一个服从参数为 pp010-1 分布的随机变量来描述这个随机试验的结果。

只有两个可能结果的试验,称为贝努利试验,故两点分布有时也称贝努利分布。

# 4.2 二项分布

XX 的概率分布律满足:

P(X=k)=Cnkpk(1p)nk,k=0,1,,nP(X=k)=C_{n}^{k}p^k(1-p)^{n-k},k=0,1,\dots,n

其中 n>1n\gt{1}0<p<10<p<1,就称 XX 服从参数为 n,pn,p 的二项分布,记为 XB(n,p)X\sim{B(n,p)}

# 4.3 泊松分布

XX 的概率分布律满足:

P(X=k)=λkeλk!,k=0,1,2,P(X=k)=\frac{\lambda^{k}e^{-\lambda}}{k!},k=0,1,2,\dots

其中 λ>0\lambda>0,就称 XX 服从参数为 λ\lambda 的泊松分布,记为 Xπ(λ)X\sim\pi(\lambda)XP(λ)X\sim{P(\lambda)}

应用

如果某事件以固定强度 λ\lambda,随机且独立地出现,该事件在单位时间内出现的次数(个数),可以看成是服从泊松分布。

注:当 n>10,p<0.1n>10,p<0.1 时,二项分布 B(n,p)B(n,p) 可以用泊松分布 π(np)\pi(np) 来近似。

# 4.4 几何分布

XX 的概率分布律满足:

P(X=k)=p(1p)1k,k=1,2,3,P(X=k)=p(1-p)^{1-k},k=1,2,3,\dots

其中 0<p<10<p<1,就称 XX 服从参数为 pp 的几何分布,记作 XG(p)X\sim{G(p)}

应用

在重复多次的贝努利试验中,试验进行到某种结果第一次出现为止,此时的试验总次数服从几何分布。

# 4.5 超几何分布

XX 的概率分布律满足:

P(X=k)=CMkCNMnkCNn,k{0,1,2,,m}P(X=k)=\frac{C_M^kC_{N-M}^{n-k}}{C_N^n},k\in\{0,1,2,\cdots,m\}

其中参数是 M,N,nM,N,n,称 XX 服从超几何分布,记作 XH(N,n,M)X\sim{H(N,n,M)}

应用

它描述了由有限个物件中抽出 nn 个物件,成功抽出指定种类的物件的次数(不归还)。

在产品质量的不放回抽检中,若 NN 件产品中有 MM 件次品,抽检 nn 件时所得次品数 X=kX=k,即可由上述概率公式表示。

# 五、连续型随机变量

# 5.1 均匀分布

XX 的概率密度函数为:

f(x)={1ba,x(a,b);0,其他,f(x)=\left\{\begin{array}{c}\frac{1}{b-a},&x\in(a,b);\\0,&其他,\\\end{array}\right.

其中 a<ba<b,就称 XX 服从 (a,b)(a,b) 上的均匀分布,记为 XU(a,b)X\sim{U(a,b)}XUnif(a,b)X\sim{Unif(a,b)}

性质

均匀分布具有等可能性。即:对于任意的 a<k<k+l<ba<k<k+l<b,均有

P(k<X<k+l)=kk+l1badx=lbaP(k<X<k+l)=\int_{k}^{k+l}\frac{1}{b-a}\mathrm{d}x=\frac{l}{b-a}

kk 无关,仅与 ll 有关。即:XX 落入 (a,b)(a,b) 中的等长度的任意子区间是等可能的。

计算公式

XU(a,b)X\sim{U(a,b)},则对于 IR\forall{I\subset{R}},有

P(XI)=If(x)dx=I(a,b)的长度(a,b)的长度P(X\in{I})=\int_{I}f(x)\mathrm{d}x=\frac{I\cap{(a,b)}的长度}{(a,b)的长度}

# 5.2 指数分布

XX 的概率密度函数为:

f(x)={λeλx,x>0;0,x0,f(x)=\left\{\begin{array}{c}\lambda{e^{-\lambda{x}}},&x>0;\\0,&x\le{0},\\\end{array}\right.

其中 λ>0\lambda>0,就称 XX 服从参数为 λ\lambda 的指数分布,记为 XE(λ)X\sim{E(\lambda)}XExp(λ)X\sim{Exp(\lambda)}

其分布函数为

F(x)={1eλx,x>0;0,x0.F(x)=\left\{\begin{array}{c}1-e^{-\lambda{x}},&x>0;\\0,&x\le{0}.\\\end{array}\right.

性质

指数分布具有无记忆性。

证明

P(X>t0+tX>t0)=P(X>t0+t,X>t0)P(X>t0)=P(X>t0+t)P(X>t0)=1F(t0+t)1F(t0)=eλ(t0+t)eλ(t0)=eλt=P(X>t)P(X>t_0+t|X>t_0)=\frac{P(X>t_0+t,X>t_0)}{P(X>t_0)}=\frac{P(X>t_0+t)}{P(X>t_0)}=\frac{1-F(t_0+t)}{1-F(t_0)}=\frac{e^{-\lambda(t_0+t)}}{e^{-\lambda(t_0)}}=e^{-\lambda{t}}=P(X>t)

应用

  • 指数分布可以用来表示独立随机事件发生的时间间隔。
  • 在排队论中,一个顾客接受服务的时间长短也可用指数分布来近似。

# 5.3 正态分布

XX 的概率密度函数为

f(x)=12πσe(xμ)22σ2,<x<+f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty

其中 <μ<+-\infty<\mu<+\inftyσ>0\sigma>0,就称 XX 服从参数为 μ,σ\mu,\sigma 的正态分布(或高斯分布),记为 XN(μ,σ2)X\sim{N(\mu,\sigma^2)}

特征

  • f(x)f(x) 关于 x=μx=\mu 对称;
  • xμx\le\mu 时,f(x)f(x) 是严格单调递增函数;
  • fmax=f(μ)=12πσf_{\max}=f(\mu)=\frac{1}{\sqrt{2\pi}\sigma}
  • limxμf(x)=0.\lim\limits_{|x-\mu|\rightarrow\infty}f(x)=0.

两个参数的含义

  • μ\mu 称为位置参数(决定对称轴位置)
  • σ\sigma 称为尺度参数(决定曲线分散程度)

标准正态分布

ZN(0,1)Z\sim{N(0,1)},称 ZZ 服从标准正态分布。

  • ZZ 的概率密度函数:φ(z)=12πez22\varphi(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}
  • ZZ 的分布函数:Φ(z)=z12πet22dt\Phi(z)=\int_{-\infty}^{z}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}\mathrm{d}t

注:在标准正态分布中,使用 φ\varphi 表示概率密度函数,使用 Φ\Phi 表示分布函数。

性质

XN(μ,σ2)X\sim{N(\mu,\sigma^2)} 时,XμσN(0,1)\frac{X-\mu}{\sigma}\sim{N(0,1)}

证明

对于任意实数 zz

P(Xμσz)=P(Xσz+μ)=σz+μ12πσe(tμ)22σ2dt=z12πes22ds,(s=tμσ)=Φ(z)P(\frac{X-\mu}{\sigma}\le{z})=P(X\le{\sigma{z}+\mu})=\int_{-\infty}^{\sigma{z}+\mu}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(t-\mu)^2}{2\sigma^2}}\mathrm{d}t=\int_{-\infty}^{z}\frac{1}{\sqrt{2\pi}}e^{-\frac{s^2}{2}}\mathrm{d}s,(s=\frac{t-\mu}{\sigma})=\Phi(z)

由此可知,当 XN(μ,σ2)X\sim{N(\mu,\sigma^2)} 时,对于任意实数 aa,有

F(a)=P(Xa)=P(Xμσaμσ)=Φ(aμσ)F(a)=P(X\le{a})=P(\frac{X-\mu}{\sigma}\le\frac{a-\mu}{\sigma})=\Phi(\frac{a-\mu}{\sigma})

因此,在计算正态分布的概率时,可将其转化为标准正态,然后利用标准正态分布表来求解。

# 六、随机变量函数的分布

# 6.1 求解过程

一般,若已知 XX 的概率分布,Y=g(x)Y=g(x),求 YY 的概率分布的过程为:先给出 YY 的可能取值,再利用等价事件来给出概率分布。

若 X 为离散型随机变量

  1. 先写出 YY 的可能取值:y1,y2,,yi,...y_1,y_2,\dots,y_i,...
  2. 再找出 {Y=yi}\{Y=y_i\} 的等价事件 {XD}\{X\in{D}\}
  3. P(Y=yi)=P(XD)P(Y=y_i)=P(X\in{D})

若 X 为连续型随机变量

  1. 先根据 XX 的取值范围,给出 YY 的取值范围;
  2. 然后写出 YY 的概率分布函数
    • FY(y)=P(Yy)F_Y(y)=P(Y\le{y})
    • 找出 {Yy}\{Y\le{y}\} 的等价事件 {XD}\{X\in{D}\}
    • FY(y)=P(XD)F_Y(y)=P(X\in{D})
  3. 再求出 YY 的概率密度函数 fY(y)f_Y(y)

# 6.2 定理

设随机变量 XfX(x)X\sim{f_X(x)}<x<+-\infty<x<+\inftyY=g(X)Y=g(X)g(x)>0g^{'}(x)>0(或 g(x)<0g^{'}(x)<0),则 YY 具有概率密度为:

fY(y)={fX(h(y))h(y),α<y<β;0,其他.f_Y(y)=\left\{\begin{array}{c}f_X(h(y))\cdot|h^{'}(y)|,&\alpha<y<\beta;\\0,&其他.\\\end{array}\right.

注意

  • 这里 (α,β)(\alpha,\beta)YY 的取值范围,其中:{α=min{g(),g(+)}β=max{g(),g(+)}\left\{\begin{aligned}\alpha=\min{\{g(-\infty),g(+\infty)\}}\\\beta=\max{\{g(-\infty),g(+\infty)\}}\\\end{aligned}\right.
  • hhgg 的反函数,即 h(y)=xy=g(x)h(y)=x\Leftrightarrow{y=g(x)}

一般地,若随机变量 XN(μ,σ2)X\sim{N(\mu,\sigma^2)},则有:

Y=aX+bYN(aμ+b,a2σ2)Y=aX+b \Rightarrow{Y\sim{N(a\mu+b,a^2\sigma^2)}}
Last Updated: 2023-01-28 4:31:25