随机变量及其分布

1.基本概念

随机变量：定义在样本空间$\Omega$上的实值函数$X(\omega)$称为随机变量，用大写字母表示变量，小写字母表示取值；

分布函数：$F(x)=P(X\le x)$

分布函数的三条基本性质是判别某个函数是否可以构成分布函数的充要条件

（1）单调性：$x_1\le x_2$，则有$F(x_1)\le F(x_2)$

（2）有界性：$F(-\infty) = \lim{x\rightarrow-\infty}F(x) = 0$，$F(\infty)=\lim{x\rightarrow\infty}F(x)=1$

（3）右连续性：$\lim_{x\rightarrow x_0^+}F(x)=F(x_0)$

柯西分布函数

$F(x)=\frac 1\pi(\arctan x+\frac \pi 2)$

2.离散随机变量的概率分布列

$p_i=P(X=x_i)$

分布列的基本性质：非负性、正则性

分布函数：$F(x)=\sum_{x_1\le x}p(x_i)$

单点分布（退化分布）：$P(X=c) = 1$

3.连续随机变量的概率密度函数

$F(x) = \int_{-\infty}^xp(t)dt$

概率密度函数的基本性质：非负性、正则性

4.数学期望：消除随机性的重要手段

离散随机变量的数学期望

$E(X)=\sum_{i}x_ip(x_i)$

连续随机变量的数学期望

$E(X)=\int_{-\infty}^{\infty}xp(x)dx$

注意，上述数学期望成立的条件为具有绝对收敛性！！！，否则则说明数学期望不存在

数学期望的性质基本定理：若随机变量$X$的分布用分布列$p(x_i)$或用密度函数$p(x)$表示，则$X$的某一函数$g(X)$的数学期望为

$离散场合：E[g(X)]=\sum_ig(x_i)p(x_i) \\ 连续场合：E[g(X)]=\int_{-\infty}^{+\infty}g(x)p(x)dx$

对任意的两个函数$g_1(x)$和$g_2(x)$，有如下式子成立

$E[g_1(x)\pm g_2(x)]=E[g_1(x)]\pm E[g_2(x)]$

5.方差与标准差

方差：$VAR(X)=E(X-E(X))^2$

方差的性质：

$Var(X)=E(X^2)-[E(X)]^2\\ Var(aX+b)=a^2Var(X)$

切比雪夫不等式

设随机变量$X$的数学期望和方差都存在，则对任意常数$\varepsilon>0$，有

$P(|X-E(X)|\ge\varepsilon)\le\frac{Var(X)}{\varepsilon^2}$

$|X-E(X)|\ge\varepsilon$成为大偏差，根据切比雪夫不等式可以对大偏差的发生概率进行估计；

若随机变量$X$的方差存在，则$Var(x)=0$的充分必要条件是$X$几乎处处为某个常数$a$，即$P(X=a)=1$；

6.常用离散分布

（1）二项分布随机变量$X$表示n重伯努利实验中的成功次数，用$b(n,p)$表示

$P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}$

$n=1$时的特殊二项分布情形称为伯努利分布；

数学期望：$np$；方差：$np(1-p)$

（2）泊松分布往往与计数过程相联系

$P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}$

数学期望：$\lambda$；方差：$\lambda$

方差的计算过程

$E(X^2) = \sum_{k}k^2\frac{\lambda^k}{k!}e^{-\lambda} = \sum_kk\frac{\lambda^k}{(k-1)!}e^{-\lambda} = \sum_k[(k-1)+1]\frac{\lambda^k}{(k-1)!}e^{-\lambda}=\lambda^2+\lambda\\ Var(X)=E[X^2]-E^2[X]=\lambda^2+\lambda-\lambda^2=\lambda$

泊松定理：泊松分布可以作为当$n$比较大时的二项分布的一种近似

在n重伯努利实验中，记事件$A$在一次试验中发生的概率为$p_n$，如果当$n\rightarrow\infty$时，有$np_n\rightarrow\lambda$，则

$\lim_{n\rightarrow\infty}\binom{n}{k}p_n^k(1-p_n)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda}$

当$n$越大而$p$越小时，近似程度越好；

（3）超几何分布从一个有限总体中进行不放回抽样；

$P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}$

数学期望：$n\frac{M}{N}$；方差：$\frac{nM(N-M)(N-n)}{N^2(N-1)}$

超几何分布的二项近似

$\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}=\binom{n}{k}p^k(1-p)^{n-k}$

（4）几何分布在伯努利实验序列中，如果$X$为事件$A$首次出现的试验次数

$P(X=k)=(1-p)^{k-1}p$

（使用逐项微分计算）数学期望：$\frac 1 p$；方差：$\frac{1-p}{p^2}$

几何分布具有无记忆性：

$P(X>m+n|X>m)=P(X>n)$

（5）负二项分布 X表示事件A第$r$次出现时的试验次数

$P(X=k)=\binom{k-1}{r-1}p^r(1-p)^{k-r}$

数学期望：$\frac r p$；方差：$\frac{r(1-p)}{p^2}$

7.常用离散分布

（1）正态分布记做$N(\mu,\sigma^2)$

$p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

$\mu$称为位置参数， $\sigma$称为尺度参数；

标准正态分布：$\mu=0, \sigma^2 = 1$

一切正态变量都可以通过线性变换化成标准正态变量：

$U=\frac{X-\mu}{\sigma}$

标准化正态变量数学期望：$E[X]=0$；方差：$Var[X]=1$；

可从标准化正态变量推导出非标准变量的数学期望：$E[X] = \mu$；方差：$Var[X]=\sigma^2$；

3$\sigma$原则：如果某随机变量的取值概率近似满足下列式子，则可认为该随机变量服从正态分布；

$P(\mu-\sigma<X<\mu+\sigma)=0.6826\\ P(\mu-2\sigma<X<\mu+2\sigma)=0.9545\\ P(\mu-3\sigma<X<\mu+3\sigma)=0.9973$

（2）均匀分布

（3）指数分布：常常用于对寿命进行估计

$p(x)=\lambda e^{-\lambda x}, x\ge0$

数学期望：$\frac{1}{\lambda}$；方差：$\frac{1}{\lambda^2}$；

指数分布具有无记忆性：

$P(X>s+t|X>s)=P(X>t)$

某一个生产过程中，发生故障的总次数满足泊松分布，而故障的发生间隔满足指数分布

（4）伽马分布

伽马函数

$\Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx\\ 性质1:\Gamma(1)=1,\Gamma(\frac{1}{2})=\sqrt{\pi}\\ 性质2:\Gamma(\alpha+1)=\alpha\Gamma(\alpha), \Gamma(n+1)=n!$

Gamma分布 记作$Ga(\alpha,\lambda)$

$p(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}$

数学期望：$\frac \alpha \lambda$；方差：$\frac \alpha {\lambda^2}$

$\alpha=1$伽马分布就是指数分布，$\alpha=\frac n2, \lambda=\frac1 2$时的分布就是$\chi^2$分布，记作$\chi^2(n)$

（5）Beta分布

Beta函数

$B(a,b)=\int_0^1x^{a-1}(1-x)^{b-1}dx\\ 性质1:B(a,b)=B(b,a)\\ 性质2:B(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$

Beta分布 $Be(a,b)$

$p(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}, 0 < x< 1$

数学期望$\frac a {a+b}$，方差$\frac{ab}{(a+b)^2(a+b+1)}$

8.随机变量函数的分布

对于离散随机变量函数和$Y$为离散型变量的连续随机变量函数，直接将取值一一列出即可，此处主要讨论连续随机变量函数的分布；

g(x)为连续随机变量时：

定理一：设$X$为连续随机变量，其密度函数为$p_X(x)$，$Y=g(x)$是另一个连续随机变量。若$y=g(x)$严格单调，其反函数$h(y)$有连续导函数，则$Y=g(x)$的密度函数为：

$p_Y(y)=p_X[h(y)]|h'(y)|$

定理二：设随机变量$X$服从正态分布$N(\mu,\sigma^2)$，则当$a\ne 0$时，有$Y=aX+b$服从$N(a\mu + b, a^2\sigma^2)$；

定理三：（对数正态分布）设随机变量$X$服从$N(\mu,\sigma^2)$，则$Y=e^X$的密度函数为:

$p_Y(y)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(\ln y - \mu)^2}{2\sigma^2}\}$

定理四：设随机变量$X$服从Gamma分布$Ga(\alpha,\lambda)$，则当$k>0$时，有$Y=kX$服从分布$Ga(\alpha,\lambda/k)$;

定理五：随机变量$X$的分布函数$F_X(x)$为严格单增的连续函数，其反函数$F_X^{-1}(y)$存在，则$Y=F_X(X)$服从$(0,1)$上的均匀分布$U(0,1)$;

若使用上述定理直接求密度函数比较困难，则可以考虑直接由$F_Y(y)=P(g(X)\le y)$出发根据函数特点处理；

9.分布的其它特征数

$k$阶原点矩：$\mu_k=E(X^k)$；

$k$阶中心矩：$\nu_k=E(X-E(X))^k$

中心矩和原点矩之间的关系：$\nuk=\sum{i=0}^k\binom{k}{i}\mu_i(-\mu_1)^{k-i}$

变异系数：可消除量纲，用于比较两个随机变量的波动程度大小（前提，二阶矩存在）

$C_{\nu}(X)=\frac{\sigma(X)}{E(X)}$

分位数：$x_p$称为下侧$p$分位数

$F(x_p)=\int_{-\infty}^{x_p}p(x)dx=p$

10.偏度系数和峰度系数

（1）设随机变量的三阶矩存在，则可以定义下列比值为偏度系数

$\beta_S=\frac{\nu_{3}}{\nu_2^{3/2}}=\frac{E(X-E(X))^3}{(Var(X))^{3/2}}$

$\beta_S$描述分布偏离对称性程度的一个特征数，大于0时称为正偏（重尾在右侧），小于0称为负偏（重尾在左侧）；

（2）设随机变量的四阶矩存在，则定义下列比值为峰度系数

$\beta_k=\frac{\nu_4}{\nu_2^2}-3=\frac{E(X-E(X))^4}{Var^2(X)} - 3$

$\beta_k$描述分布尖峭程度和尾部粗细的一个特征数；$\beta_k$是相对于正态分布而言的超出量；

峰度和偏度都是描述分布形状的特征数

概率统计笔记2