知识

随机事件及其概率

随机事件

现象：确定性现象、随机现象

随机现象的统计规律性：随机现象在大量重复出现时所表现出的量的规律性

试验：对随机现象进行重复观察

随机试验 $E$ ：具有可重复性*(可以在相同条件下重复进行)、可观察性(每次实验的可能结果不止一个，并且能事先明确试验的所有可能结果)*、*不确定性(事先不能准确预知，但可以肯定会出现所有可能结果中的一个)*三个特征的试验

样本点：随机试验的每一种可能的结果

样本空间 $S$ 或 $\Omega$ ：样本点的全体

事件：具有某一可观察特征的随机试验的结果

事件分为随机事件 ($A,B,C$ 等)、必然事件 ($S$ 或 $\Omega$) 、不可能事件 ($\empty$)

确定事件：必然事件和不可能事件

随机事件简称事件

任何一个事件都可以用 $S$ 的某个子集来表示

基本事件：仅含一个样本点的事件

复合事件：含有两个或以上样本点的事件

$A\subset B$ 事件B包含事件A ，事件A包含于事件B，A是B的子事件，含义：若事件A发生必然导致事件B发生

$A=B$ 事件A与事件B相等，含义：若事件A发生必然导致事件B发生，若事件B发生必然导致事件A发生，等效于 $A\subset B$ 且 $B\subset A$

$A\cup B={\omega|\omega\in A 或 \omega\in B}$ 称为事件A与事件B的和(并) ，含义是当且仅当事件 $A,B$ 中至少一个发生时，事件 $A\cup B$ 发生，有时也记作 $A+B$

$\cup_{i=1}^n A_i$ 是 $n$ 个事件的和事件，$\cup_{i=1}^\infty A_i$ 是可数个事件的和事件

$A\cap B={\omega|\omega\in A 且 \omega\in B}$ 是事件A与事件B的积(交)，当且仅当同时发生，有时也记作 $AB$

$\cap_{i=1}^n A_i$ 是 $n$ 个事件的积事件，$\cap_{i=1}^\infty A_i$ 是可数个事件的积事件

$A-B={\omega|\omega\in A 且 \omega\notin B}$ 称为事件A与事件B的差

若 $A\cap B=\empty$ ，称事件$A,B$是互不相容的，或称是互斥的，含义是不能同时发生

基本事件两两互不相容

$A\cup B=S,A\cap B=\empty$ ，称事件 $A,B$ 互为对立事件，或互为逆事件，事件A的对立事件记作 $\overline A$ ，有 $\overline A=S-A$

互斥不一定对立；互斥适用于多个事件，对立只适用于两个事件

事件的基本关系：

$A\overline A=\empty,A\cup\overline A=S,\overline A=S-A$
若 $A\subset B$ 则 $A\cup B=B,AB=A$
$A-B=A\overline B=A-AB,A\cup B=A\cup(B-A)$

若 $A_1,\cdots ,A_n,\cdots$ 是有限或可数个事件，若其满足：

$A_i\cap A_j=\empty, i\neq j, i,j=1,2,\cdots$

$U_i A_i=S$

则称它是一个完备事件组，也称是样本空间 S 的一个划分； $\overline A$ 与 $A$ 构成一个完备事件组

事件的运算规律：

交换律 $A\cup B=B\cup A, A\cap B=B\cap A$
结合律 $(A\cup B)\cup C=A\cup(B\cup C)$, $(A\cap B)\cap C=A\cap(B\cap C)$
分配律 $(A\cup B)\cap C=(A\cap C)\cup(B\cap C)$

$$(A\cap B)\cup C=(A\cap C)\cup(B\cup C)$$
自反律 $\overline{\overline A}=A$
对偶律 $\overline{A\cup B}=\overline A\cap \overline B$ , $\overline{A\cap B}=\overline A\cup \overline B$

例如：至少一人中靶 $A\cup B\cup C$ 或 $\overline{\overline A\overline B\overline C}$

至少两人中靶 $AB\cup AC\cup BC$

至多两人中靶 $\overline{ABC}$ 或 $\overline A \cup \overline B\cup\overline C$

随机事件的概率

在相同条件下进行 $n$ 次试验，其中事件 $A$ 发生的次数为 $r_n(A)$ ，则称 $f_n(A)=\dfrac{r_n(A)}n$ 为事件 $A$ 发生的频率

$0\le f_n(A)\le 1,f_n(S)=1$

若 $A_1,\cdots, A_m$ 两两互不相容，则 $f_n(A_1\cup\cdots\cup A_m)=f_n(A_1)\cup\cdots\cup f_n(A_m)$

频率的稳定性：试验次数增大时，事件 $A$ 发生的频率 $f_n(A)$ 总是稳定在一个确定的常数 $p$ 附近，并且偏差随着试验次数的增大而减小

相同条件下重复进行 $n$ 次试验，若频率随着试验次数 $n$ 的增大而稳定地在某个常数 $p$ 附近摆动，则称 $p$ 为事件 $A$ 的概率，记为 $P(A)$

设 $E$ 是随机试验， $S$ 是它的样本空间，对 $E$ 的每一个事件 $A$ 赋予一个实数记作 $P(A)$ ，当其满足三个条件是称它是事件 $A$ 的概率：

非负性，对每一个事件 $A$ ，有$P(A)\ge 0$

完备性：$P(S)=1$

可列可加性：设 $A_1,\cdots$ 是两两互不相容的事件，则有： $$ P(\cup_{i=1}^\infty A_i)=\sum_{i=1}^\infty P(A_i) $$

不可能事件的概率是 $0$ ，但反之不然；例如，从实数里随机取一个，取到 $1$ 的概率是 $0$ ，但不是不可能事件

$P(\overline A)=1-P(A)$

$P(A-B)=P(A)-P(AB)$

若 $B\subset A$ ，有：$P(A-B)=P(A)-P(B)$ , $P(A)\ge P(B)$

$P(A) \le1$

$P(A\cup B)=P(A)+P(B)-P(AB)$ ，且可以由容斥原理推广到任意多事件

例：已知 $P(\overline A)=0.5, P(\overline AB)=0.2, P(B)=0.4$ ，求：$P(AB),P(A-B),P(A\cup B),P(\overline A\overline B)$

由于 $P(AB)+P(\overline AB)=P(B)$ ，可得 $P(AB)=0.5$ ，中间两个直接套公式即得 $0.3,0.7$ ，最后由徳摩根律 $P(\overline A\overline B)=P(\overline{A\cup B})=1-P(A\cup B)=0.3$

古典概型

古典概型：具有以下两个特征的随机试验模型；又称等可能概型

随机试验只有有限个可能的结果

每一个结果发生的可能性大小相同

事件 $A$ 发生的概率为 $A$ 包含的基本事件数除以 $S$ 中基本事件总数，这个概率称为古典概率，这种确定概率的方法称为古典方法

基本计数原理：加法原理、乘法原理

排列组合，排列是 $P_n^k=\dfrac{n!}{(n-k)!}$ ，有全排列。组合 $C_n^k=\dfrac{P_n^k}{k!}$ ，记作 $\begin{pmatrix}n\k\end{pmatrix}$ ，称为组合系数。

高中和算法的组合数学，这里略

条件概率

设 $A,B$ 是两个事件，且 $P(A) > 0$ ，称： $$ P(B|A)=\dfrac{P(AB)}{P(A)} $$ 是在事件 $A$ 发生的条件下，事件 $B$ 的条件概率， $P(B)$ 称为无条件概率

可以用 VENN 图形象理解本公式

$P(S|A)=1$ ($P(A) > 0$)

设 $A_1,\cdots, A_n$ 互不相容，则： $$ P(A_1\cup\cdots\cup A_n|A)=P(A_1|A)+\cdots+P(A_n|A) $$

乘法公式是指下面两条式子： $$ P(AB)=P(A)P(B|A), (P(A) > 0)\ P(AB)=P(B)P(A|B), (P(B) > 0) $$ 容易理解；推广可得： $P(ABC)=P(A)P(B|A)P(C|AB)$

$P(C|AB)=\dfrac{P(ABC)}{P(AB)}=\dfrac{P(ABC)}{P(A)P(B|A)}$ 可得上述推广

$$ P(A_1\cdots A_n)=P(A_1)P(A_2|A_1)\cdots P(A_n|A_1\cdots A_{n-1}) $$

全概率公式：设 $A_1,\cdots ,A_n,\cdots $ 是完备事件组， $P(A_i) > 0, i=1,2,\cdots$ ，则对任一事件 $B$ ，有： $$ P(B)=P(A_1)P(B|A_1)+\cdots+P(A_n)P(B|A_n)+\cdots $$

即 $P(B)=\sum_iP(BA_i)$ ；其实类似于一些分类讨论，把 $B$ 拆分

贝叶斯公式：设 $A_1,\cdots ,A_n,\cdots $ 是完备事件组，则对任一事件 $B, P(B) > 0$ ，有： $$ P(A_i|B)=\dfrac{P(A_iB)}{P(B)}=\dfrac{P(A_i)P(B|A_i)}{\sum_jP(A_j)P(B|A_j)},i=1,2\cdots $$

假设事件已经发生，考虑引发该时间的各原因可能性大小，分母是全概率公式，分子是乘法公式，分式是条件概率 Bayes' Theorem

$P(A_i)$ , $P(A_i|B)$ 分别叫做原因的先验概率和后验概率

先验概率：不知道事件B是否发生情况下各事件发生的概率

后验概率：知道B发生后发生各事件的概率

例：患病率是 $0.5$‰ ，诊出率是 $99%$ ，误诊率是 $0.2$ ‰ ，已知被诊出有病，求确有病概率

设 $A={这个人被诊断患有该疾病}$ ， $B={这个人确实患有该疾病}$ ，所求为 $P(B|A)$ ，题给分别是 $P(B),P(A|B),P(A|\overline B)$

特别注意千分之$0.5$是百分之$0.05$即 $0.0005$ 而非 $0.005$，后同

代入公式有： $$ P(B|A)=\dfrac{P(B)P(A|B)}{P(B)P(A|B)+P(\overline B)P(A|\overline B)}\approx0.7123 $$ 例2：已知三个桶红球数目和球数，已知任取一个球取到了红球，问来自第一个桶的概率：

设取到来自第 $i$ 个桶的球概率为 $P(B_i)$，取到红球为 $P(A)$。则显然已知 $P(B_i),P(A),P(A|B_i)$ $$ P(B_1|A)=\dfrac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+P(A|B_3)P(B_3)} $$

事件的独立性

如两个事件 $A,B$ 满足：$P(AB)=P(A)P(B)$ ，那么称 $A,B$ 独立，或称 $A,B$ 相互独立

与互不相容区分；互不相容是不能同时发生，相互独立是一次随机试验中一事件是否发生跟另一事件是否发发生不影响

$P(A)>0,P(B)>0$ 时，相互独立和互不相容不能同时成立；如果又相互独立又互不相容，那么至少有一个是不可能事件

若 $A,B$ 相互独立，且 $P(B) > 0$ ，则 $P(A|B)=P(A)$ ，反之亦然；这个等式也可以判定是否相互独立

事件 $A,B$ 相互独立，则 $A,\overline B$ ， $\overline A, B$ 以及 $\overline A, \overline B $也相互独立

可以通过现实常识判定是否独立，比如有放回相互独立，无放回不独立

三个事件相互独立需要满足： $$ P(AB)=P(A)P(B)\P(AC)=P(A)P(C)\P(BC)=P(B)P(C)\ P(ABC)=P(A)P(B)P(C) $$ $n$ 个事件的独立性： $n>1,A_1,\cdots ,A_n$ , 对任意 $k(1 < k\le n)$ 个事件 $A_{i_1},\cdots ,A_{i_k},1\le i_1< \cdots < i_k\le n$ ，都有等式： $$ P(A_{i_1}\cdots A_{i_k})=P(A_{i_1})\cdots P(A_{i_k}) $$ 那么 $A_1,\cdots ,A_n$ 相互独立

等式数目为 $C_n^2+\cdots+C_n^n=2^n-C_n^1-C_n^0=2^n-n-1$

设 $A_1,\cdots ,A_n$ 中任意两个事件相互独立，称 $A_1,\cdots ,A_n$ 两两独立

性质：

若 $A_1,\cdots ,A_n$ $(n\ge 2)$ 相互独立，那么其中任意 $k(1 < k\le n)$ 个事件也相互独立

若 $A_1,\cdots ,A_n$ $(n\ge 2)$ 相互独立，则将其中任意 $m(1\le m\le n)$ 个事件换成它们的对立事件，仍相互独立

例题中，并联电路的可靠性只需要任意一个可用即可

如果随机试验的结果只有两种可能的结果，发生或不发生，那么这样的试验称为伯努利试验： (Bernoulli) 记 $P(A)=p,P(\overline A)=1-p=q (0 < p <1,p+q=1)$

将伯努利试验在相同条件下独立地重复进行 $n$ 次，这一串重复的独立试验称为 $n$ 重伯努利试验，或伯努利概型。

伯努利定理：$n$ 重伯努利试验中，事件 $A$ 恰好发生 $k$ 次的概率为： $$ b(k;n,p)=C_n^pp^k(1-p)^{n-k}(k=0,1,\cdots,n) $$

推论：事件 $A$ 在第 $k$ 次才首次发生的概率为： $p(1-p)^{k-1}(k=1,2,.\cdots)$

例：炮命中率是 $0.6$ ，需要多少门炮齐射能以 $99%$ 把握命中；如果只有 $3$ 门炮齐射，命中率需要是多少才能 $99%$ 命中？

设 $A$ 是单炮击中， $P(A)=0.6$ ，$B$ 表示“敌方被击中”，则： $$ P(B)=\sum_{k=1}^nC_n^k0.6^k0.4^{n-k}\ge0.99 $$ 简化为： $P(B)=1-P(\overline B)=1-0.4^n\ge 0.99$ ，解得 $n\ge\dfrac{\lg0.01}{\lg0.4}\approx 5.03$ ，所以至少 $6$ 门

第二问： $1-q^3\ge 0.99$ ，得 $q\le0.215$

特别注意是 $q$ ，不是 $p$ ，所以 $p\ge 0.785$

随机变量及其分布

随机变量

定义在样本空间 $S$ 上的实值单值函数 $X=X(\omega)$ 是随机变量，取值由样本点 $\omega$ 决定

使得 $X$ 取某一特定值 $a$ 的样本点的全体构成样本空间的一个子集： $$ A={\omega|X(\omega)=a}\subset S $$ 是一个事件，当且仅当事件 $A$ 发生时才有 ${X=a}$ ；事件简记为 ${X=a}$

随机变量通常用大写字母 $X,Y,Z$ 或希腊字母 $\xi,\eta$ 等表示，表示随机变量的取值时，一般采用小写字母 $x,y,z$ 等

例如： $X=X(t)=t$ ；记每次试验出现正面的总次数为随机变量 $X$

离散型随机变量及其概率分布

概率分布

$X$ 是随机变量，若它全部可能取值只有有限个0或可数无穷个，称 $X$ 是一个离散型随机变量

设离散型随机变量 $X$ 的所有可能的取值为 $x_i,i=1,2,\cdots$ ，则： $$ P{X=x_i}=p_i,\quad i=1,2,\cdots $$ 是 $X$ 的概率分布或分布律，也称概率函数。

常用表格形式表示 $X$ 的概率分布，列表头为 $X,p_i$

已知概率分布，可以求得 $X$ 所生成的任何事件的概率

两点分布

若随机变量只有两个可能的取值，分布为： $$ P{X=x_1}=p,\quad P{X=x_2}=1-p\quad(0 < p < 1) $$ 称 $X$ 服从 $x_1,x_2$ 处参数为 $p$ 的两点分布。

若 $x_1=1,x_2=0$ ，服从参数为 $p$ 的 $0-1$ 分布，即 $X\sim b(1,p)$ 。

对 $0-1$ 分布：

分布律： $P(X=k)=p^k(1-p)^{1-k},k=0,1$ ，期望 $p$ ，方差 $p(1-p)$

二项分布

$X$ 表示 $n$ 重伯努利试验中试验 $A$ 发生的次数，有： $$ P{X=k}=C_n^kp^k(1-p)^{n-k},\quad k=0,1,\cdots, n $$ 则称 $X$ 服从参数 $n,p$ 的二项分布，记 $X\sim b(n,p)$ 或 $B(n,p)$

$[x]$ 为不超过 $x$ 的最大整数，则：

$(n+1)p$ 非整数时，二项概率 $P{X=K}$ 在 $k=[(n+1)p]$ 取最值，否则在 $(n+1)p$ 和 $(n+1)p-1$ 达到最值

区分：有放回取球：二项分布、无放回取球：排列组合

记 $X_i$ 为第 $i$ 次试验出现 $A$ 的次数，则 $X_i\sim b(1,p)$ ，那么： $$ X=X_1+\cdots +X_n $$ 且 $X_1,\cdots ,X_n$ 相互独立

期望 $np$ ，方差 $np(1-p)$

泊松分布

$X$ 服从参数为 $\lambda$ 的泊松分布， $X\sim P(\lambda)$ 或 $X\sim\pi(\lambda)$ 当概率分布为： $$ P{X=k}=e^{-\lambda}\dfrac{\lambda^k}{k!},k=0,1,2,\cdots $$

有： $\sum_{k=0}^\infty P{X=k}=e^{-\lambda}e^\lambda=1$

期望和方差均为 $\lambda$

泊松分布产生的一般条件：在自然界和现实生活中，常遇到在随机时刻出现的某种事件。把在随机时刻相继出现的事件所形成的序列称为随机事件流。若随机事件流具有：

平稳性：任意时间区间事件发生 $k(k > 0)$ 次的概率只依赖于区间长度，与区间端点无关

无后效性：在不相重叠的时间段内，事件的发生相互独立

普通性：如果时间区间充分小，时间出现两次或两次以上的概率可忽略不计

这样的称为泊松事件流(泊松流)。在任意时间间隔 $(0,t)$ 内，事件发生的次数服从参数为 $\lambda$ 的泊松分布， $\lambda $是泊松流强度

泊松定理： $n$ 重伯努利试验， $np_n\to \lambda$ ，$n\ge 100,np\le 10$ 时效果不错，且 $\lambda=np$ 。

可以查泊松分布表

每次试验中出现概率很小的事件称为稀有事件/小概率事件。 $n$ 重伯努利试验中稀有事件出现次数近似服从泊松分布。

随机变量的分布函数

$X$ 是随机变量，称 $F(x)=P{X\le x},(-\infty < x <+\infty)$ 为 $X$ 的分布函数，有时记作 $X\sim F(x)$ 或 $F_X(x)$ 。

性质：

单调非减

边界函数值分别是 $0,1$

右连续性： $\lim_{x\to x_0^+}F(x)=F(x_0)$

反过来地，如果一个函数有这三点性质，那它一定是某个随机变量的分布函数

离散型随机变量 $X$ 的概率分布给出时， $X$ 的分布函数为： $$ F(x)=P{X\le x}=\sum_{x_i\le x}P{X=x_i}=\sum_{x_i\le x}p_i $$

若随机变量 $X$ 的分布函数为阶梯形函数，则一定是一个离散型随机变量

求分布函数或概率密度时，应当指出所有范围；例如分布里取 $0,1$ 的范围；概率密度为 $0$ 的范围

例：设随机变量 $X$ 的分布函数为： $$ F(x)=\begin{cases} 0,&x\le0\ x^2,&0<x<1\ 1,&x\ge1 \end{cases} $$ 求 $X$ 的密度函数。 $$ f(x)=F'(x)=\begin{cases} 0,&x\le0\ 2x,&0<x<1\ 0,&x\ge1 \end{cases}=\begin{cases} 2x,&0<x<1\ 0,&其他 \end{cases} $$

连续型随机变量及其概率分布

概率密度函数

若对随机变量 $X$ 的分布函数，存在非负可积函数 $f(x)$ ，使得对任意实数 $x$ 有 $$ F(x)=P{X\le x}=\int_{-\infty}^xf(t)dt $$ 称 $X$ 为连续型随机变量，称 $f(x)$ 为 $X$ 的概率密度函数，简称为概率密度或密度函数。

概率密度的性质为 $f(x)\ge0,\int_{-\infty}^{+\infty}f(x)dx=1$ ，满足上面性质的函数一定可以作为某一连续型随机变量的概率密度函数。

连续型随机变量分布函数的性质： $$ P{a < X\le b}=F(b)-F(a)=\int_a^bf(x)dx $$

$$ P{X=a}=0 $$

$$ P{a < X\le b}=P{a \le X < b}\=P{a\le X\le b}=P{a < X< b} $$

若 $f(x)$ 在点 $x$ 处连续，则： $$ F'(x)=f(x) $$ $X$ 落在小区间 $(x,x+\Delta x]$ 上的概率近似等于 $f(x)\Delta x$

均匀分布

若连续型随机变量 $X$ 的概率密度为： $$ f(x)=\begin{cases} \dfrac1{b-a},&a < x < b\ 0,&其他 \end{cases} $$ 称 $X$ 在区间 $(a,b)$ 上服从均匀分布，记作 $X\sim U(a,b)$

显然有 $P{c < X\le c+l}=\dfrac l{b-a}$

分布函数为： $$ F(x)=\begin{cases} 0,&x<a\ \dfrac{x-a}{b-a},&a\le x<b\ 1,&x\ge b \end{cases} $$

期望 $\dfrac{a+b}2$ ，方差 $\dfrac{(b-a)^2}{12}$

指数分布

若随机变量 $X$ 的概率密度为： $$ f(x)=\begin{cases} \lambda e^{-\lambda x},&x>0\ 0,&其他 \end{cases}\ ,\quad\lambda>0 $$ 则称 $X$ 服从参数为 $\lambda$ 的指数分布，简记为 $X\sim e(\lambda)$

可以发现是减函数，且 $x\to 0,f(x)\to\lambda$

期望 $\dfrac1\lambda$ ，方差 $\dfrac1{\lambda^2}$

正态分布

若随机变量 $X$ 的概率密度为： $$ f(x)=\dfrac1{\sqrt{2\pi}\sigma}e^{-\cfrac{(x-\mu)^2}{2\sigma^2}},\quad-\infty<x<\infty $$ 则称 $X$ 服从参数为 $\mu$ 和 $\sigma^2$ 的正态分布，记为 $X\sim N(\mu,\sigma^2)$ ，其中 $\mu,\sigma(\sigma>0)$ 是常数

利用泊松积分 $\int_{-\infty}^{+\infty}e^{t^2}dt=\sqrt\pi$ 可知 $\int_{-\infty}^{+\infty}f(x)dx=1$

图形特征：

关于 $x=\mu$ 对称

$x=\mu$ 最值为 $\dfrac1{\sqrt{2\pi}\sigma}$

在 $x=\mu\pm\sigma$ 处有拐点且以 $x$ 轴为渐近线

$\sigma$ 越小，越陡峭

分布函数： $$ F(x)=\dfrac1{\sqrt{2\pi}\sigma}\int_{-\infty}^xe^{-\cfrac{(t-\mu)^2}{2\sigma^2}}dt,-\infty <x<+\infty $$

当 $\mu=0,\sigma=1$ 时称为标准正态分布，密度函数和分布函数分别为： $$ \varphi(x)=\dfrac1{\sqrt{2\pi}}e^{-\cfrac{x^2}2},\quad\Phi(x)=\dfrac1{\sqrt{2\pi}}\int_{-\infty}^xe^{-\cfrac{t^2}2}dt $$

定理：设 $X\sim N(\mu,\sigma^2)$ ，则 $Y=\dfrac{X-\mu}{\sigma}\sim N(0,1)$

证明： $P{Y\le x}=P{X\le \mu+\sigma x}$ ，然后积分换元易得

有附录标准正态分布表

对 $X\sim N(\mu,\sigma^2)$ ，有 $P{a< X\le b}=\Phi\left(\dfrac{b-\mu}\sigma\right)-\Phi\left(\dfrac{a-\mu}\sigma\right)$

善用对称性

例：设 $X\sim N(1,4)$ ，求 $F(5), P{0< X\le1.6},P{|X-1|\le2}$

$F(5)=\Phi(\dfrac{5-1}2)$ , $P{0<X\le1.6}=\Phi(\dfrac{1.6-1}2)-\Phi(\dfrac{0-1}2)$ ,

$P{|X-1|\le 2}=P{-1\le\dfrac{X-1}2\le1}=2\Phi(1)-1$

设 $X\sim N(\mu,\sigma^2)$ ，则： $$ P{\mu-\sigma< X\le \mu+\sigma}=\Phi(1)-\Phi(-1)=2\Phi(1)-1=0.6826\ P{\mu-2\sigma< X\le \mu+2\sigma}=\Phi(2)-\Phi(-2)=2\Phi(2)-1=0.9544\ P{\mu-3\sigma< X\le \mu+3\sigma}=\Phi(3)-\Phi(-3)=2\Phi(3)-1=0.9974 $$

这在统计学上称为 $3\sigma$ 准则(三倍标准差原则)

正态分布是概率论最重要的分布

显然期望是 $\mu$ ，方差是 $\sigma^2$

随机变量函数的分布

若存在一个函数 $g(x)$ ，使得随机变量 $X,Y$ 满足 $Y=g(X)$ ，则称随机变量 $Y$ 是随机变量 $X$ 的函数。

离散型随机变量的函数还是离散型随机变量，而连续型随机变量的函数不一定是连续型随机变量

例：设随机变量 $X$ 具有以下分布律，试求 $Y=(X-1)^2$ 的分布律

$X$ -1 0 1 2

$p_i$ 0.2 0.3 0.1 0.4

得：

$Y$ 0 1 4

$p_i$ 0.1 0.7 0.2

例：设 $X\sim N(0,1), Y=e^X$ ，求 $Y$ 的概率密度函数

设 $F_Y(y),f_Y(y)$ 分别是随机变量 $Y$ 的分布函数和概率密度函数， $y\le0$ 时，$P{e^X\le y}=P{\empty}=0$,

$y>0$ 时，因为 $g(x)=e^x$ 是 $x$ 的严格单调递增函数，所以有： $$ {e^X\le Y}={X\le\ln Y} $$ 所以有： $$ F_Y(y)=\dfrac1{\sqrt{2\pi}}\int_{-\infty}^{\ln y}e^{-\cfrac{x^2}2}dx $$ 由 $f_Y(y)=F'Y(y)$ 得，根据变限积分求导公式即 $$ g(x)=\int{-\infty}^{h(x)}f(t)dt\Rightarrow g'(x)=h'(x)f(h(x)) $$ 可知： $$ f_Y(y)=\begin{cases} \dfrac1{\sqrt{2\pi}y}e^{-\dfrac{(\ln y)^2}2},&y>0\ 0,&y\le0 \end{cases} $$ 称上式 $Y$ 服从对数正态分布

例：设 $X\sim f_X(x)=\begin{cases}\dfrac x8,&0<x<4\0,&其他\end{cases}$ ，求 $Y=2X+8$ 的概率密度

设 $Y$ 的分布函数为 $F_Y(y)=P{2X+8\le y}=P{X\le\dfrac{y-8}2}=F_X(\dfrac{y-8}2)$

于是 $Y$ 的密度函数为 $f_Y(y)=\dfrac{dF_Y(y)}{dy}=f_X(\dfrac{y-8}2)\cdot\dfrac12$

注意到 $0< x<4$ 即 $8<y<16$ 时， $f_X(\dfrac{y-8}2)\neq0$ ，此时： $$ F_X(\dfrac{y-8}2)=\dfrac{y-8}{16} $$ 故： $$ f_Y(y)=\begin{cases} \dfrac{y-8}{32},&8<y<16\ 0,&其他 \end{cases} $$

定理：设随机变量 $X$ 有概率密度函数 $f_X(x),x\in(-\infty,\infty)$ ，设 $y=g(x)$ 处处可导且 $g'(x)>0$ 恒成立(或 $g'(x)<0$) (即严格单调)，则 $Y=g(x)$ 是连续型随机变量，概率密度为： $$ f_Y(y)=\begin{cases} f_X[h(y)]|h'(y)|,&\alpha<x<\beta\ 0,&其他 \end{cases} $$ 其中 $x=h(y)$ 是 $y=g(x)$ 的反函数，且 $\alpha=\min(g(-\infty),g(+\infty)),\beta=\max(g(-\infty),g(+\infty))$

若 $f(x)$ 在有限区间 $[a,b]$ 外恒为零，只需要假设 $[a,b]$ 上恒有 $g'(x)>0$ 或 $g'(x)<0$ ，此时：$\alpha=\min{g(a),g(b)},\beta=\max{g(a),g(b)}$

由此可证：若 $X\sim N(\mu,\sigma^2)$ 则 $Y=aX+b\sim N(a\mu +b,(a\mu)^2)$

例：设随机变量 $X$ 在 $(0,1)$ 服从均匀分布，求 $Y=-2\ln X$ 的概率密度：

在区间内， $\ln x<0$ ，所以 $y=-2\ln x>0,y'=-\dfrac2x<0$ ，单调递减，有反函数： $x=h(y)=e^{-\cfrac y2}$ ，根据定理： $$ f_Y(y)=\begin{cases} f_X(e^{-\cfrac y2})\left|\dfrac{d(e^{-\cfrac y2})}{dy}\right|,&0<e^{-\cfrac y2}<1\ 0,&其他 \end{cases} $$ 已知 $X$ 在 $(0,1)$ 服从均匀分布： $$ f_X(x)=\begin{cases}1,&0<x<1\0,&其他\end{cases} $$ 代入得： $$ f_Y(y)=\begin{cases}\dfrac{e^{-\cfrac y2}}2,&y>0\0,&其他 \end{cases} $$ 即 $Y$ 服从参数为 $\dfrac12$ 的指数分布

多维随机变量及其分布

二维随机变量及其分布

分布函数

设随机试验的样本空间为 $S,\omega\in S$ 为样本点，而 $X=X(\omega),Y=Y(\omega)$ 是定义在 $S$ 上的两个随机变量，称 $(X,Y)$ 为定义在 $S$ 上的二维随机变量或二维随机向量。拓展开，有 $n$ 维。

设 $(X,Y)$ 是二维随机变量，对任意实数 $x,y$ ，二元函数： $$ F(x,y)=P{(X\le x)\cap(Y\le y)}\overset{记为}{=} P{X\le x,Y\le y} $$ 称为二维随机变量 $(X,Y)$ 的分布函数或称为随机变量 $X$ 和 $Y$ 的联合分布函数

显然有： $$ P{x_1< x\le x_2, y_1<Y\le y_2}\= F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1) $$

若已知 $(X,Y)$ 的分布函数 $F(x,y)$ ，则可以由其导出 $X,Y$ 各自的分布函数 $F_X(x)$ 和 $F_Y(y)$ ，为 $F(x,y)$ 关于 $X$ 和 $Y$ 的边缘分布函数 $$ F_X(x)=P{X\le x}=P{X\le x,Y<+\infty}=F(x,+\infty)\ F_Y(y)=P{Y\le y}=P{X<+\infty,y\le y}=F(+\infty,y) $$

联合分布的性质：

$0\le F(x,y)\le1$

对任意固定的 $y$ , $F(-\infty,y)=0$

对任意固定的 $x$ , $F(x,-\infty)=0$

$F(-\infty,-\infty)=0,F(+\infty,+\infty)=1$

$F(x,y)$ 关于 $x,y$ 都是单调非减函数

$F(x,y)$ 关于 $x,y$ 均为右连续即：

$F(x,y)=F(x+0,y)=F(x,y+0)$

对任意四个实数 $x_1<x_2,y_1<y_2$ ，有： $$ F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)\ge0 $$

根据性质可以确定未知常数，或验证二元函数是否是某二维随机变量的分布函数，性质4是二维分布函数特有的

概率密度

若二维随机变量 $(X,Y)$ 只有有限个或可数个值，成为二维离散型随机变量

当且即当 $X,Y$ 均为离散型随机变量成立

若二维随机变量 $(X,Y)$ 所有可能的取值为 $(x_i,y_j),i,j=1,2,\cdots$ ，则称 $P{X=x_i,Y=y_j}=p_{ij}(i,j=1,2,\cdots)$ 为二维离散型随机变量 $(X,Y)$ 的概率分布(分布律)，或 $X$ 与 $Y$ 的联合概率分布(分布律)

常用二维表格形式表示，且可增设一行 $P{X=x_i}$ ，一列 $P{Y=y_j}$ ，可见表格有 $2$ 条竖线和 $4$ 条横线，称为联合概率分布表

对： $$ p_{i\cdot}=P{X=x_i}=\sum_jp_{ij},\quad i=1,2,\cdots\ p_{\cdot j}=P{Y=y_j}=\sum_ip_{ij},\quad j=1,2,\cdots $$ 分别为 $(X,Y)$ 关于 $X$, $Y$ 的边缘概率分布 (分别是表的行和，列和)

设 $(X,Y)$ 为二维随机变量， $F(x,y)$ 为其分布函数，若存在非负可积二元函数 $f(x,y)$ ，对任意实数 $x,y$ ，有： $$ F(x,y)=\int_{-\infty}^x\int_{-\infty}^yf(s,t)dsdt $$ 则称 $(X,Y)$ 为二维连续型随机变量，并称 $f(x,y)$ 为 $(X,Y)$ 的概率密度(密度函数)，或 $X,Y$ 的联合概率密度(密度函数)

性质： $f(x,y)\ge0,\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(x,y)dxdy=1$ ，设 $D$ 是 $xOy$ 平面上区域，点 $(X,Y)$ 落在 $D$ 的概率为 $P{(x,y)\in D}=\iint_Df(x,y)dxdy$

边缘分布函数： $$ F_X(x)=P{X\le x}=P{X\le x,y<+\infty}\ =\int_{-\infty}^x\int_{-\infty}^{+\infty}f(s,t)dsdt=\int_{-\infty}^x\left[\int_{-\infty}^{+\infty}f(s,t)dt\right]ds $$

所以 $X$ 是连续型随机变量，密度函数为 $f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy$

同理 $Y$ 是连续型随机变量，密度函数为 $f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx$

分别称其为 $(X,Y)$ 关于 $X,Y$ 的边缘密度函数

若 $f(x,y)$ 在点 $(x,y)$ 处连续，则有： $$ \dfrac{\partial^2F(x,y)}{\partial x\partial y}=f(x,y) $$ 根据偏导数定义，当 $\Delta x,\Delta y$ 很小时， $(x,y)$ 落在 $(x,x+\Delta x]\times(y,y+\Delta y]$ 的概率近似于 $f(x,y)\Delta x\Delta y$

例：设二维随机变量 $(X,Y)$ 具有概率密度： $$ f(x,y)=\begin{cases} 2e^{-(2x+y)},&x>0,y>0\ 0,&其他 \end{cases} $$ 求分布函数 $F(x,y)$ ，求概率 $P{Y\le X}$ $$ F(x,y)=\begin{cases} \int_0^y\int_0^x2e^{-(2s+t)}dsdt,&x>0,y>0\ 0,&其他 \end{cases} $$ 将 $e$ 拆分，各自积分，可得： $$ F(x,y)=\begin{cases} (1-e^{-2x})(1-e^{-y}),&x>0,y>0\ 0,&其他 \end{cases} $$ 同理，求积分得，求 $y=x$ 下方部分积分： $$ \int_0^{+\infty}\int_y^{+\infty}2e^{-(2x+y)}dxdy=\int_0^{+\infty}e^{-3y}dy=\dfrac13 $$

注：也可以积 $\int_0^\infty\int_0^x2e^{-(2x+y)}dydx$ ，但是没那么好积

设 $(X,Y)$ 的概率密度是 $$ f(x,y)=\begin{cases} cy(2-x),&0\le x\le1,0\le y\le x\ 0,&其他 \end{cases} $$ 求 $c$ 的值和两个边缘密度

求解方程 $\int_0^1\int_0^xcy(2-x)dydx=1$ 可得 $c=\dfrac{24}5$

求 $f_X(x)=\int_0^x\dfrac{24}5y(2-x)dy(0\le x\le1)$

求 $f_Y(y)=\int_y^1\dfrac{24}5y(2-x)dx(0\le y\le1)$

(注意后者范围不是 $\int_0^1$ ，你参数呢？定义域不等式应该归纳为$0\le y\le x\le1$)

于是： $$ f_X(x)=\begin{cases} \dfrac{12}5x^2(2-x),&0\le x\le1\ 0,&其他 \end{cases} \ f_Y(y)=\begin{cases} \dfrac{24}5y(\dfrac32-2y+\dfrac{y^2}2),&0\le y\le1\ 0,&其他 \end{cases} $$

二维均匀分布、二维正态分布略

条件分布与随机变量的独立性

条件分布

设 $X$ 是一个随机变量，其分布函数为 $F_X(x)=P{X\le x},-\infty<x<+\infty$ ，若另外有一事件 $A$ 已经发生，并且 $A$ 的发生可能会对事件 ${X\le x}$ 发生的概率产生影响，则对任一给定的实数 $x$ ，记： $$ F(x|A)=P{X\le x|A},-\infty<x<+\infty $$ 称 $F(x|A)$ 为在 $A$ 发生的条件下， $X$ 的条件分布函数

设 $X$ 服从 $[0,1]$ 上的均匀分布，求在已知条件 $X>\dfrac12$ 下 $X$ 的条件分布函数： $$ F(x|X>\dfrac12)=\dfrac{P{X\le x,X>\dfrac12}}{P{X>\dfrac12}} $$ 分类讨论，得： $$ F(x|X>\dfrac12)=\begin{cases} 0,&x\le\dfrac12\ 2x-1,&\dfrac12<x\le1\ 1,&x>1 \end{cases} $$

注：$P{X>\dfrac12}=\dfrac12$, $X>\dfrac12$ 时，分子为 $F(x)-F(\dfrac12)$

随机变量的独立性

设 $A$ 是随机变量 $Y$ 所生成的事件： $A={Y\le y}$ ，且 $P{Y\le y}>0$ ，则有： $$ F(x|Y\le y)=\dfrac{P{X\le x,Y\le y}}{P{Y\le y}}=\dfrac{F(x,y)}{F_Y(y)} $$

设随机变量 $(X,Y)$ 的联合分布函数为 $F(x,y)$ ，边缘分布函数为 $F_X(x),F_Y(y)$ ，若对任意实数 $x,y$ ，有： $$ P{X\le x,Y\le y}=P{X\le x}P{Y\le y},\ F(x,y)=F_X(x)F_Y(y) $$ 则称随机变量 $X$ 和 $Y$ 相互独立

若相互独立，则联合分布可由边缘分布唯一确定

定理：随机变量 $X,Y$ 相互独立的充要条件是 $X$ 所生成的任何事件与 $Y$ 所生成的任何事件独立，即对任意实数集 $A,B$ ，有: $$ P{X\in A, Y\in B}=P{X\in A}P{Y\in B} $$

如果随机变量 $X,Y$ 相互独立，则对任意函数 $g_1(x),g_2(y)$ 均有 $g_2(X),g_2(Y)$ 相互独立

由上述定理可证；可以推广到 $n$ 个随机变量独立性

离散型随机变量

设 $(X,Y)$ 是二维离散型随机变量，由条件概率公式， $P{Y=y_j>0}$ 时，有： $$ P{X=x_i|Y=y_j}=\dfrac{p_{ij}}{p_{\cdot j}} $$ 称其为在 $Y=y_j$ 条件下随机变量 $X$ 的条件概率分布 ，类似定义另一维

条件概率是概率分布，具有概率分布的一切性质

若对离散型随机变量 $(X,Y)$ ，所有可能取值 $(x_i,y_j)$ ，有： $$ P{X=x_i,Y=y_j}=P{X=x_i}P{Y=y_j} $$ 则称 $X$ 和 $Y$ 相互独立

例：设 $X$ 与 $Y$ 的联合概率分布为

X\Y -1 0 2

0 0.1 0.2 0

1 0.3 0.05 0.1

2 0.15 0 0.1

求 $Y=0$ 时 $X$ 的条件概率分布，判断 $X$ 与 $Y$ 是否相互独立

$P{X=0|Y=0}=0.8$ , $P{X=1|Y=0}=0.2$ , $P{X=2|Y=0}=0$

由于 $P{X=0,Y=-1}\neq P{X=0}P{Y=-1}$ 所以不独立

例：设随机变量 $X,Y$ 相互独立，已知部分联合分布律和边缘分布律，填表：

X\Y $y_1$ $y_2$ $y_3$ $P{X=x_i}=p_{i\cdot}$

$x_1$ $\dfrac18$

$x_2$ $\dfrac18$

$P{Y=y_j}=p_{\cdot j}$ $\dfrac16$ $1$

根据第一列作减法，可得 $P{X=x_1,Y=y_1}=\dfrac1{24}$ ，

根据 $P{X=x_1,Y=y_1}=p{X=x_1}P{Y=y_1}$ 解得 $P{X=x_1}=\dfrac14$ ，那么同理可填完整个表格，一种解法是具体为：

设未知量 $x,y,a,b$ ，得：

X\Y $y_1$ $y_2$ $y_3$ $P{X=x_i}=p_{i\cdot}$

$x_1$ $\dfrac1{24}$ $\dfrac18$ $\dfrac1{12}$ $\dfrac14$

$x_2$ $\dfrac18$ $x$ $y$ $\dfrac34$

$P{Y=y_j}=p_{\cdot j}$ $\dfrac16$ $a$ $b$ $1$

根据相互独立，有 $x=\dfrac34a,y=\dfrac34b$ ，根据第二列和第三列可得等式：

$\dfrac18+x=a,\dfrac1{12}+y=b$ ，解得：

X\Y $y_1$ $y_2$ $y_3$ $P{X=x_i}=p_{i\cdot}$

$x_1$ $\dfrac1{24}$ $\dfrac18$ $\dfrac1{12}$ $\dfrac14$

$x_2$ $\dfrac18$ $\dfrac38$ $\dfrac14$ $\dfrac34$

$P{Y=y_j}=p_{\cdot j}$ $\dfrac16$ $\dfrac12$ $\dfrac13$ $1$

连续型随机变量

设二维连续型随机变量 $(X,Y)$ 的概率密度为 $f(x,y)$ ，边缘概率密度为 $f_X(x),f_Y(y)$ ，则对一切使 $f_X(x)>0$ 的 $x$ ，定义在 $X=x$ 的条件下 $Y$ 的条件概率函数为： $$ f_{Y|X}(y|x)=\dfrac{f(x,y)}{f_X(x)} $$ 同理定义： $$ f_{X|Y}(x|y)=\dfrac{f(x,y)}{f_Y(y)} $$

即 $f_{X|Y}(x|y)dx=P{x\le X<x+dx|y\le Y<y+dy}$

用条件概率可以在已知某一随机变量值的条件下，定义与另一随机变量有关的事件的条件概率，即若 $(X,Y)$ 是连续型随机变量，则对任意集合 $A$ $$ P{X\in A|Y=y}=\int_Af_{X|Y}(x|y)dx $$ 特别地取 $A=(-\infty,x)$ ，定义在已知 $Y=y$ 的条件下 $X$ 的条件分布函数为： $$ F_{X|Y}(x|y)=P{X\le x|Y=y}=\int_{-\infty}^xf_{X|Y}(t|y)dt $$

对二维连续型随机变量 $(X,Y)$ ，其独立性的定义等价于：若对任意 $x,y$ ，有：$f(x,y)=f_X(x)f_Y(y)$ 几乎处处成立，则称 $X,Y$ 相互独立(在平面上除去面积为零的集合外，处处成立)

忽略了二维均匀分布的一道例题

二维随机变量函数的分布

设 $(X,Y)$ 是二维连续型随机变量，其概率密度函数为 $f(x,y)$ ，则 $Z=X+Y$ 的概率密度函数 $f_Z(z)$ ，分布函数为 $F_Z(z)$ ，则 $$ F_Z(z)=P{X+Y\le z}=\iint_{x+y\le z}f(x,y)dxdy $$ 得 $f_Z(z)=F'Z(z)=\int{-\infty}^{+\infty}f(z-y,y)dy=\int_{-\infty}^{+\infty}f(x,z-x)dx$

若 $X,Y$ 独立，可以继续拆分为两个边缘密度函数，称为卷积公式： $$ f_Z(z)=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy\ f_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx $$

设 $X,Y$ 相互独立， $X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)$ ，则： $$ Z=X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2) $$

由卷积公式和泊松积分可证

下略，好像不考，这一节作了无用笔记

随机变量的数字特征

数学期望

设离散型随机变量 $X$ 的概率分布为 $P{X=x_i}=p_i,i=1,2,\cdots$ ，如果级数 $\sum_{i=1}^\infty x_ip_i$ 绝对收敛，则定义 $X$ 的数学期望(又称均值)为： $$ E(X)=\sum_{i=1}^\infty x_ip_i $$ 有时候简写为 $EX$ ；数学期望是对随机变量取值水平的综合评价

设 $X$ 是连续型随机变量，密度函数为 $f(x)$ ，如果 $\int_{-\infty}^{+\infty}xf(x)dx$ 绝对收敛，则定义 $X$ 的数学期望为： $$ E(X)=\int_{-\infty}^{+\infty}xf(x)dx $$

并非所有随机变量都有数学期望

设 $X$ 是一个随机变量，$Y=g(X),E(Y)$ 存在：

若 $X$ 为离散型随机变量，则 $Y$ 数学期望为： $$ E(Y)=E(g(X))=\sum_{i=1}^\infty g(x_i)p_i $$
若 $X$ 为连续型随机变量，则 $Y$ 数学期望为： $$ E(Y)=\int_{-\infty}^{+\infty}g(x)f(x)dx $$

设 $(X,Y)$ 是二维随机变量， $Z=g(X,Y), E(Z)$ 存在：

若 $(X,Y)$ 为离散型随机变量，则 $Z$ 数学期望为： $$ E(Z)=E(g(X))=\sum_{i=1}^\infty\sum_{j=1}^\infty g(x_i, y_j)p_{ij} $$
若 $(X,Y)$ 为连续型随机变量，则 $Z$ 数学期望为： $$ E(Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy $$

$n$ 维类似推广

例：设随机变量 $X\sim N(0,1),$ 求 $E(X^2)$ $$ \begin{align} E(X^2)&=\int_{-\infty}^{+\infty}x^2\dfrac1{\sqrt{2\pi}}e^{-\cfrac{x^2}2}dx\ &=\dfrac1{\sqrt{2\pi}}\int_{-\infty}^{+\infty}x^2e^{-\cfrac{x^2}2}dx\ &=\dfrac1{2\sqrt{2\pi}}\int_{-\infty}^{+\infty}xe^{-\cfrac{x^2}2}dx^2\ &=-\dfrac1{\sqrt{2\pi}}\int_{-\infty}^{+\infty}xe^{-\cfrac{x^2}2}d(-\dfrac{x^2}2) \end{align} $$ 由分部积分公式： $$ \int u(x)v'(x)dx=u(x)v(x)-\int u'(x)v(x)dx $$ 原式： $$ \begin{align} E(X^2)&= -\dfrac x{\sqrt{2\pi}}e^{-\cfrac{x^2}2}\huge\vert\large_{-\infty}^{+\infty} \normalsize+\dfrac1{\sqrt{2\pi}}\int_{-\infty}^{+\infty}e^{-\cfrac{x^2}2}dx\ \end{align} $$ 对左边， $x\to+\infty$ 时， $e^{-\cfrac{x^2}2}\to0$ ，根据洛必达法则： $$ \dfrac{x}{e^{\cfrac{x^2}2}}\to\dfrac{1}{xe^{\cfrac{x^2}2}} $$ 此时分母是两个正无穷，分式得 $0$ ；

对 $x\to-\infty$ ，根据$-\infty\times+\infty=-\infty$，得也是 $0$

对右边，转化为泊松积分： $$ \dfrac1{\sqrt2\pi}\int_{-\infty}^{+\infty}\sqrt 2e^{-\left(\cfrac{x}{\sqrt2}\right)^2}d\left(\dfrac x{\sqrt 2}\right)=\dfrac1{\sqrt2\pi}\sqrt 2\cdot\sqrt\pi=1 $$ 所以原式 $E(X^2)=0+1=1$

数学期望的性质：

若 $C$ 是常数，则 $E(C)=C,E(CX)=CE(X)$

$E(X_1+X_2)=E(X_1)+E(X_2)$

若 $X,Y$ 相互独立，则 $E(XY)=E(X)E(Y)$

例：有 $20$ 人的公交车，有 $10$ 个站，如果到达一个站没人下车就不停车，人在各站下车等可能，停车次数为 $X$ ，求 $E(X)$

设随机变量 $X_i=\begin{cases}0,&在第i站没有人下车\1,&在第i站有人下车\end{cases},i=1,2,\cdots,10$

则： $X=X_1+\cdots+X_{10}$

根据题意，每个人显然在第一次到站前就知道自己要不要下车，且选好了一个下车站；那么对任意一个站，不下车率为 $\dfrac9{10}$ ，那么停车率为 $1-(\dfrac9{10})^{20}$ ，那么 $E(X)=10[1-(\dfrac9{10})^{20}]\approx8.784$

方差

衡量取值的稳定性，即在均值附近的平均偏离程度；有时简写为 $DX$

设 $X$ 是一个随机变量，若 $D(X)=E[X-E(X)]^2$ 存在，则为 $X$ 的方差

方差的算术平方根 $\sqrt{D(X)}$ 称为标准差或均方差。与 $X$ 具有相同度量单位；若 $D(X)=0$ ，则必然取常数， $X$ 不是随机变量

对离散型随机变量： $$ D(X)=\sum_{i=1}^\infty[x_i-E(X)]^2p_i $$ 对连续型随机变量： $$ D(X)=\int_{-\infty}^{+\infty}[x-E(X)]^2f(x)dx $$ 计算公式： $D(X)=E(X^2)-[E(X)]^2$

若随机变量 $X$ 期望为 $E(X)=\mu,D(X)=\sigma^2\neq0$ ，记 $X^*=\dfrac{X-\mu}{\sigma}$

则 $X^*$ 期望为 $0$ ，方差为 $1$ ，称为 $X$ 的标准化随机变量

例：求证指数分布的期望和方差($f(x)=\begin{cases}\dfrac1\theta e^{-\cfrac x\theta},&x>0\0,&x\le 0\end{cases}$,$\theta>0$)

$E(X)$ 直接由积分定义，用分部积分可得： $$ E(X)=\int_0^{+\infty}x\dfrac1\theta e^{-\cfrac x\theta}dx=\theta $$ 根据分部积分口诀：

不动：反三角函数、对数函数、幂函数(幂不动性差些)

动：三角函数、常数函数、指数函数

对 $E(X^2)$ ,考虑动指数函数，不动幂($x^2$) ，如下所示： $$ \begin{align} E(X^2)&=\int_0^{+\infty}x\dfrac1\theta e^{-\cfrac x\theta}dx\ &=-\int_0^{+\infty}x^2d\left(e^{-\cfrac x\theta}\right)\ &=-(0-\int_0^{+\theta} e^{-\cfrac x\theta}dx^2)\ &=2\int_0^{+\theta} e^{-\cfrac x\theta}xdx\ &=2\theta E(X)=2\theta^2 \end{align} $$ 那么有： $D(X)=E(X^2)-[E(X)]^2=\theta$

方差的性质：

设 $C$ 是常数，则 $D(C)=0$ ，$D(CX)=C^2D(X)$

若 $X,Y$ 相互独立，则 $D(X\pm Y)=D(X)+D(Y)$ (注意都是加)

上式可以拓展到 $n$ 个相互独立的变量

例：设 $f(x)=E(X-x)^2$ ，求证 $x=E(X)$ 时 $f(x)$ 达到最小值

展开，两边求导(常数归$0$) 得：$f'(x)=2x-2E(X)$ ， $f''(x)=2>0$ ，那么显然 $x=E(X)$ 取最小值，最小值为 $f(E(X))=D(X)$

例：根据 $Z=\dfrac{X-\mu}\sigma$ ，设 $Z$ 是标准正态分布，根据上文求得 $E(Z^2)=1$ ，故可知 $E,D$ ，那么根据 $X=\mu+\sigma Z$ 可得 $X$ 的均值方差，显然 $E(Z)=0,E(\mu)=\mu,D(\mu)=0,D(Z)=1$ ，易得 $E(X)=\mu,D(X)=\sigma^2$

协方差与相关系数

协方差

设 $(X,Y)$ 为二维随机变量，若存在，则称下面为协方差： $$ cov(X,Y)=E{[X-E(X)][Y-E(Y)]} $$

若为离散型随机变量，则 $$ cov(X,Y)=\sum_{i,j}[x_i-E(X)][y_i-E(Y)]p_{ij} $$ 若为连续型随机变量，则： $$ cov(X,Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}[x-E(X)][y-E(Y)]f(x,y)dxdy $$

$cov(X,Y)=E(XY)-E(X)E(Y)$

基本性质：

$cov(X,X)=D(X)$
$cov(X,Y)=cov(Y,X)$
$cov(aX,bY)=abcov(X,Y)$
$cov(C,X)=0$ , $C$ 为任意常数
$cov(X_1+X_2,y)=cov(X_1,Y)+cov(X_2,Y)$
若 $X,Y$ 独立，则 $cov(X,Y)=0$

第六点，反之不成立，例如 $Y=X^2,X\sim U(-1,1)$，可以积分算出 $Cov(X,Y)=E(X^3)-E(X)E(X^2)=0$。但 $Y$ 随着 $X$ 变化而变化显然不独立。

且有关系： $$ D(X\pm Y)=D(X)+D(Y)\pm 2cov(X,Y) $$

可以推广到 $n$ 个加起来，则加上 $2$ 倍两两协方差

若协方差存在，则： $$ |cov(X,Y)|\le E|[X-E(X)][Y-E(Y)]|\le\sqrt{D(X)}\sqrt{D(Y)} $$

例：

X\Y -1 0 2

0 0.1 0.2 0

1 0.3 0.05 0.1

2 0.15 0 0.1

对上表给定的离散型随机变量 $(X,Y)$ ，求 $cov(X,Y)$

可得 $E(X)=0.95,E(Y)=-0.15,E(XY)=0,cov(X,Y)=0.1425$

其中 $E(XY)=\sum\sum xyp_{x,y}$

例：设连续型随机变量 $(X,Y)$ 密度函数如下，求 $cov(X,Y)$： $$ f(x,y)=\begin{cases} 8xy,&0\le x\le y\le1\ 0,&其他 \end{cases} $$ 求得边缘密度函数 $$ f_X(x)=\begin{cases}4x(1-x^2),&0\le x\le1\0,&其他\end{cases}\ f_Y(y)=\begin{cases}4y^3,&0\le y\le1\0,&其他\end{cases} $$ 然后求三个期望，知 $E(X)=\dfrac8{15},E(Y)=\dfrac45,E(XY)=\dfrac49$

$cov(X,Y)=\dfrac4{225}$

矩

设 $X,Y$ 为随机变量， $k,l$ 为正整数，称：

$k$ 阶原点矩($k$ 阶矩) 为 $E(X^k)$

$k$ 阶中心矩为 $E{[X-E(X)]^k}$

$k$ 阶绝对原点矩，$k$阶绝对中心矩 在上述上加绝对值

$X$ 和 $Y$ 的 $k+l$ 阶混合矩为 $E(X^kY^l)$ ，

它们的 $k+l$ 阶混合中心矩为： $E{[X-E(X)]^k[Y-e(Y)]^l}$

显然数学期望是一阶原点矩，方差是二阶中心距，协方差是二阶混合中心距

协方差矩阵，$n$维正态分布概率密度等略

大数定律和中心极限定理

切比雪夫不等式

Chebyshev‘s Inequality。提供了一个界限，描述了一个随机变量偏离其期望值的概率。

最早的一个大数定律是当试验的次数无限增大时，事件发生的频率在某种收敛意义下逼近某一定数(时间发生的概率)；一般的大数定律讨论 $n$ 个随机变量的平均值的稳定性

切比雪夫不等式 ，设随机变量 $X$ 的期望 $E(X)=\mu$ ，方差 $D(X)=\sigma^2$ ，对任意正数 $\epsilon$ ，有： $$ P{|X-\mu|\ge \epsilon}\le \dfrac{\sigma^2}{\epsilon^2} $$ 也可以写成： $$ P{|X-\mu|< \epsilon}\ge1- \dfrac{\sigma^2}{\epsilon^2} $$

不等式表明，随机变量 $X$ 的方差越小，则事件 ${|X-\mu|<\epsilon}$ 发生的概率越大，$X$ 取值基本集中在它的期望 $\mu$ 附近；

取 $\epsilon=3\sigma$，得偏差率为 $0.111$ (即$\dfrac1{3^2}=\dfrac19$)，所以对任意给定的分布，只要存在期望和方差，取值偏离三倍方差的概率小于 $0.111$

例：每次试验发生 $A$ 的概率为 $0.75$ ，求独立试验次数 $n$ 最小取何值时，事件 $A$ 出现的频率在 $0.74\sim 0.76$ 之间的概率至少为 $0.90$

设 $X$ 为 $n$ 次试验中出现 $A$ 的次数，则 $X\sim b(n,0.75)$ ，求得 $\mu=0.75n,\sigma=0.1875n$ ，即求最小 $n$ ，使得不等式满足： $$ P{0.74< \dfrac Xn<0.76}\ge0.90 $$ 转化为 $P{-0.01n< X-0.75n<0.01n}=P{|X-\mu|<0.01n}$ ，在切比雪夫不等式取 $\epsilon=0.01n$ ，则： $$ P{|X-\mu|<0.01n}\ge1-\dfrac{\sigma^2}{(0.01n)^2}=1-\dfrac{1875}{n}\ge0.90 $$ 解得 $n\ge18750$

大数定律

大数定律 (Law of Large Numbers, LLN)：在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。

设随机变量 $X_1,\cdots ,X_n,\cdots$ 相互独立，且期望和方差相等，均为 $\mu,\sigma^2$

设 $Y_n=\dfrac1n\sum_{i=1}^nX_i$ ，则对任意 $\epsilon>0$ ，有： $$ \lim_{n\to\infty}P{|Y_n-\mu|<\epsilon}=1 $$ 切比雪夫不等式可证之，这里略去；记作随机变量序列 $Y_1,\cdots,Y_n,\cdots$ 依概率收敛于 $\mu$ ， $Y_n\overset{P}{\to}\mu$

伯努利原理：$n_A$ 是发生数，则有： $$ \lim_{n\to\infty} P{|\dfrac{n_A}n-p|<\epsilon}=1 $$ 小概率原理：概率很小的随机事件在个别试验中几乎不会发生

中心极限定理

central limit theorem CLT

描述了给定大小的样本均值的分布趋近于正态分布的现象，这一现象在样本大小足够大时总是成立，无论原始数据的分布形态如何。

IID（独立同分布，Independent and Identically Distributed）

设随机变量 $X_1,X_2,\cdots, X_n,\cdots$ 相互独立，服从同一分布，且 $E(X_i)=\mu,D(X_i)=\sigma^2(i=1,2,\cdots)$ ，则： $$ \lim_{n\to\infty} P\left{ \dfrac{\sum_{i=1}^nX_i-n\mu}{\sigma\sqrt n}\le x \right}= \int_{-\infty}^x \dfrac1{\sqrt{2\pi}}e^{-\cfrac{t^2}2}dt $$ 即： $$ \dfrac{\sum_{i=1}^nX_i-n\mu}{\sigma\sqrt n} =\dfrac{\dfrac1n\sum_{i=1}^nX_i-\mu}{\dfrac{\sigma}{\sqrt n}} \overset{近似}{\sim}N(0,1) $$

$$ \overline X=\dfrac1n\sum_{i=1}^nX_i\overset{近似}{\sim}N(\mu,\dfrac{\sigma^2}n) $$

例：一盒有 $100$ 个螺丝钉，种类是一个随机变量，期望值 $100$ g，标准差 $10$ g，求一盒重量超过 $10.2$ kg 的概率

设 $X_i$ 为第 $i$ 个螺丝钉的重量，$i=1,\cdots,100$ ，且它们之间独立同分布，一盒重量为 $X=\sum_{i=1}^{100}X_i$ 且 $\mu=E(X_i)=100,\sigma=\sqrt{D(X_i)}=10,n=100$

由中心极限定理，有： $$ \begin{align} P{X>10200}&=P\left{ \dfrac{\sum_{i=1}^nX_i-n\mu}{\sigma\sqrt n} > \dfrac{10200-n\mu}{\sigma\sqrt n} \right}\ &=P\left{ \dfrac{X-10000}{100}>2 \right}\ &=1-P\left{ \dfrac{X-10000}{100}\le2 \right}\ &\approx1-\Phi(2)=0.0228 \end{align} $$ 舍入的误差服从 $[-0.5,0.5]$ 上的均匀分布，若计算中舍去了 $100$ 次，求平均误差落在区间 $\left[-\dfrac{\sqrt3}{20},\dfrac{\sqrt3}{20}\right]$ 概率

求出均匀分布均值方差，计算得 $Y_{100}=\dfrac{\sqrt3}5\sum_{i=1}^{100}X_i\sim N(0,1)$

转化不等式： $$ P\left{ -\dfrac{\sqrt3}{20}\le\dfrac1{100}\sum_{i=1}^{100}X_i\le\dfrac{\sqrt3}{20} \right}=P\left{ -3\le\dfrac{\sqrt3}5\sum_{i=1}^{100}X_i\le3 \right} \\approx\Phi(3)-\Phi(-3)=0.9974 $$

棣莫佛-拉普拉斯定理 (di4)：设随机变量 $X_1,\cdots, X_n,\cdots$ 相互独立，且服从参数为 $p$ 的两点分布，则对任意实数 $x$ ，有： $$ \lim_{n\to\infty} P\left{ \dfrac{\sum_{i=1}^nX_i-np}{\sqrt{np(1-p)}}\le x \right}= \int_{-\infty}^x \dfrac1{\sqrt{2\pi}}e^{-\cfrac{t^2}2}dt=\Phi(x) $$ 其实就是上面那定理的特例化，是历史上最早的中心极限定理

数理统计的基础知识

数理统计的基本概念

数理统计中把研究的问题所涉及的对象的全体所组成的集合称为总体(或母体)，把构成总体的每一个成员(或元素)称为个体。总体中所包含的个体的数量称为总体的容量。容量为有限的称为有限总体；容量为无限的称为无限总体

统计学中称随机变量(或向量) $X$ 为总体，并把随机变量(或向量)的分布称为总体分布

按一定原则从总体中抽取若干个个体进行观测的过程是抽样，从总体 $X$ 中第 $i$ 次抽取的个体指标为 $X_i(i=1,\cdots,n)$，记 $x_i(i=1,2,\cdots,n)$ 为个体指标 $X_i$ 的具体观察值，称 $X_1,\cdots, X_n$ 为总体 $X$ 的样本 ; $x_1,\cdots, x_n$ 为样本值，样本所含个体数目为样本容量/样本大小

最常用的抽样方法是简单随机抽样，满足两个条件：

代表性： $X_1,\cdots ,X_n$ 与所考察的总体具有相同的分布

独立性： $X_1,\cdots ,X_n$ 是相互独立的随机变量

由简单随机抽样得到的样本是简单随机样本。有限总体，有放回抽样能够得到简单随机样本；总体容量很大时，近似把无放回抽样得到的样本看成是简单随机样本。无限总体，无放回也可以得到简单随机样本。

下文简称简单随机样本为样本

没有给出每一个样本的具体观察值，给出了样本观察值所在的区间称为分组样本的观察值

简单随机样本 $X_1,\cdots, X_n$ 的联合分布函数为 $F(x_1,\cdots, x_n)=\prod_{i=1}^nF(x_i)$ ，称其为样本分布

总体为离散型随机变量，则样本概率分布为：$p(x_1,\cdots,x_n)=P{X_1=x_1,\cdots X_n=x_n}=\prod_{i=1}^nf(x_i)$

$p(x_i)$为离散总体概率分布，$p(x_1,\cdots,x_n)$为离散样本概率分布

总体为连续型随机变量，则样本概率密度为：$f(x_1,\cdots,x_n)=\prod_{i=1}^nf(x_i)$ ，称 $f(x)$ 和 $f(x_1,\cdots,x_n)$ 为连续总体概率密度和连续样本概率密度

通过总体 $X$ 的一个样本 $X_1\cdots ,X_n$ 对总体 $X$ 的分布进行推断的问题为统计推断问题

分组数据统计表、频率直方图、经验分布函数略

设 $X_1,\cdots ,X_n$ 为总体 $X$ 的一个样本，则称样本的任一个不含总体分布未知参数的函数为该样本的统计量

样本未取具体样本值时，统计量用大写字母表示；否则小写字母

样本均值： $\overline X =\dfrac1n\sum_{i=1}^nX_i$

样本方差：$S^2=\dfrac1{n-1}\sum_{i=1}^n(X_i-\overline X)^2$

特别注意分母是 $n-1$ 而不是 $n$ 理由

$Q=(X_i-\overline X)^2$ 是偏差平方和，有 $Q=\sum_{i=1}^nX_i^2-n\overline X^2$

样本标准差 $S$

样本 (k阶) 原点矩样本 (k阶) 中心距 ，其中样本二阶中心距又称未修正样本方差

上面五种统计量统称矩统计量，简称样本矩，都是显函数，它们的观察值仍为自己

顺序统计量 (升序排序后的排位为第 $i$ 个顺序统计量，且有样本极小值，样本极大值，极差)

略：加权平均和权

常用统计分布

分位数

设随机变量 $X$ 的分布函数为 $F(x)$ ，对给定实数 $\alpha(0<\alpha<1)$ ，若实数 $F_\alpha$ 满足 $P{X>F_\alpha}=\alpha$ ，则称 $F_\alpha$ 为随机变量 $X$ 分布的水平 $\alpha$ 的上侧分位数

若实数 $T_{\alpha/2}$ 满足 $P{|X|>T_{\alpha/2}}=\alpha$ ，则称 $T_{\alpha/2}$ 为随机变量 $X$ 分布的水平 $\alpha$ 的双侧分位数

$\chi^2$分布

记 $u_\alpha,u_{\alpha/2}$ 为标准正态分布的上侧分位数和双侧分位数

设 $X_1,\cdots, X_n$ 是来自总体 $N(0,1)$ 的样本，则统计量 $\chi^2=X_1^2+\cdots+X_n^2$ 是服从自由度为 $n$ 的 $\chi^2$ 分布，记作 $\chi^2\sim\chi^2(n)$

数学期望为 $n$ ，方差为 $2n$ ，上侧分位数记为 $\chi_\alpha^2(n)$

若相互独立，则 $\chi_1^2+\chi_2^2\sim\chi^2(m+n)$

主要适用于拟合优度检验和独立性检验，以及对总体方差的估计和检验

概率密度是 $f(x)=\begin{cases}\dfrac1{2^{\frac n2}\Gamma(\cfrac n2)}x^{\frac n2-1}e^{-\frac12x},&x>0\0,&x\le0\end{cases}$

其中 $\Gamma(\alpha)=\int_0^{+\infty}x^{\alpha-1}e^{-x}dx$ ，即广义阶乘，且有 $\Gamma(\alpha+1)=\alpha\Gamma(\alpha)$ ，$\Gamma(0.5)=\sqrt\pi$

$n$ 充分大时，近似有 $\chi_\alpha^2(n)\approx\dfrac12(u_\alpha+\sqrt{2n-1})^2$

例：设 $X_1,\cdots, X_n$ 是来自总体 $N(0,1)$ 的样本，设： $$ Y=(X_1+X_2+X_3)^2+(X_4+X_5+X_6)^2 $$ 试求常数 $C$ ，使 $CY$ 服从 $\chi^2$ 分布

因为 $X_1+X_2+X_3\sim N(0,3),X_4+X_5+X_6\sim N(0,3)$ ，为使得 $Y$ 服从 $\chi^2$ 分布，只能自由度是 $2$ 。且根据统计量定义，不能是来自 $N(0,3)$ 的总体，所以转化，由正态分布的性质，有： $$ \dfrac{X_1+X_2+X_3}{\sqrt3}\sim N(0,1),\quad \dfrac{X_4+X_5+X_6}{\sqrt3}\sim N(0,1) $$ 即：$C=\dfrac13$ $$ \dfrac13Y=\left(\dfrac{X_1+X_2+X_3}{\sqrt3}\right)^2+\left(\dfrac{X_4+X_5+X_6}{\sqrt3}\right)^2\sim\chi^2(2) $$

$t$分布

设 $X\sim N(0,1),Y\sim\chi^2(n)$ ，且 $X,Y$ 相互独立，则 $T=\dfrac X{\sqrt{Y/n}}$ 服从自由度为 $n$ 的 $t$ 分布，记为 $T\sim t(n)$ ，$t_\alpha(n)$ 是上侧分位数

关于 $y$ 轴对称，所以：$t_{1-\alpha}(n)=-t_{\alpha}(n)$

此外根据双侧分位数定义：双侧分位数满足 $P{|T|>t_\alpha(n)}=2\alpha$

小样本分布，指 $n<30$ ，适用于总体标准差位置，用样本标准差代替总体标准差，由样本平均数推断总体平均数以及两个小样本之间差异的显著性检验等

概率密度函数：$f(x)=\dfrac{\Gamma[(n+1)/2]}{\sqrt{n\pi}\Gamma(n/2)}(1+\dfrac{x^2}n)^{-\frac{n+1}2},-\infty<x<+\infty$

$n$ 充分大时($n>45$)，近似于标准正态分布，分位数同理

均值为 $0$ ，方差为 $\dfrac n{n-2}$

例：设随机变量 $X\sim N(2,1)$ ，随机变量 $Y_1,Y_2,Y_3,Y_4$ 均服从 $N(0,4)$ ，且 $X,Y_i(i=1,2,3,4)$ ，令： $$ T=\dfrac{4(X-2)}{\sqrt{\sum_{i=1}^4Y_i^2}} $$ 试求 $T$ 的分布，并确定 $t_0$ 的值，使 $P{|T|>t_0}=0.01$

根据定义不难构造出： $$ T=\dfrac{X-2}{\sqrt{\sum_{i=1}^4(\cfrac{Y_i}2)^2/4}}\sim t(4) $$ 查表得， $t_0=t_{\alpha/2}(4)=4.6041$

$F$分布

设 $X\sim\chi^2(m),Y\sim\chi^2(n)$ ，且 $X,Y$ 相互独立，则称 $F=\dfrac{X/m}{Y/n}=\dfrac{nX}{mY}$ 服从自由度为 $(m,n)$ 的 $F$ 分布，记为 $F\sim F(m,n)$ ，上侧分位数 $F_\alpha(n,m)$

若 $F\sim F(m,n)$ 有 $\dfrac1F\sim F(n,m)$ ，该性质可以用于上侧分位数

主要用于方差分析、协方差分析和回归分析等

概率密度函数为： $$ f(x)=\begin{cases} \cfrac{\Gamma[(m+n)/2]}{\Gamma(m/2)\Gamma(n/2)}(\cfrac mn)(\cfrac mnx)^{\frac m2-1}(1+\cfrac mnx)^{-\frac12(m+n)},&x>0\\ 0,&x\le0 \end{cases} $$ 若 $X\sim t(n)$ ，则 $X^2\sim F(1,n)$

抽样分布

参数统计推断：总体分布类型已知而含未知参数，需对未知参数或总体的数字特征(如期望)进行统计推断

利用总体样本构造合适投机两，使其服从或渐进服从已知的分布，泛称统计量分布为抽样分布

讨论抽样分布的途径有两个：①精准求出样本分布并称相应的统计推断为小样本统计推断；②让样本容量趋于无穷，求出抽样分布的极限分布，进而对未知参数进行推断，该统计推断为大样本统计推断

下文讨论正态分布抽样分布，小样本统计

设总体 $X$ 的均值$E(X)=\mu$ ，方差 $D(X)=\sigma^2$ ， $X_1\cdots, X_n$ 取自 $X$ 的一个样本， $\overline X,S^2$ 是样本均值和样本方差，则： $$ E(\overline X)=\mu,D(\overline X)=\dfrac{\sigma^2}n,E(S^2)=\sigma^2 $$

由： $E(X^2)=D(X)+[E(X)]^2=\sigma^2+\mu^2$ ，由期望加法，得：$\sum_{i=1}^nE(X_i^2)=n(\sigma^2+\mu^2)$ ，根据上面公式，更换 $X$ 为 $\overline X$ 得， $E(\overline X^2)=\sigma^2+n\mu^2$ ，代入 $Q$ 的第二个公式，可得 $E(S^2)=\sigma^2$

对总体 $X\sim N(\mu,\sigma^2)$ ，有以下定理：

已知 $\mu,\sigma^2,n$ ，问 $\overline X$ 在某个范围的概率：

$\overline X\sim N(\mu,\dfrac{\sigma^2}n)$
$U=\dfrac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)$

已知 $\sigma^2,n$ ，问 $S^2$ 在某个范围的概率：

$\chi^2=\dfrac{n-1}{\sigma^2}S^2=\dfrac1{\sigma^2}\sum_{i=1}^n(X_i-\overline X)^2\sim \chi^2(n-1)$
$\overline X$ 与 $S^2$ 相互独立
$\chi^2=\dfrac1{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2\sim \chi^2(n)$
$T=\dfrac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)$

例：

设 $X\sim N(21,4),X_1,\cdots ,X_{25}$ 为 $X$ 的一个样本，求 $P{|\overline X-21|\le0.24}$

套用第一个定理即可

实际重量为 $\mu$ ，称了 $n$ 次，方差为 $\sigma^2$ ，偏差不超过 $\dfrac{3\sigma}{\sqrt n}$ 的概率为 $99.7%$ ，对于不同的 $n$ ，可以发现有 $99.7%$ 的概率断言 $\overline X$ 与 $\mu$ 的偏差不超过 $\dfrac{3\sigma}{\sqrt n}$

弹道偏离方差服从正态分布 $N(\mu,\sigma^2)$ ，已知 $\sigma^2=100m^2$ ，进行 $25$ 次试验，设样本方差为 $S^2$ ，求超过 $50m^2$ 的概率

使用第二个定理，$P{S^2>50}=P{\chi^2(24)>\dfrac{24\times50}{100}} > 0.975$ (放缩到表格里最近的一个小于的)，记得超过 $97.5%$ 的概率

双正态总体的抽样分布、一般总体抽样分布的极限分布略

后者简单来说就是 $U_n=\dfrac{\overline X-\mu}{\sigma/\sqrt n},T_n=\dfrac{\overline X-\mu}{S/\sqrt n}$ 收敛于 $\Phi(x)$

参数估计

点估计问题概述

设 $\theta$ 是总体分布中位置参数，构造适当统计量 $\hat\theta(X_1,\cdots,X_n)$ ，用其观测值 $\hat\theta(x_1,\cdots,x_n)$来估计 $\theta$ 值。前者称为估计量，后者称为估计值，统称点估计，简称估计，简记为 $\hat\theta$

评价估计量的标准：

无偏性

若 $E(\hat\theta)=\theta$ ，称 $\hat\theta$ 为 $\theta$ 的无偏估计量(作差前减后称为系统误差)

样本均值是 $\mu$ 的无偏估计量，样本方差是 $\sigma^2$ 的无偏估计量，样本二阶中心距是 $\sigma^2$ 的有偏估计量

若 $\hat\theta$ 是 $\theta$ 的无偏估计量， $g(\theta)$ 是 $\theta$ 的函数，未必能推出 $g(\hat\theta)$ 是 $g(\theta)$ 的无偏估计量，如 $(\overline X)^2$ 不是 $\mu^2$ 的无偏估计量，方差公式可证

有效性

对两个无偏估计量若 $D(\hat\theta_1)<D(\hat\theta_2)$ ，则称 $\hat\theta_1$ 较 $\hat\theta_2$ 有效；且有概念最小方差无偏估计(最佳无偏估计)，是比所有相同无偏估计更有效的

相合性(一致性)

样本容量无限增大时，更接近真实值

若 $\hat\theta$ 依概率收敛于 $\theta$ ，即对任意 $\epsilon>0$ ，有： $$ \lim_{n\to\infty}P{|\hat\theta-\theta|<\epsilon}=1 \quad或\quad \lim_{n\to\infty}P{|\theta-\hat\theta|\ge\epsilon}=0 $$ 则称 $\hat\theta$ 为 $\theta$ 的(弱)相合估计量

样本均值是总体均值的相合估计量，样本方差是$\sigma^2$ 的相合估计量，

$\dfrac1n\sum_{i=1}^nX_i^k$是$E(X^k)$ 的相合估计量，证略

例：设总体 $X\sim N(0,\sigma^2)$ ， $X_1,\cdots ,X_n$ 是来自这一总体的样本

证明：$\hat\sigma^2=\dfrac1n\sum_{i=1}^nX_i^2$ 是 $\sigma^2$ 的无偏估计，求 $D(\hat\sigma^2)$

由于 $E(\hat\sigma^2)=\dfrac1n\sum_{i=1}^nE(X_i^2)=\dfrac1n\sum_{i=1}^nD(X_i)=\dfrac1nn\sigma^2=\sigma^2$ ，所以是无偏估计 $$ D(\hat\sigma^2)=D(\dfrac1n\sum_{i=1}^nX_i^2)=\dfrac1{n^2}D(\sum_{i=1}^nX_i^2)=\dfrac{\sigma^4}{n^2}D(\sum_{i=1}^n(\dfrac{X_i}{\sigma})^2) $$ 由于 $(\dfrac{X_i}{\sigma})^2\sim N(0,1)$ ，

所以 $\sum_{i=1}^n(\dfrac{X_i}{\sigma})^2\sim \chi^2(n),D(\sum_{i=1}^n(\dfrac{X_i}{\sigma})^2)=2n$

所以原式$=\dfrac{\sigma^2}{n^2}2n=\dfrac{2\sigma^4}n$

例：比较 $\overline X,X_i$ 作为 $\mu$ 的无偏估计量哪个更有效

$D(X_i)=\sigma^2$

$D(\overline X)=D(\dfrac1n\sum_{i=1}^nX_i)=\dfrac1{n^2}\sum_{i=1}^nD(X_i)=\dfrac{\sigma^2}n$

所以 $\overline X$ 较 $X_i(i=1,\cdots,n)$ 更有效

点估计的常用方法

矩估计法

用相应的样本矩去估计总体矩的方法是矩估计法，确定的估计量是矩估计量，相应的估计值是矩估计值，矩估计量和矩估计值统称矩估计

总体 $k$ 阶矩 $\mu_k=E(X^k)$

样本 $k$ 阶矩 $A_k=\dfrac1n\sum_{i=1}^nX_i^k$

总体 $k$ 阶中心矩 $v_k=E[X-E(X)]^k$

样本 $k$ 阶中心距 $B_k=\dfrac1n\sum_{i=1}^n(X_i-\overline X)^k$

求未知参数的矩估计，则计算出某个矩估计量，然后移项，得到该参数的表达式就是矩估计

例：设总体 $X$ 的概率密度为： $$ f(x)=\begin{cases} (\alpha+1)x^\alpha,&0<x<1\ 0,&其他 \end{cases} $$ 其中 $\alpha(\alpha>-1)$ 是未知参数， $X_1,\cdots, X_n$ 是取自 $X$ 的样本，求参数 $\alpha$ 的矩估计

数学期望是一阶原点矩 $\mu_1=E(x)=\int_0^1x(\alpha+1)x^\alpha dx=\dfrac{\alpha+1}{\alpha+2}$ ，即样本矩为 $\overline X=\dfrac{\alpha+1}{\alpha+2}$ 得 $\hat\alpha=\dfrac{2\overline X-1}{1-\overline X}$ 是 $\alpha$ 的矩估计

例：总体 $X$ 的均值 $\mu$ ，方差 $\sigma^2$ 均存在，且有 $\sigma^2>0$ ，但均未知；设 $X_1,\cdots, X_n$ 是取自 $X$ 的样本，求 $\mu,\sigma^2$ 的矩估计量

由$\begin{cases} \mu_1=E(X)=\mu\\mu_2=E(X^2)=\sigma^2+\mu^2\end{cases}$ 得 $\begin{cases}\mu=\mu_1,\sigma^2=\mu_2-\mu^2_1\end{cases}$

用样本矩代替总体矩，

得 $\hat\mu=A_1=\overline X$ ，$\hat\sigma^2=A_2-A_1^2=\dfrac1n\sum_{i=1}^nX_i^2-\overline X^2=\dfrac1n\sum_{i=1}^n(X_i-\overline X)^2$

可得结论：总体均值、方差的矩估计量的表达式不会因为总体分布的不同而不同

例：设总体 $X$ 的概率分布为

$X$ 1 2 3

$p_i$ $\theta^2$ $2\theta(1-\theta)$ $(1-\theta)^2$

其中 $\theta(0<\theta<1)$ ，抽得一个样本 $x_1=1,x_2=2,x_3=1$ ，求 $\theta$ 的矩估计量

总体一阶原点矩为 $E(X)=3-2\theta$

一阶样本矩为 $\overline x=\dfrac13(1+2+1)=\dfrac43$

由于 $E(X)=\overline x$ ，解得 $\hat\theta=\dfrac56$ ，即 $\theta$ 的矩估计量为 $\hat\theta=\dfrac56$

最大似然估计法

在已经得到实验结果的情况下，寻找使得这个结果出现的可能性最大的 $\theta$ 值作为 $\theta$ 的估计 $\hat\theta $

离散型总体：设总体 $X$ 的概率分布为 $P{X=x}=p(x;\theta)$ , $\theta$ 为未知参数，样本联合分布律为 $P{X_1=x_1,\cdots ,X_n=x_n}=\prod_{i=1}^np(x_i;\theta)$

对确定的样本观察值，它是未知参数 $\theta$ 的函数，记为： $$ L(\theta)=L(x_1,\cdots,x_n;\theta)=\prod_{i=1}^np(x_i;\theta) $$ 称其为似然函数。而连续型总体，概率密度为 $f(x;\theta)$ ，那么似然函数为： $$ L(\theta)=L(x_1,\cdots,x_n;\theta)=\prod_{i=1}^nf(x_i;\theta) $$ $L(\theta)$ 的大小意味着该样本出现的可能性大小，已知样本的情况下，应该选择使得 $L(\theta)$ 似然函数值达到最大值的那个 $\theta$ 作为估计值 $\hat\theta$ ，这种求点估计的方法称为最大似然估计法

若对任意给定的样本值 $x_1,\cdots,x_n$ ，存在 $\hat\theta=\hat\theta(x_1,\cdots,x_n)$ ，使 $L(\hat\theta)=\max_\theta L(\theta)$ ，则称$\hat\theta=\hat\theta(x_1,\cdots,x_n)$为 $\theta$ 的最大似然估计值，相应的统计量 $\hat\theta(X_1,\cdots ,X_n)$ 为 $\theta$ 的最大似然估计量，统称最大似然估计(MLE)

求法：写出似然函数，令 $\dfrac{dL(\theta)}{d\theta}=0$ 或 $\dfrac{d\ln L(\theta)}{d\theta}=0$ 求出驻点(这是因为 $\ln L$是 $L$ 的单调递增函数，且二者具有相同的极值点)，判断并求出最大值点，将样本值代入得到最大似然估计值 (若不可微则求不出)

例：设 $X\sim b(1,p)$ ， $X_1,\cdots ,X_n$ 是取自总体的一个样本，试求参数 $p$ 的最大似然估计

设 $x_1,\cdots ,x_n$ 是相应于样本 $X_1,\cdots ,X_n$ 的一组样本观察值， $X$ 的分布律为 $P{X=x}p^x(1-p)^{1-x},x=0,1,\cdots$

故似然函数为 $L(p)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}$

得 $\ln L(p)=(\sum_{i=1}^nx_i)\ln p+(n-\sum_{i=1}^nx_i)\ln(1-p)$

令 $\dfrac d{dp}\ln L(p)=\dfrac{\sum_{i=1}^nx_i}p-\dfrac{n-\sum_{i=1}^nx_i}{1-p}=0$

解得 $p$ 的最大似然估计值为 $\hat p=\sum_{i=1}^nx_i=\overline x$

$p$ 的最大似然估计量为 $\hat p=\sum_{i=1}^nX_i=\overline X$

例：求指数分布参数 $\lambda$ 的最大似然估计，解：易得：$\dfrac1{\overline x}$

(注意 $\ln(ab)=\ln a+\ln b$)

如果 $X$ 的分布有 $k$ 个未知参数，那么由方程组： $$ \dfrac{\partial\ln L(x_1,\cdots,x_n;\theta_1,\cdots ,\theta_k)}{\partial\theta_i}=0(i=1,\cdots,k) $$ 解得最大值点 $\hat\theta_1,\cdots,\hat\theta_k$ 分别是各个参数的最大似然估计值

置信区间

设 $\theta$ 为总体分布的未知参数， $X_1,\cdots ,X_n$ 是取自总体的一个样本，对给定的数 $1-\alpha(0<\alpha<1)$ ，若存在统计量： $$ \underline\theta=\underline\theta(X_1,\cdots, X_n),\quad \overline\theta=\overline\theta(X_1,\cdots, X_n) $$ 使得 $P{\underline\theta<\theta<\overline\theta}=1-\alpha$ ，则称随机区间 $（\underline\theta，\overline\theta)$ 为 $\theta$ 的 $1-\alpha$ 双侧置信区间，称 $1-\alpha$ 为置信度或置信水平，两参数为 $\theta$ 的双侧置信下限和双侧置信上限

区间长度是误差，区间估计与点估计是互补的两种参数估计；一般准则是保证置信度的条件下尽可能提高估计精度

若有 $P{\underline\theta<\theta}=1-\alpha$ 或 $P{\theta<\overline \theta}=1-\alpha$ ，得到形如 $(\underline\theta,+\infty),(-\infty,\overline\theta)$ 的置信区间，叫这个区间是单侧置信区间，参数分别是单侧置信下限、单侧置信上限

一般步骤：选取未知参数 $\theta$ 的某个较优估计量 $\hat\theta$ ，以其构造一个依赖于样本和参数的函数 $U=U(X_1,\cdots, X_n,\theta)$ ，且该函数的分布已知且与 $\theta$ 无关，称有这种性质的随机变量为枢纽变量；然后对给定置信水平 $1-\alpha$ ，确定 $\lambda_1,\lambda_2$ ，使得 $P{\lambda_1\le U\le\lambda_2}=1-\alpha$ ，通常选取 $P{U\le\lambda_1}=P{U\ge\lambda_2}=\dfrac\alpha2$ 的参数，这是因为在常用分布下，这可以查分位数表直接确定参数；然后对不等式 $\lambda_1\le U\le\lambda_2$ 变形为 $\underline\theta\le\theta\le\overline\theta$ ，即得双侧置信区间

已知参数为 $p$ 的 $0-1$ 分布，设 $p$ 的置信度为 $1-\alpha$ 的置信区间为 $(p_1,p_2)$ ，则： $$ a=n+(u_{\alpha/2})^2,b=-2n\overline X-(u_{\alpha/2})^2,c=n(\overline X)^2\ p_1,p_2=\dfrac{-b\mp\sqrt{b^2-4ac}}{2a} $$

根据中心极限定理可以推导，即由拉普拉斯定理的不等式变型： $$ \dfrac{\overline X-p}{\sqrt{p(1-p)/n}}<u_{\alpha/2} $$

例：$100$ 个样品，一级品有 $60$ 个，求这批产品一级品率 $p$ 的置信度为 $0.95$ 的置信区间

$\overline x=0.6,u_{\alpha/2}=u_{0.025}$ ，查表得 $\Phi(1.96)=0.975$ ，故 $u_{\alpha/2}=1.96$

代入得 $a\approx103.84,b\approx-123.84,c=36,p_1\approx0.50,p_2\approx0.69$

正态总体的置信区间

设总体 $X\sim N(\mu,\sigma^2)$ ， $\sigma^2$ 已知，$\mu$ 未知， $X_1,\cdots ,X_n$ 是取自总体的一个样本，对给定置信水平 $1-\alpha$ ，$\mu$ 的双侧置信区间为： $$ \left( \overline X-u_{\alpha/2}\dfrac\sigma{\sqrt n}, \overline X+u_{\alpha/2}\dfrac\sigma{\sqrt n} \right) $$ 单侧置信上限下限分别为： $\overline X\pm u_\alpha\dfrac\sigma{\sqrt n}$

构造的枢纽变量是 $\dfrac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)$

根据抽样分布的定理可证；单侧证明思路大同双侧

$\sigma^2$ 的双侧置信区间为： $$ \left( \dfrac{\sum_{i=1}^n(X_i-\mu)^2}{\chi^2_{\alpha/2}(n)}, \dfrac{\sum_{i=1}^n(X_i-\mu)^2}{\chi^2_{1-\alpha/2}(n)} \right) $$ 单侧置信下上限分别为：$\dfrac{\sum_{i=1}^n(X_i-\mu)^2}{\chi^2_{\alpha}(n)}, \dfrac{\sum_{i=1}^n(X_i-\mu)^2}{\chi^2_{1-\alpha}(n)}$

枢纽变量为： $\dfrac{\sum_{i=1}^n(X_i-\mu)^2}{\sigma^2}\sim\chi^2(n)$

例：若已知 $n=16,\sigma=1,\overline x=5.2$ , 置信水平为 $0.95$ ，得 $(5.20\pm0.49)$

含义是若反复抽样多次，每次都取实际 $\overline x$ 确定区间 $(\overline x\pm0.49)$ ，那么所有区间中包含 $\mu$ 的约占 $95%$ ；区间 $(4.71,5.69)$ 属于这些包含 $\mu$ 的区间的可信程度为 $95%$ ，或说该区间包含 $\mu$ 这一陈述的可信程度为 $95%$

由于标准正态分布具有对称性，利用双侧分位数计算未知参数的置信度 $1-\alpha$ 的置信区间是区间长度最短的，扩展开地，凡是满足： $$ \left( \overline X-u_{\alpha_1}\dfrac\sigma{\sqrt n}, \overline X+u_{1-\alpha_2}\dfrac\sigma{\sqrt n} \right),\alpha_1+\alpha_2=\alpha,\alpha_1,\alpha_2>0 $$ 的区间都是 $\mu$ 的置信区间

设总体 $X\sim N(\mu,\sigma^2)$ ， $\sigma^2$ ，$\mu$ 未知， $X_1,\cdots ,X_n$ 是取自总体的一个样本，对给定置信水平 $1-\alpha$ ，$\mu$ 的双侧置信区间为： $$ \left( \overline X-t_{\alpha/2}(n-1)\dfrac S{\sqrt n}, \overline X+t_{\alpha/2}(n-1)\dfrac S{\sqrt n} \right) $$ 单侧置信上下限是： $\overline X\pm t_{\alpha}(n-1)\dfrac S{\sqrt n}$

构造的枢纽变量是 $T=\dfrac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)$

例：$25$ 名旅游者平均消费额 $\overline x=80$元，样本标准差$s=12$元，已知旅游者消费额服从正态分布，求旅游者平均消费额$\mu$的$95%$置信区间

查表得 $t_{0.025}(24)=2.0639$ ，代入得 $(75.05,84.95)$

例：一批灯泡抽 $5$ 只做寿命试验，寿命如下(单位:小时) $1050,1100,1120,1250,1280$ ，已知这批灯泡寿命 $X\sim N(\mu,\sigma^2)$ ，求平均寿命 $\mu$ 的置信度为 $95%$ 的单侧置信下限

求得 $\overline x=1160,s\approx99.75,t_{0.05}(4)=2.1318$ ，故为 $1064.9$ 小时

设总体 $X\sim N(\mu,\sigma^2)$ ， $\sigma^2$ ，$\mu$ 未知， $X_1,\cdots ,X_n$ 是取自总体的一个样本，对给定置信水平 $1-\alpha$ ，$\sigma^2$ 的双侧置信区间为： $$ \left( \dfrac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \dfrac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)} \right) $$ 单侧置信下上限分别为：$\dfrac{(n-1)S^2}{\chi^2_{\alpha}(n-1)}, \dfrac{(n-1)S^2}{\chi^2_{1-\alpha}(n-1)}$

枢纽变量： $\dfrac{n-1}{\sigma^2}S^2\sim\chi^2(n-1)$

对标准差 $\sigma$ 的置信区间只需要上下限分别开个根即可

例：$25$ 个样本，样本均值 $\overline x=186$ ，标准差 $s=12$ ，服从正态分布，求出 $\sigma$ 的 $90%$ 的置信区间

查表得 $\chi^2_{0.1/2}(24)=36.415,\chi^2_{1-0.1/2}(24)=13.848$ ，可得 $(9.74,15.80)$

双正态总体略

假设检验

假设检验的基本概念

在总体分布未知或虽知其类型但含有未知参数的时候，为推断总体的某些未知特性，提出某些关于总体的假设；假设检验分为参数假设检验和非参数假设检验。参数假设检验是针对总体分布函数中的未知参数提出的假设进行检验；非参数假设检验是针对总体分布函数的形式或类型提出的假设进行检验

记原假设 $H_0$ 与检验结果违背的概率值为 $\alpha(0<\alpha<1)$ ，称为检验的显著性水平，一般取较小的值如 $0.1,0.05,0.01$

假设 $H_0$ 正确，但拒绝了假设，称为第一类错误(弃真)，犯错率为 $P{拒绝H_0|H_0为真}=\alpha$

假设 $H_0$ 不正确，但一次抽样检验未发生不合理结果而接受 $H_0$ ，称为第二类错误(取伪)，犯错率为 $P{接受H_0|H_0不为真}=\beta$

样本容量 $n$ 固定时，这两种错误犯错率一个变小另一个必然变大；$n$ 增大才能使其同时变小，一般原则是控制犯第一类错误的概率，然后通过增大 $n$ 来减少 $\beta$ ；若注重经济效益， $\alpha$ 可以小一点如 $0.01$ ，注重社会效益可以大一点如 $0.1$ ，兼顾可以取 $0.05$

要检验的假设 $H_0$ 称为原假设(零假设或基本假设)，原假设 $H_0$ 的对立面称为备择假设(对立假设)，记为 $H_1$

形如 $H_1:\mu\neq\mu_0$ 的假设称为双侧(边)备择假设，这样的假设检验称为双侧(边)假设检验，(下面都可写为边)；若把不等号改为 $>,<$ ，称为右侧检验，左侧检验，统称单侧检验。

通常需要构造统计量，取总体的一组样本值，判断假设是否成立，当检测统计量位于某个区域 $W$ 中的值时，就拒绝原假设 $H_0$ ，则区域 $W$ 为拒绝域，拒绝域的边界点是临界点

一般步骤：提出原假设和备择假设；给定显著性水平和样本容量；确定统计量 $U$ ，并在原假设成立的前提下导出 $U$ 的概率分布，要求 $U$ 的分布不依赖于任何未知参数；确定拒绝域，先直观确定形式，再根据给定 $\alpha,U$ 的分布确定临界值，从而确定拒绝域；作一次具体的抽样，根据得到样本的观察值和所得拒绝域，对假设 $H_0$ 作出接受或拒绝的判断

非参数化为多参数；多参数找到不包含所有待检验参数的检验统计量使其服从已知的确定分布

单正态总体的假设检验

设总体 $X\sim N(\mu,\sigma^2)$ ， $\sigma^2$ 已知，$\mu$ 未知， $X_1,\cdots ,X_n$ 是取自总体的一个样本，对给定显著性水平 $\alpha$ ，对 $\mu$ 双侧检验： $$ U=\dfrac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1) $$ 选取 $U$ 为检验统计量，记其观察值为 $u$ ，相应的检测法称为 $u$ 检测法

拒绝域为 $W=(-\infty,-u_{\alpha/2})\cup(u_{\alpha/2},+\infty)$ ，即 $|u|>u_{\alpha/2}$

右侧检验($H_1$的符号是$>$)：$u>u_\alpha$

左侧检验($H_1$的符号是$<$)：$u<u_\alpha$

例：包装机正常工作时，装包量 $X\sim N(500,2^2)$(单位:g)，开工后任取 $9$ 袋，重量为 $505,499,502,506,498,498,497,510,503$ ，设总体标准差 $\sigma$ 不变即 $\sigma=2$ ，问是否工作正常 $\alpha=0.05$

提出假设检验： $H_0:\mu=500,H_1:\mu\neq500$

以 $H_0$ 成立为前提，确立检验 $H_0$ 的统计量及其分布： $$ U=\dfrac{\overline X-\mu_0}{\sigma/\sqrt n}=\dfrac{\overline X-500}{2/3}\sim N(0,1) $$ 对给定的显著性水平 $\alpha$ ，取临界点为 $u_{\alpha/2}=1.96$ ，使 $P{|U|>u_{\alpha/2}}=\alpha$ ，故 $H_0$ 的拒绝域为 $W=(-\infty,-1.96)\cup(1.96,+\infty)$

由于 $u=\dfrac{502-500}{2/3}=3$ ，$u\in W$，故应拒绝，即认为工作不正常

例：灯管寿命 $X$ 服从正态分布 $N(\mu,40000)$ ，根据经验已知平均寿命不超过 $1500$ 小时，使用新工艺，测试 $25$ 只灯管，平均值为 $1575$ 小时，对显著性水平 $0.05$ ，可否判定这是新工艺造成的结果

$H_0:\mu\le1500,H_1:\mu>1500$ ，

$\mu_0=1500,\sigma=200,n=25,\alpha=0.05,u_\alpha=1.645$ ， $u=\dfrac{\overline x-\mu_0}{\sigma/\sqrt n}=1.875>u_\alpha$ ，所以否定原假设 $H_0$ ，接受备择假设 $H_1$，认为新工艺提高了灯管平均寿命

设总体 $X\sim N(\mu,\sigma^2)$ ， $\sigma^2$ ，$\mu$ 未知， $X_1,\cdots ,X_n$ 是取自总体的一个样本，对给定显著性水平 $\alpha$ ，对 $\mu$ 双侧检验，检测法是 $t$ 检测法： $$ T=\dfrac{\overline X-\mu_0}{S/\sqrt n}\sim t(n-1) $$ 拒绝形式为 $|t|>t_{\alpha/2}(n-1)$ , $W=(-\infty,-t_{\alpha/2}(n-1),t_{\alpha/2}(n-1),+\infty)$

设总体 $X\sim N(\mu,\sigma^2)$ ， $\sigma^2$ ，$\mu$ 未知， $X_1,\cdots ,X_n$ 是取自总体的一个样本，对给定显著性水平 $\alpha$ ，对 $\sigma^2$ 双侧检验，检测法是 $\chi^2$ 检测法： $$ \chi^2=\dfrac{n-1}{\sigma^2_0}S^2\sim\chi^2(n-1) $$ 拒绝域为 $W=[0,\chi^2_{1-\alpha/2}(n-1))\cup(\chi^2_{\alpha/2}(n-1),+\infty)$

剩余书本知识大概不考，所以到此完结

附录

例题

随机事件及其概率

课堂例题

1

未来五天，有$i$天下雨的概率为$p_i$，且已知$p_i=i\cdot p_0,1\le i\le n$。求：

①每天下雨概率；②至少一天不下雨概率；③至多三天不下雨概率

使用概率和，有$(1+1+2+3+4+5)p_0=1$，得$p_0=\dfrac1{16}$

则显然答案为$\dfrac1{16},\dfrac{15}{16},\dfrac7{16}$

2

有四个球排成一行，求$1$号球在$2$号球右边的概率。

在左边和在右边等概率，所以答案为$0.5$。

注：暴力求解时忽略了$3\ 4\ 2\ 1$和$4\ 3\ 2\ 1$是两种情况而误算成了$\dfrac{6+4+1}{24}$

实际即：$2$在最左边$1$任意有$A_3^3$，$2$在第二格则 $C_2^1A_2^2$，第三格则 $A_2^2$

3

$3$球放$4$杯，杯子里球最多是$1,2,3$个的概率：

$$ \dfrac{C_4^3A_3^3}{4^3},1-\dfrac{C_4^3A_3^3}{4^3}-\dfrac{4}{4^3},1 $$

只$2$个的正向解法是选两个杯是$C_4^2$，杯子内部是

4

15个新生(其中3个优秀生)随机分到三个班，各有4,5,6人，求：

①每一个班级各分配到一名优秀生的概率;②3名优秀生分到一个班的概率

总事件：15个选4人到一班，剩下11个选5个到二班，然后6个选6个到三班

分事件：12个普通生分3个到一班，3个优秀生分1个到一班；剩下9个普通分4个到二班……以此类推 $$ \dfrac{C_{12}^3C_3^1C_9^4C_2^1C_5^5C_1^1}{C_{15}^4C_{11}^5C_6^6} $$ 显然第二问： $$ \dfrac{C_3^3C_{12}^1C_{11}^5C_6^6+C_3^3C_{12}^2C_{10}^4C_6^6+C_3^3C_{12}^3C_9^4C_5^5}{C_{15}^4C_{11}^5C_6^6} $$

或者按参考答案，选的顺序不依次是一二三，二一三，三一二；而都是一二三，表达式会不同

5

有3黑球7白球，不放回拿两球，已知第二次取出黑球(B)，求第一次取出也是黑球(A)概率

特别注意$P(B)=\dfrac{A_7^1A_3^1+A_3^2}{A_{10}^2}=\dfrac3{10}$ (或者干脆直接的只看一球显然 $\dfrac3{10}$) $$ \therefore P(A|B)=\dfrac{P(AB)}{P(B)}=\dfrac{\dfrac{A_3^2}{A_{10}^2}}{\dfrac3{10}}=\dfrac29 $$

如果使用$C$来算而不是$A$来算，$P(B)$会是错误的。

6

次品率为$4%$，每次不放回取$1$件，取到第二个次品时，之前取到了$8$件正品的概率：

第二个取到次品概率为$4%$。之前一定取到了$1$次品$8$正品概率为$C_8^14%(96%)^8$。它们是独立事件，所以相乘(而不是不管第一个概率)，答案为：$C_8^1(4%)^2(96%)^8$

7

车有$25$人，$9$站。每人等可能在其中一个站下车且人与人之间相互独立。经过站时，只有有人下车才会停。求第$i$站停车的概率和第$i$站不停车条件下第$j$站停车概率，并判断第$i$站停车与第$j$站停车两事件是否独立。

一个人在一个站不下车的概率是$\dfrac89$，不停车概率是$\left(\dfrac89\right)^{25}$。第$i$站停车的概率为$1-\left(\dfrac89\right)^{25}$。第$i$站不停车条件下，一个人在一个站不下车的概率为$\dfrac78$。此时，第$j$站停车概率为$1-\left(\dfrac78\right)^{25}$。因为$P(C|\overline B)\neq P(C)$，所以$\overline B,C$不独立，所以$B,C$不独立。

8

设随机变量 $X$ 的密度函数为： $$ f(x)=\begin{cases} \dfrac2\pi\sqrt{1-x^2},&-1\le x\le1\ 0,&其他 \end{cases} $$ 求其分布函数 $F(X)$

$x\le -1$ 时， $F(X)=0$

$-1\le x\le 1$ 时， $$ \begin{align} F(X)&=\int_{-1}^x\dfrac2\pi\sqrt{1-t^2}dt\ &=\dfrac2\pi(\dfrac t2\sqrt{1-t^2}+\dfrac12\arcsin t)|_{-1}^x \end{align} $$ $x\ge 1$ 时， $F(X)=1$

附：推导：

设 $t=\sin x$ ，则显然 $x=\arcsin t, \sqrt{1-t^2}=\cos x,dt=\cos xdx$ $$ \begin{align} \int\sqrt{1-x^2}dx &=\int\cos^2 tdt\ &=\dfrac12\int1+\cos2tdt\ &=\dfrac t2+\dfrac{\cos2t}4\ &=\dfrac t2+\dfrac{\sin t\cos t}2\ &=\dfrac12\arcsin x+\dfrac12{x\sqrt{1-x^2}} \end{align} $$

9

设随机变量 $X\sim N(0,1), Y=X^2$ ，求 $Y$ 的概率密度函数

$F_Y(y)=P{Y\le y}=P{X^2\le Y}=P{-\sqrt y\le x\le\sqrt y}$ $$ \begin{align} &=\left(\dfrac1{\sqrt{2\pi}}\int_{-\sqrt y}^{\sqrt y}e^{-\frac{x^2}2}dx\right)'\ &=\dfrac1{\sqrt{2\pi}2\sqrt y}e^{-\frac y2}-(-\dfrac1{\sqrt{2\pi}2\sqrt y}e^{-\frac y2})\ &=\dfrac1{\sqrt{2\pi y}}e^{-\frac y2} \end{align} $$

10

设 $(X,Y)$ 的联合概率分布

X\Y 0 1 2 3

1 0 3/8 3/8 0

3 1/8 0 0 1/8

求 $E(X),E(Y),E(X\cdot Y)$

求边缘分布：

X	1	3
P	3/4	1/4

Y	0	1	2	3
P	1/8	3/8	3/8	1/8

对边缘密度求 $E$ ，显然有 $E(X)=E(Y)=\dfrac32$

尚未证明独立性前， $E(X\cdot Y)=E(X)\cdot E(Y)=\dfrac94$ 是错误的，一个很显然的事实是它们不独立(随便拿一个作特判可知)

$E(X\cdot Y)=\sum_{i=1}^2\sum_{j=1}^4X_i\cdot Y_j\cdot P(X_i,Y_j)$

11

设 $X\sim N(1,3),Y\sim N(2,2)$ ，相互独立，设 $Z=2X-3Y$ ，求 $E(Z),D(Z)$

显然 $E(Z)=-4$

而 $D(Z)=4\times3+27\times2$ ，注意是加不是减，且注意系数平方，本来的 $N(,\sigma^2)$ 有平方了

12

有 $200$ 人考试，通过率 $0.8$ ，求至少 $150$ 人通过的概率

两点分布，$\dfrac{\sum_{i=1}^{200}X_i-200\times0.8}{\sqrt{200\times0.2\times0.8}}\overset{近似}\sim N(0,1)$，拉普拉斯定理： $$ \begin{align} &P\left{\dfrac{\sum_{i=1}^{200}X_i-200\times0.8}{\sqrt{200\times0.2\times0.8}}\ge\dfrac{150-200\times0.8}{\sqrt{200\times0.2\times0.8}}\right}\ =&P\left{\dfrac{\sum_{i=1}^{200}X_i-160}{\sqrt{32}}\ge-1.77\right}\ =&1-\Phi(-1.77)\ =&1-(1-\Phi(1.77))\ =&0.96 \end{align} $$

13

从正态总体 $X\sim N(\mu,\sigma^2)$ 中抽取容量为 $16$ 的一个样本， $\overline{X},S^2$ 分别是样本的均值和样本方差。若 $\mu,\sigma^2$ 均未知，求 $S^2$ 的方差 $D(S^2)$

$\chi^2$ 分布的方差为 $2n$ ，所以 $D(\dfrac{n-1}{\sigma^2}S^2)=30$ ，即： $$ \dfrac{15^2}{\sigma^4}D(S^2)=30\Rightarrow D(S^2)=\dfrac{2}{15}\sigma^4 $$

14

设总体 $X$ 在 $[a,b]$ 上服从均匀分布， $a,b$ 未知， $X_1,X_2,\cdots, X_n$ 是来自 $X$ 的样本，试求 $a,b$ 的矩估计量

$$ \mu_1=E(x)=\dfrac{b+a}{2} $$

$$ \mu_2=E(X^2)=D(X)+E^2(X)=\dfrac{(b-a)^2}{12}+\left(\dfrac{b+a}2\right)^2 $$

联立解出 $a,b$ ，把 $\mu_1,\mu_2$ 用字母 $A_1,A_2$ 代替即可。 $$ \overset{\wedge}{a}=A_1-\sqrt{3(A_2-A_1^2)},\overset{\wedge}{b}=A_1+\sqrt{3(A_2-A_1^2)} $$

15

平均寿命为 $21.5$ ，样本为 $19, 18, 22, 20, 16, 25$ ，问显著性水平 $\alpha=0.05$ 下寿命不少过 $21.5$ 是否成立

$H_0:\mu\ge21.5, H_1:\mu < 21.5$ ，使用 $\dfrac{X-\mu_0}{s/\sqrt n}$ ，查表得 $t_{0.05}(5)=2.306$ ，故拒绝域 $W=(-\infty, -2.306)$ ，求得 $t=-1.162$ ，不在拒绝域，所以成立

作业错题

1

$A,B,C$两两不相容，$P(A)=0.2,P(B)=0.3,P(C)=0.4$，求$P[(A\cup B)-C]$

所用公式：$P(A-B)=P(A)-P(AB)$

注意是两两不相容

2

$P(A)=\dfrac13,P(B)=\dfrac14,P(A\cup B)=\dfrac12$，求$P(\overline A\cup\overline B)$

$Venn$易证：$P(\overline A\cup\overline B)=P(\overline{A\cap B})$

3

扑克牌$52$张，不放回抽样，每次一张，连续抽$4$张，求花色各异概率：

等于在四个组各拿一个

4

$10$产品有$4$不合格。任取$2$，已知有$1$不合格，求另外一个也是不合格概率。

注意不是已知第一件不合格，所以是已知第一或第二件不合格或都不合格(注意有三个，不要漏了最后一个)

5

$P(A)=\dfrac14,P(B|A)=\dfrac13,P(A|B)=\dfrac12$，求$P(A\cup B)$

6

甲乙丙三部机床独立工作，一个人照管，某段时间这三个机床不需要照管的概率依次是$0.9,0.8,0.85$，求这段时间因无人照管而停工的概率。

即求这段时间同时有两个机床需要人照管的概率(不要加什么诸如这个人不知道哪个机床需要照管，这个人等概率出现在甲乙丙这样的假设；应该假设需要照管时，这个人知道哪个机床需要照管)

解法一(个人解法)：$2+2+2+3$型 $$ P=0.9(1-0.8)(1-0.85)+(1-0.9)0.8(1-0.85)\+(1-0.9)(1-0.8)0.85+(1-0.9)(1-0.85)(1-0.8) $$ 解法二：对甲乙合起来分三类讨论(做到不重不漏比较困难)

7

设二维随机变量 $(X,Y)$ 的概率密度为： $$ f(x,y)=\begin{cases} 4.8y(1-x),&0\le x\le1,0\le y\le1\0,&其他 \end{cases} $$ 求边缘概率密度 $f_Y(y)$

注意只有 $y\in[0,1]$ 时才有，否则都是 $0$ 注意没有 $1$ ，(联合概率密度则有 $0,1$ 等之分)所以答案为： $$ f_Y(y)=\begin{cases} 2.4y^2(2-y),&0\le y\le1\0,&其他 \end{cases} $$

要用到边缘概率密度的条件概率密度同理

8

设总体 $X\sim N(0,1)$ ， $X_1,X_2,\cdots,X_n$ 为简单随机样本，问下列统计量服从什么分布？ $$ \dfrac{X_1-X_2}{\sqrt{X_3^2+X_4^2}} $$

知识盲区是正态分布的加减法性质。

可以合情想像的是，既然对称的，那么正的和负的其实是一样的

9

已知离散型均匀总体 $X$ ，其分布律为：

$X$ $2$ $4$ $6$

$P_i$ $\dfrac13$ $\dfrac13$ $\dfrac13$

取容量为 $n=54$ 的样本，求样本均值 $\overline X$ 落于 $4.1$ 到 $4.4$ 之间的概率和样本均值 $\overline X$ 超过 $4.5$ 的概率。

10

设总体 $X$ 有分布律

$X$ $1$ $2$ $3$

$P_i$ $\theta^2 $ $2\theta(1-\theta) $ $(1-\theta)^2$

其中 $\theta(0 < \theta < 1)$ 为未知参数，已知取得了样本值 $x_1=1,x_2=2,x_3=1$ ，试求 $\theta$ 的最大似然估计值

X\Y	$y_1$	$y_2$	$P{X=x_i}=p_{i\cdot}$
$x_1$		$\dfrac18$
$x_2$	$\dfrac18$
$P{Y=y_j}=p_{\cdot j}$	$\dfrac16$		$1$

X\Y	$y_1$	$y_2$	$y_3$	$P{X=x_i}=p_{i\cdot}$
$x_1$	$\dfrac1{24}$	$\dfrac18$	$\dfrac1{12}$	$\dfrac14$
$x_2$	$\dfrac18$	$x$	$y$	$\dfrac34$
$P{Y=y_j}=p_{\cdot j}$	$\dfrac16$	$a$	$b$	$1$

Files

概率论.md

Latest commit

History

概率论.md

File metadata and controls

知识

随机事件及其概率

随机事件

随机事件的概率

古典概型

条件概率

事件的独立性

随机变量及其分布

随机变量

离散型随机变量及其概率分布

概率分布

两点分布

二项分布

泊松分布

随机变量的分布函数

连续型随机变量及其概率分布

概率密度函数

均匀分布

指数分布

正态分布

随机变量函数的分布

多维随机变量及其分布

二维随机变量及其分布

分布函数

概率密度

条件分布与随机变量的独立性

条件分布

随机变量的独立性

离散型随机变量

连续型随机变量

二维随机变量函数的分布

随机变量的数字特征

数学期望

方差

协方差与相关系数

协方差

相关系数

矩

大数定律和中心极限定理

切比雪夫不等式

大数定律

中心极限定理

数理统计的基础知识

数理统计的基本概念

常用统计分布

分位数

$\chi^2$分布

$t$分布

$F$分布

抽样分布

参数估计

点估计问题概述

点估计的常用方法

矩估计法

最大似然估计法

置信区间

正态总体的置信区间

假设检验

假设检验的基本概念

单正态总体的假设检验

附录

例题

随机事件及其概率

课堂例题

1

2

3

4

5

6

7

8

9

10