概率论与数理统计

联合分布函数，条件概率，乘法定理，全概率公式，贝叶斯公式，边缘分布，条件分布，随机变量的函数的分布，相互独立，期望，方差，协方差，标准化变量，相关系数，切比雪夫不等式，柯西-施瓦茨不等式，协方差矩阵，n维正态分布

概率论

箱线图

顺序统计量：抽象一组数据后按值排序作为各分量的值，显然就不相互独立。
中位数：顺序统计量里正中靠右那个值。
极差：最大的 - 最小的

常用概率分布表

(0, 1)分布，两点分布，二项分布，泊松分布，均匀分布，正态分布，高斯分布，伽马分布，Γ分布，指数分布，X2分布，t分布，F分布

常用概率分布表

大数定律与中心极限定理

切比雪夫不等式，依概率收敛，大数定律，切比雪夫大数定理，辛钦大数定理，弱大数定理，伯努利大数定理，中心极限定理，李雅普诺夫定理，列维-林德伯格定理，棣莫弗-拉普拉斯定理，

大数定律与中心极限定理

参数估计

点估计

矩估计
- 正态母体中用子样中位数和子样极差估计参数比较好计算。比如子样中位数近似服从 $N(\mu, \frac{\pi}{2n})$
最大似然估计

评定估计量好坏的标准

无偏性
相合性：对估计量的基本要求
有效性
- 优效估计
  - 满足正规条件的无偏估计量的方差满足罗-克拉美不等式$$D\hat\theta \ge \frac{1}{nE(\frac{\partial{\ln f(x; \theta)}}{\partial{\theta}})^2} $$ 如果是离散母体，把 f 改为 P。
  - 上面不等式右边称罗-克拉美下界，能达到且无偏的估计量就称优效估计；$n \rightarrow \infty$ 时能达到就是渐近优效估计
- 优效估计必是最小方差无偏估计量

区间估计

置信区间：随机区间覆盖估计量的可能性 $P\{u_1 < U < u_2\} = 1 - \alpha$，$u_1$、$u_2$ 分别为上、下侧分位数。
“弃真”的错误为第一类错误，“取伪”的错误为第二类错误。样本量一定时无法同时减小两类错误，显著性检验只对第一类错误的概率加以控制。

区间估计

上图枢轴量的分布易由以下三点推出来：

$\bar X \sim N(\mu, \sigma^2 / n)$
$\frac{(n-1)S^2}{\sigma^2} \sim x^2(n-1)$
$\bar X$ 与 $S^2$ 相互独立

大子样（比如超过 50）时可以有一些近似估计：

用子样的方差近似母体的方差
由中心极限定理，母体均值近似服从正态分布
由中心极限定理，n 很大时 $x^2(n)$ 近似于 N(n, 2n)，所以 n > 45 时 $x^2$ 表里查不到上侧分位数，可以去查标准正态分布的表，然后乘以 $\sqrt{2n}$ 再加 n。
t 分布是对称的，且随 n 增大趋近于标准正态分布，所以也可以查标准正态分布的表确定上侧分位数。

标准正态分布表

图中所示为常用的置信水平 95% 时两侧分位数：$z_{\alpha / 2} \approx 1.96$

假设检验

参数假设检验

在母体上做关于参数的原假设 $H_0$，例如均值大于某值、两个母体的方差之比等于 1（对立的假设称备择假设 $H_1$）；
找统计量，在原假设成立的前提下导出该统计量的概率分布，如 $N, x^2, t, F$；
根据给定的显著性水平 $\alpha$ 与直观意义划分出拒绝域（按原假设这应是小概率事件）和接受域（单侧或两侧，对应区间估计中的置信区间）；
根据子样的统计量的值落入的区域，接受或拒绝原假设；
如果拒绝假设，可以再对参数做区间估计。

p-value：当原假设为真时，比所得到的样本观察结果更极端的结果出现的概率。

分布假设检验：$x^2$ 检验法

假设 $H_0$：服从形式已知但参数未知的分布 $F(x) = F_0(x; \theta), \theta = (\theta_1, \theta_2, \cdots, \theta_k)$

抽取大子样（$n \ge 50$）后通过极大似然估计出 $\hat\theta$
顺序取 l + 1 个点 $\alpha_0 < \alpha_1 < \cdots < \alpha_l$ 把子样分成 l 个组，区间 $(\alpha_{i-1}, \alpha_i]$ 中的理论频数如下（实际分组时各组理论频数不少于 5）：$$np_i = n(F_0(\alpha_i, \hat\theta) - F_0(\alpha_{i-1}, \hat\theta))$$
实际频数 $m_i$

则频数的实际与理论的偏差渐近服从卡方分布 $$x^2 = \sum\limits_{i=1}^{l} \frac{(m_i - n p_i)^2}{np_i} \sim x^2(l - k - 1)$$ 又因为偏差越小越应该接受 $H_0$，因此可以按 $P\{x^2 \ge x_\alpha^2(l - k - 1)\} \approx \alpha$ 查上侧分位数拒绝假设，反之接受假设。

l 与 n 的关系有如下经验：

n	l
50 ~ 100	6 ~ 8
100 ~ 200	9 ~ 12
200+	15 ~ 20

假设 $H_0$：服从已知的 l 项的离散分布 $P(A_i) = p_i, i = 1, 2, \cdots, l$

也就是 k = 0 的情形
做 n 次（至少 50 次）独立重复试验，$m_i$ 是 $A_i$ 的频数。
按 $P\{x^2 \ge x_\alpha^2(l - 1)\} \approx \alpha$ 拒绝假设。

假设 $H_0: P(x, y) = P_1(x) P_2(y)$ （独立性假设检验）

有 n 组观测值 $(x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n)$

将二维平面分为 r 行 s 列，设 $m_{ij}, m_i, m_j$ 分别为第 i 列第 j 行的矩形范围内的频数、第 i 列的频数和第 j 行的频数，并记 $n_{ij} = \frac{n_{i*}n_{*j}}{n}$，则在原假设成立时有 $$x^2 = \sum\limits_{i=1}^{s} \sum\limits_{k=1}^{r} \frac{(m_{ij} - n_{ij})^2}{n_{ij}} \sim x^2((r-1)(s-1))$$

方差分析：离差分析法

分解定理：设

$X_1, X_2, \cdots, X_n$ 相互独立且 $X_i \sim N(0, 1)$
$\sum\limits_{i=1}^{n} X_i^2 = \sum\limits_{i=1}^{k} Q_i$，$Q_i$ 是 $X_1, X_2, \cdots, X_n$ 的非负定二次型（线性组合的平方和）且自由度为 $f_i$

则 $\sum\limits_{i=1}^{k} f_i = n$ 等价于 $Q_1, Q_2, \cdots, Q_k$ 相互独立且 $Q_i \sim x^2(f_i)$

一元方差分析

因子 A 有 r 种水平：$A_1, A_2, \cdots, A_r$，在水平 $A_i$ 时实验结果服从正态分布：$X_i \sim N(\mu_i, \sigma^2)$（假定不同水平的方差都相等）。现在想知道该因子的不同水平是否对实验结果有显著影响（而不通过两两做检验进行比较）。

每种水平分别实验，$A_i$ 对应子样 {$X_{ij}, j = 1, 2, \cdots, n_i$}。设

组内均值 $\bar X_i = \frac1{n_i} \sum\limits_{j=1}^{n_i} X_{ij}$
总均值 $\bar X = \frac{\sum\limits_{i=1}^{r} \sum\limits_{j=1}^{n_i} X_{ij}}{\sum\limits_{i=1}^{r} n_i}$

单一因子	离差平方和	均方离差	原假设	假设成立时的分布	检验分布
组间	$Q_A = \sum\limits_{i=1}^{r} n_i (\bar X_i - \bar X)^2$	$S_A = \frac{Q_A}{r-1} $	无显著影响 $\mu_1=\mu_2=\cdots=\mu_r$	$\frac{Q_A}{\sigma^2} \sim x^2(r - 1)$	$F_A = \frac{S_A}{S_E} \sim F(r - 1, n - r)$
组内	$Q_E = \sum\limits_{i=1}^{r} \sum\limits_{j=1}^{n_i} (X_{ij} - \bar X_i)^2$	$S_E=\frac{Q_E}{n-r}$	-	$\frac{Q_E}{\sigma^2} \sim x^2(n - r)$	-

$S_A \ge S_E$，等号成立当且仅当假设成立
直观上都是根据显著性水平取 F 分布的右侧分位数划分接受域与拒绝域（组间均方离差越大说明影响越显著）
如果原假设被拒绝，可以根据 $\frac{\bar X_i - \bar X_j - (\mu_i - \mu_j)}{\sqrt{\frac1{n_i} + \frac1{n_j}} \frac{Q_E}{n - r}} \sim t(n - r)$ 对两个水平之间的差异 $\mu_i - \mu_j$ 做区间估计。

二元方差分析

因子 A、B 分别有 r、s 种水平，在每组 $(A_i, B_j) \in A \times B$ 上各做 c 次实验，母体 $X_{ij}$ 服从方差为 $\sigma^2$ 的正态分布。子样为 {$X_{ijk}, k = 1, 2, \cdots, c$}。设

组内均值 $\bar X_{ij} = \frac1c \sum\limits_{k=1}^{c} X_{ijk}$
边缘均值（A）$\bar X_{i*} = \frac1s \sum\limits_{j=1}^{s} \bar X_{ij}$
边缘均值（B）$\bar X_{*j} = \frac1r \sum\limits_{i=1}^{r} \bar X_{ij}$
总均值 $\bar X = \frac1{sr} \sum\limits_{i=1}^{r} \sum\limits_{j=1}^{s} \bar X_{ij}$

两个因子	离差平方和	均方离差	原假设	假设成立时的分布	检验分布（c > 1）	检验分布（c = 1）
因子 A	$Q_A = sc \sum\limits_{i=1}^{r} (\bar X_{i*} - \bar X)^2$	$S_A=\frac{Q_A}{r-1}$	因子 A 无显著影响	$\frac{Q_A}{\sigma^2} \sim x^2(r-1)$	$F_A = \frac{S_A}{S_E} \sim F(r - 1, rs(c - 1))$	$F_A = \frac{S_A}{S_I} \sim F(r - 1, (r - 1)(s - 1))$
因子 B	$Q_B = rc \sum\limits_{j=1}^{s} (\bar X_{*j} - \bar X)^2$	$S_B=\frac{Q_B}{s-1}$	因子 B 无显著影响	$\frac{Q_B}{\sigma^2} \sim x^2(s-1)$	$F_B = \frac{S_B}{S_E} \sim F(s - 1, rs(c - 1))$	$F_B = \frac{S_B}{S_I} \sim F(s - 1, (r - 1)(s - 1))$
交互作用	$Q_I = c \sum\limits_{i=1}^{r} \sum\limits_{j=1}^{s} (\bar X_{ij} - \bar X_{i} - \bar X_{j} + \bar X)^2$	$S_I=\frac{Q_I}{(r-1)(s-1)}$	因子 A、B 无显著的交互作用	$\frac{Q_I}{\sigma^2} \sim x^2((r-1)(s-1))$	$F_I = \frac{S_I}{S_E} \sim F((r - 1)(s - 1), rs(c - 1))$	-
误差	$Q_E = \sum\limits_{i=1}^{r} \sum\limits_{j=1}^{s} \sum\limits_{k=1}^{c} (X_{ijk} - \bar X_{ij})^2$	$S_E=\frac{Q_E}{rs(c-1)}$	-	$\frac{Q_E}{\sigma^2} \sim x^2(rs(c-1))$	-	-

$\{S_A, S_B\} \ge S_I \ge S_E$，等号成立当且仅当对应的假设成立
直观上都是根据显著性水平取 F 分布的右侧分位数划分接受域与拒绝域（越大说明检验的因素影响越显著）

多个因子：正交试验设计

按照 $L_n(s^r)$ 正交表安排 n 次试验，希望能替代 $s^r$ 次试验检验 r 个（或略少于 r 个）各有 s 种水平的因子是否对试验结果有显著影响。

例如如下是 $L_9(3^4)$ 表，通过 9 次实验检验 4 个各有 3 种水平的因子的影响是否显著：

正交试验表

正交表的安排满足：

任一列各水平出现的个数相同
任意两列各组合水平出现的个数相同

按照正交表进行试验后，仅用已有结果求平均近似得到总均值与各个因子的边缘均值，进一步得

因子的离差平方和：(n / s) * 该因子各个水平时的 (边缘均值 - 总均值) 的平方和，自由度为 s - 1
总离差：各次试验 (结果 - 总均值) 的平方和，自由度为 n - 1
误差：总离差减去各个因子的离差平方和，自由度为 (n - 1) - r * (s - 1)

于是由 1 式 / 3 式应服从 F(r - 1, (n - 1) - r * (s - 1)) 去检验相应因子对试验结果是否有显著影响。

如果要考虑因子间两丙交互作用，就按照正交表附带的交互作用表，将因子对附加或新增到试验表的某些列上，计算与检验过程不变。

线性回归模型：$y = \alpha + \vec\beta \cdot \vec x + \epsilon$

其中 $\epsilon \sim N(0, \sigma^2)$，$\alpha, \vec\beta = (\beta_1, \beta_2, \cdots, \beta_p), \sigma^2$ 是待估计的参数。

参数的点估计

最小化 $$Q=\sum\limits_{i=1}^{n} (y - \alpha - \vec\beta \cdot \vec x)^2 = \| Y - \begin{pmatrix} 1 & X \end{pmatrix} \begin{pmatrix} \alpha \\ \vec\beta \end{pmatrix} \|^2 = \| Y - \tilde{X} \tilde \beta \|^2$$

令 Q 对 $\tilde \beta$ 各分量的偏导为 0 得最小二乘估计 $$\begin{cases} \hat\beta &= (\tilde{X}^T \tilde{X})^{-1} \tilde{X}^T Y \\ \hat\sigma^2 &= \frac1{n - p - 1} \sum\limits_{i=1}^{n} \hat\epsilon_i^2 \end{cases}$$ 且有相互独立的 $$\begin{cases} \hat\beta & \sim N(\tilde \beta, \sigma^2 (\tilde{X}^T \tilde{X})^{-1}) \\ \frac1{\sigma^2}\sum\limits_{i=1}^{n} \hat\epsilon_i^2 & \sim x^2(n - p - 1) \end{cases}$$

模型的检验

设 $\bar Y$为所有 y 的试验值的均值。用离差分析法，假设 $H_0: \vec\beta = 0 $ 成立，则有 $$F = \frac{n - p - 1}{p} \cdot (\frac{\sum\limits_{i=1}^{n}(Y_i - \bar Y)^2}{\sum\limits_{i=1}^{n} \hat\epsilon_i^2} - 1) \sim F(p, n - p - 1)$$ F 值大于分位数时则拒绝假设，认为线性回归显著。

系数的检验

$\hat\beta$ 的第 i 个分量可由 $$ T_i = \frac{\hat\beta_i - \tilde\beta_i}{\sqrt{\frac{c_{ii}}{n - p - 1} \sum\limits_{i=1}^{n} \hat\epsilon_i^2}} \sim t(n - p - 1)$$ 单独检验是否显著地等于 $\tilde\beta_i$，其中 $c_{ij}$ 是协方差矩阵 $C = (\tilde X^T \tilde X)^{-1}$ 中元素。特别地

取 $\tilde\beta_i = 0$ 可以检验相应的自变量分量是否重要；
取 $\tilde\beta_i = 0$ 且 p = 1 时也可以用这个分布检验线性回归是否显著。

因变量的区间估计

对任一点 $\vec x$ 做估计 $\hat y = \hat\beta \cdot (1, \vec x)$ 有 $$T = \frac{y - \hat y}{\sqrt{\frac{d}{n - p - 1} \sum\limits_{i=1}^{n} \hat\epsilon_i^2}} \sim t(n - p - 1)$$ 其中 $$d = 1 + \frac1n + \sum\limits_{i=1}^{p} \sum\limits_{i=1}^{p} c_{ij} (x_i - \bar x_i)(x_j - \bar x_j) = 1 + \frac1n + (x - \bar x)^T C (x - \bar x)$$ 可导出该估计的置信区间

古典假定的违背

违背方式	多重共线性 (1, x, u) 线性相关	异方差 $\sigma = \sigma(x)$	自相关 Cov $\epsilon$ 非对角
后果	$c_{ii}$ 过大： * t 检验被接受 * 预测区间趋于无穷	$c_{ii}$ 不精确： * t 检验不精确 * 预测失效	$D\hat\beta$ 被低估： * t 检验不精确 * 预测失效
检验法	1. 部分 $x_i, x_j$ 的相关系数的绝对值接近 2. 增加或删除一个解释变量导致回归系数的估计发生较大变化 3. 重要解释变量的系数没有通过 t 检验 4. 回归系数的符号与理论相反	1. 图示法：绘出 $\hat\epsilon_i^2$ 与 $x_i$ 的图形 2. Goldfeld-Quanad 法：将 $Y_i$ 从小到大排列，删除中间 1/4 数据，对两边各 k 个数据分别回归，残差平方和的商应服从 F(k - p - 1, k - p - 1) 3. white 检验：将残差平方和与 x 做 2 次多项式回归（可化为线性回归），通过回归的显著性进行判断	DW 检验法：DW = $\frac{\sum (e_i - e_{i-1})^2}{\sum e_i^2} \approx 2(1 - \hat\rho)$ 即 $\hat\rho \approx 1 - DW / 2$
补救法	1. 增加样本容量 2. 剔除相关系数大的变量 3. 变换模型形式（如将模型差分） 4. 利用先验信息合并变量 5. 使用面板数据（时间序列数据与截面数据结合） 6. 数据处理 7. 逐步回归法	1. 模型变换法：假设 $D \epsilon_i = f(x) \sigma^2$，f(x) 是二次式，则模型两边同除以 f(x) 消去异方差（配合 white 检验法） 2. 加权最小二乘法：设 Cov $\epsilon$ = A $\sigma^2$，因 A 对称得正交矩阵 Q 使 A 与单位矩阵合同，模型两边同时乘以 Q 可消去异方差 3. 对数变换法：用 (ln x, ln y) 替代 (x, y)	1. 加权最小二乘法 2. 广义差分法：设 $\epsilon_t = \rho \epsilon_{t-1} + v_t$，其中 v 满足古典假定，于是模型换成 $y' = Y_t - \rho Y_{t-1}$ 可消去自相关

概率论与数理统计

常用概率分布表

大数定律与中心极限定理

参数估计

点估计

评定估计量好坏的标准

区间估计

假设检验

参数假设检验

分布假设检验：$x^2$ 检验法

假设 $H_0$：服从形式已知但参数未知的分布 $F(x) = F_0(x; \theta), \theta = (\theta_1, \theta_2, \cdots, \theta_k)$

假设 $H_0$：服从已知的 l 项的离散分布 $P(A_i) = p_i, i = 1, 2, \cdots, l$

假设 $H_0: P(x, y) = P_1(x) P_2(y)$ （独立性假设检验）

方差分析：离差分析法

一元方差分析

二元方差分析

多个因子：正交试验设计

线性回归模型：$y = \alpha + \vec\beta \cdot \vec x + \epsilon$

参数的点估计

模型的检验

系数的检验

因变量的区间估计

古典假定的违背

Page Not Found