From 62d95cdfc4dadb1ad134733922a2e01df70bc465 Mon Sep 17 00:00:00 2001 From: Daniil Maximov Date: Wed, 17 Jan 2024 03:07:13 +0300 Subject: [PATCH] Removed most of missed places --- .../2023_Savelov/lectures/10lecture.tex | 2 +- .../2023_Savelov/lectures/11lecture.tex | 4 ++-- .../2023_Savelov/lectures/12lecture.tex | 4 ++-- .../2023_Savelov/lectures/14lecture.tex | 12 +++++----- .../2023_Savelov/lectures/1lecture.tex | 12 +++++----- .../2023_Savelov/lectures/2lecture.tex | 2 +- .../2023_Savelov/lectures/4lecture.tex | 6 ++--- .../2023_Savelov/lectures/5lecture.tex | 22 ++++++++++++++---- .../2023_Savelov/lectures/6lecture.tex | 18 +++++++++------ .../2023_Savelov/lectures/7lecture.tex | 23 ++++++++----------- .../2023_Savelov/lectures/8lecture.tex | 5 +++- .../2023_Savelov/lectures/9lecture.tex | 10 ++++---- 12 files changed, 69 insertions(+), 51 deletions(-) diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/10lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/10lecture.tex index 6fde8d11..7c9f2f33 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/10lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/10lecture.tex @@ -170,7 +170,7 @@ \subsection{Метод Наименьших Квадратов (МНК)} \subsection{Гауссовская линейная модель} \begin{note} - Гауссовская линейная модель отличается от обычной тем, что добавляется условие \\ $\eps \sim N(0, \sigma^2E_n)$. + Гауссовская линейная модель отличается от обычной тем, что добавляется условие $\eps \sim N(0, \sigma^2E_n)$. \end{note} \begin{reminder} diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/11lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/11lecture.tex index f9baa044..75a51015 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/11lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/11lecture.tex @@ -26,7 +26,7 @@ Статистика $S(X) = (\Pi_L X, \|\Pi_{L^\bot} X\|^2)$ является полной. \end{theorem} -\begin{corollary} +\begin{corollary}~ \begin{itemize} \item $\wh{\theta}(X)$ --- оптимальная оценка для $\theta$ @@ -108,7 +108,7 @@ \subsubsection{Доверительные интервалы в гауссовс \begin{itemize} \item Для $\sigma^2$: у нас есть статистика $\frac{1}{\sigma^2}\|X - Z\wh{\theta}(X)\|^2 \sim \chi_{n - k}^2$. Возьмём $u_{1 - \gamma}$ --- соответствующий квантиль $\chi_{n - k}^2$. Тогда \[ - \gamma = P(\frac{1}{\sigma^2}\|X - Z\wh{\theta}(X)\|^2 > u_{1 - \gamma}) = P\ps{\sigma^2 \in \Big(0; \frac{\|X - Z\wh{\theta}(X)\|^2}{u_{1 - \gamma}}\Big)} + \gamma = P\ps{\frac{1}{\sigma^2}\|X - Z\wh{\theta}(X)\|^2 > u_{1 - \gamma}} = P\ps{\sigma^2 \in \Big(0; \frac{\|X - Z\wh{\theta}(X)\|^2}{u_{1 - \gamma}}\Big)} \] \item Для $\theta_i$: воспользуемся тем фактом, что $\wh{\theta}(X) \sim N(\theta, \sigma^2A)$, где $A = (Z^TZ)^{-1}$. Тогда $\theta_i \sim N(\theta_i, \sigma^2a_{ii})$, а значит $\frac{\wh{\theta}_i - \theta_i}{\sqrt{\sigma^2a_{ii}}} \sim N(0, 1)$. Чтобы убрать $\sigma^2$ из знаменателя, вспомним, что $\wh{\theta}(X) \indep X - Z\wh{\theta}(X)$. Стало быть, можем поделить оценку на корень из $\frac{1}{\sigma^2}\|X - Z\wh{\theta}(X)\|^2 \sim \chi_{n - k}^2$ и получить распределение Стюдента: diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/12lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/12lecture.tex index 5a00a29f..fc8f7fbb 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/12lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/12lecture.tex @@ -70,7 +70,7 @@ \subsection{Монотонное отношение правдоподобия} \end{definition} \begin{theorem} (о монотонности относительно правдоподобия, без доказательства) - Пусть даны гипотезы $H_0 \colon \theta \le \theta_0$ (или $\theta = \theta_0$), $H_1 \colon \theta > \theta_0$, а семейство $\cP$ монотонно относительно правдоподобия, причём характер монотонности --- неубывание. Тогда критерий $S_\eps = \{T(x) \ge c_\eps\}$ с условием $P_{\theta_0}(S_\eps) = \eps$ является РНМК с уровнем значимости $\eps$ для проверки $H_0$ против $H_1$. + Пусть даны гипотезы $H_0 \colon \theta \le \theta_0$ (или $\theta = \theta_0$), $H_1 \colon \theta > \theta_0$, а семейство $\cP$ монотонно относительно правдоподобия по $T(X)$, причём характер монотонности --- неубывание. Тогда критерий $S_\eps = \{T(x) \ge c_\eps\}$ с условием $P_{\theta_0}(S_\eps) = \eps$ является РНМК с уровнем значимости $\eps$ для проверки $H_0$ против $H_1$. \end{theorem} \subsection{Двойственность доверительного оценивания и проверки гипотез} @@ -107,7 +107,7 @@ \subsection{Проверка гипотез в гауссовской линей \begin{solution} ($F$-критерий или критерий Фишера) Идея состоит в том, что мы умеем по выборке оценивать $T\theta$ с использованием оценки $\wh{\theta}(X)$. Мы будем строить критерий исходя из того, что надо проверить, насколько сильное отклонение в сравнении $T\wh{\theta}(X)$ и $t$. Далее для вывода критерия мы предполагаем верность гипотезы $T\theta = t$. - Итак, $\wh{\theta}(X) = (Z^TZ)^{-1}Z^TX$ --- это ОНК для $\theta$. В силу известных фактов, $\wh{t}(X) = T\wh{\theta}(X)$ --- оптимальная оценка для $T\theta$. Так как распределение $\wh{\theta}(X) \sim N(\theta, \sigma^2(Z^TZ)^{-1})$, то $\wh{t}(X) \sim N(T\theta, T\sigma^2(Z^TZ)^{-1}T^T) =: N(T\theta, \sigma^2B)$. Матрица $B$ положительно определена и симметрична, а поэтому существует $\sqrt{B}$ --- тоже симметричная матрица. Это позволяет оценку с независящим от параметров распределением: + Итак, $\wh{\theta}(X) = (Z^TZ)^{-1}Z^TX$ --- это ОНК для $\theta$. В силу известных фактов, $\wh{t}(X) = T\wh{\theta}(X)$ --- оптимальная оценка для $T\theta$. Так как распределение $\wh{\theta}(X) \sim N(\theta, \sigma^2(Z^TZ)^{-1})$, то $\wh{t}(X) \sim N(T\theta, T\sigma^2(Z^TZ)^{-1}T^T) =: N(T\theta, \sigma^2B)$. Матрица $B$ положительно определена и симметрична, а поэтому существует $\sqrt{B}$ --- тоже симметричная матрица. Это позволяет сделать оценку с независящим от параметров распределением: \[ \frac{1}{\sigma}(\sqrt{B})^{-1}(\wh{t}(X) - T\theta) \sim N(0, E_m) \Ra Q_T(X) := \nm{\frac{1}{\sigma}(\sqrt{B})^{-1}(\wh{t}(X) - T\theta)}^2 \sim \chi_m^2 \] diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/14lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/14lecture.tex index 0aaf58f0..74fd3c13 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/14lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/14lecture.tex @@ -14,7 +14,7 @@ \begin{itemize} \item $\xi \notin L_2$. Без доказательства - \item $\xi \in L_2$. Нужно добавить и вычесть соответствующий матож в скобке, выделить минимальную часть и показать, что остальное можно либо убрать из-за неотрицательности, либо оно равно нулю: + \item $\xi \in L_2$. Нужно добавить и вычесть соответствующее матожидание в скобке, выделить минимальную часть и показать, что остальное можно либо убрать из-за неотрицательности, либо оно равно нулю: \begin{multline*} \E(\xi - \eta)^2 = \E(\xi - \E(\xi | \eta) + \E(\xi | \eta) - \eta)^2 = \\ @@ -37,7 +37,7 @@ \\ \int_\Theta \int_\cX (\wh{\theta}(X) - t)^2f(t, x)d\mu(x)d\mu(\theta) = \E_{\wt{P}} (\wh{\theta}(X) - \theta)^2 \end{multline*} - Таким образом, мы минимизируем среднеквадратичное отклонение от функции, зависящей от $X$. Согласно теореме о наилучшем квадратичном прогнозе, оптимальной оценкой будет $\E_{\wt{P}}(\theta | X)$, то есть байесовская оценка. + Таким образом, мы минимизируем среднеквадратичное отклонение от $\theta$. Согласно теореме о наилучшем квадратичном прогнозе, оптимальной оценкой будет $\E_{\wt{P}}(\theta | X)$, то есть байесовская оценка. \end{proof} \subsection{Проверка гипотезы о независимости выборок} @@ -97,14 +97,14 @@ \subsubsection*{Коэффициент корреляции Спирмена} \begin{note} Пусть $(r_1, \ldots, r_n) \in S_n$ --- перестановка. Тогда должно быть понятно, что $P(R(X_1) = r_1 \wedge \ldots \wedge R(X_n) = r_n) = \frac{1}{|S_n|} = \frac{1}{n!}$. - Обозначим $R_i := R(X_i)$. Тогда понятно, что $\ol{R} = \frac{1}{n}\sum_{i = 1}^n R_i = \frac{1}{n}\sum_{i = 1}^n i = \frac{n + 1}{2}$. Более того, мы даже можем явно найти основную часть эмпирической дисперсии $R_i$: + Обозначим $R_i := R(X_i)$. Тогда $\ol{R} = \frac{1}{n}\sum_{i = 1}^n R_i = \frac{1}{n}\sum_{i = 1}^n i = \frac{n + 1}{2}$. Более того, мы даже можем явно найти основную часть эмпирической дисперсии $R_i$: \[ \sum_{i = 1}^n (R_i - \ol{R})^2 = \sum_{i = 1}^n \ps{i - \frac{n + 1}{2}}^2 = \frac{n^3 - n}{12} \text{ --- не зависит от перестановки} \] \end{note} \begin{definition} - Обозначим $R_i := R(X_i)$ и $S_i := S(Y_i)$. Тогда \textit{коэффициентом корреляции Спирмена} называется следующая величина: + Обозначим $R_i := R(X_i)$ и $S_i := S(Y_i)$. \textit{Коэффициентом корреляции Спирмена} называется следующая величина: \[ \rho_S = \frac{\sum_{i = 1}^n (R_i - \ol{R})(S_i - \ol{S})}{\sqrt{\sum_{i = 1}^n (R_i - \ol{R})^2 \sum_{i = 1}^n (S_i - \ol{S})^2}} \] @@ -148,7 +148,7 @@ \subsubsection*{Коэффициент корреляции Спирмена} \subsubsection*{Коэффициент корреляции Кендалла} \begin{definition} - Будем говорить, что пары $(X_i, Y_i)$ и $(X_j, Y_j)$, $i < j$, согласованы, если + Будем говорить, что пары $(X_i, Y_i)$ и $(X_j, Y_j)$, $i \neq j$, согласованы, если \[ \sgn(X_i - X_j) \cdot \sgn(Y_i - Y_j) = 1 \] @@ -167,7 +167,7 @@ \subsubsection*{Коэффициент корреляции Кендалла} \begin{definition} \textit{Коэффициентом корреляции Кендалла} называется следующая величина: \[ - \tau = \frac{T}{\frac{n(n - 1)}{2}} + \tau = T / \ps{\frac{n(n - 1)}{2}} \] \end{definition} diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/1lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/1lecture.tex index 4467de2d..00bcadbe 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/1lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/1lecture.tex @@ -37,24 +37,24 @@ \section{Напоминание теории вероятностей} \begin{enumerate} \item Для сходимости с вероятностью 1 достаточно заметить соотношение: \[ - \forall j \in \range{1}{m}\ \ \bigcap_{i = 1}^m \{\xi_{i, n} \to \xi_i\} = \{\xi_n \to \xi\} \subseteq \{\xi_{j, n} \to \xi_j\} + \forall j \in \range{1}{m}\ \ \bigcap_{i = 1}^m \{\xi_{n, i} \to \xi_i\} = \{\xi_n \to \xi\} \subseteq \{\xi_{n, j} \to \xi_j\} \] \item Для сходимости по вероятности всё же нужно 2 отдельных вложения (для любого $\eps > 0$): \begin{itemize} - \item[$\Ra$] \(\{|\xi_{i, n} - \xi_i| > \eps\} \subseteq \{\|\xi_n - \xi\|_2 > \eps\}\) + \item[$\Ra$] \(\{|\xi_{n, i} - \xi_i| > \eps\} \subseteq \{\|\xi_n - \xi\|_2 > \eps\}\) - \item[$\La$] \(\bigcup_{i = 1}^m \set{|\xi_{i, n} - \xi_i| > \eps} \supseteq \{\|\xi_n - \xi\|_2 > \eps\}\) + \item[$\La$] \(\bigcup_{i = 1}^m \set{|\xi_{n, i} - \xi_i| > \eps} \supseteq \{\|\xi_n - \xi\|_2 > \eps\}\) \end{itemize} \item Покомпонентная сходимость из векторной тривиальна, а в обратную сторону нужно разложить вектор на сумму векторов с лишь одной его компонентой и воспользоваться неравенством треугольника. Тогда всё следует из предполагаемого условия (покомпонентная сходимость): \[ - \E \sum_{i = 1}^m \|\xi_{i, n} - \xi_i\|_p^p \xrightarrow[n \to \infty]{} 0 + \E \sum_{i = 1}^m \|\xi_{n, i} - \xi_i\|_p^p \xrightarrow[n \to \infty]{} 0 \] \item Доказать нужно (и возможно) только в одну сторону. Зафиксируем $g \colon \R \to \R$ --- непрерывную ограниченную функцию и рассмотрим $h_i(x_1, \ldots, x_m) = x_i$ --- функция проектора. Тогда композиция $g \circ h$ является ограниченной непрерывной функцией $\R^m \to \R$, а значит можем воспользоваться предположением: \[ - \E g(\xi_{i, n}) = \E g(h(\xi_n)) \xrightarrow[n \to \infty]{} \E g(h(\xi)) = \E g(\xi_i) + \E g(\xi_{n, i}) = \E g(h(\xi_n)) \xrightarrow[n \to \infty]{} \E g(h(\xi)) = \E g(\xi_i) \] \end{enumerate} \end{proof} @@ -77,7 +77,7 @@ \section{Напоминание теории вероятностей} \begin{proof} Перейдём к сходимостям в координатах, а для них мы уже доказали эту лемму в курсе теории вероятностей: \[ - (\xi_n \xrightarrow{d} c) \Ra (\xi_{i, n} \xrightarrow{d} c_i) \Lora (\xi_{i, n} \xrightarrow{P} c_i) \Ra (\xi_n \xrightarrow{P} c) + (\xi_n \xrightarrow{d} c) \Ra (\xi_{n, i} \xrightarrow{d} c_i) \Lora (\xi_{n, i} \xrightarrow{P} c_i) \Ra (\xi_n \xrightarrow{P} c) \] \end{proof} diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/2lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/2lecture.tex index 271c2d5d..f80a6afd 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/2lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/2lecture.tex @@ -178,7 +178,7 @@ \section{Основные определения} \begin{multline*} F_n^*(x) - F(x) \le F_n^*(x_{N, K + 1} - 0) - F(x_{N, K}) = \\ - (F_n^*(x_{N, K + 1} - 0) - F(x_{N, K + 1} - 0)) + (F(X_{N, K + 1} - 0) - F(x_{N, K})) \le + (F_n^*(x_{N, K + 1} - 0) - F(x_{N, K + 1} - 0)) + (F(x_{N, K + 1} - 0) - F(x_{N, K})) \le \\ F_n^*(x_{N, K + 1} - 0) - F(x_{N, K + 1} - 0) + \frac{1}{N} \end{multline*} diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/4lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/4lecture.tex index da146677..7addc17c 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/4lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/4lecture.tex @@ -207,7 +207,7 @@ \subsubsection*{Метод выборочных квантилей} \end{reminder} \begin{proof} - Сходимость по распределению эквивалентна тому, что функции распределения сходятся во всех точках непрерывности своего предела. Мы пронормируем доказываемую сходимость так, чтобы при доказательстве получить справа $N(0, 1)$ (к результату теоремы же вернёмся просто при помощи теоремы о наследовании): + Сходимость по распределению эквивалентна тому, что функции распределения сходятся во всех точках непрерывности своего предела. Мы пронормируем доказываемую сходимость так, чтобы при доказательстве получить справа $N(0, 1)$ (к результату теоремы вернёмся обратным действием): \[ \eta_n = \frac{\sqrt{n}(z_{n, p} - z_p)}{\sqrt{\frac{p(1 - p)}{f^2(z_p)}}} \] @@ -233,7 +233,7 @@ \subsubsection*{Метод выборочных квантилей} \end{itemize} Покажем, что при стремлении $n \to \infty$ каждая из этих частей даст нам сомножитель из плотности $N(0, 1)$: \begin{itemize} - \item $A_1(n) \to \frac{1}{\sqrt{2\pi}}$ --- просто применение формулы Стирлинга + \item $A_1(n) \to \frac{1}{\sqrt{2\pi}}$. Просто применение формулы Стирлинга (а точнее, её следствия $C_{n - 1}^k \sim (p^{-p}(1 - p)^{-(1 - p)} + o(1))^{n - 1}$) \item $A_2(n) \to 1$. Действительно, ведь $f$ непрерывна, а $\lim_{n \to \infty} t_n(x) = z_p$ @@ -285,7 +285,7 @@ \subsubsection*{Метод выборочных квантилей} \\ 2\eps + \int_{[-N; x]} |p(x) - p_{\eta_n}(x)|d\mu(x) \end{multline*} - В силу равномерной оценки, можем найти такой номер $n_0$, что при $n \ge n_0$ верна оценка $|p(x) - p_{\eta_n}(x)| \le \frac{\eps}{x - (-N)}$. Тогда приходим к нужному результату: + В силу равномерной оценки, можем найти такой номер $n_1 \ge n_0$, что при $n \ge n_1$ верна оценка $|p(x) - p_{\eta_n}(x)| \le \frac{\eps}{x - (-N)}$. Тогда приходим к нужному результату: \[ \md{F(x) - F_{\eta_n}(x)} \le 2\eps + \int_{[-N; x]} |p(x) - p_{\eta_n}(x)|d\mu(x) \le 2\eps + (x + N) \cdot \frac{\eps}{x + N} = 3\eps \] diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/5lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/5lecture.tex index 938b42e7..861dec28 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/5lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/5lecture.tex @@ -35,7 +35,7 @@ \subsection{Сравнение оценок} \end{definition} \begin{definition} - Пусть $\Theta \subseteq \R^m$ и $g$ --- функция потерь из $\R^m \times \R^m$. Тогда, если $\theta_n^*$ --- оценка параметра $\theta$, то функция $g(\theta^*(X), \theta)$ называется \textit{величиной потерь}. + Пусть $\Theta \subseteq \R^m$ и $g$ --- функция потерь из $\R^m \times \R^m$. Тогда, если $\theta_n^*$ --- оценка параметра $\theta$, то функция $g(\theta_n^*(X), \theta)$ называется \textit{величиной потерь}. \end{definition} \begin{example} @@ -75,14 +75,28 @@ \subsubsection{Равномерный подход к сравнению оце \end{note} \begin{definition} - Оценка $\hat{\theta}$ называется \textit{наилучшей в классе оценок $\cK$}, если она лучше любой другой оценки $\theta^* \in \cK$. + Оценка $\hat{\theta}$ называется \textit{наилучшей в классе оценок $\cK$}, если она не хуже любой другой оценки $\theta^* \in \cK$. \end{definition} \begin{note} Наилучшая оценка не всегда существует. \end{note} -\textcolor{red}{Доказать, что в классе всех оценок нет наилучшей} +\begin{proposition} + В классе всех оценок не существует наилучшей с квадратичной функцией потерь +\end{proposition} + +\begin{proof} + Предположим, что $\theta^*$ --- наилучшая оценка. Тогда: + \[ + \forall \wh{\theta}\ \forall \theta \in \Theta\ \ \E_\theta (\theta^*(X) - \theta)^2 \le \E_\theta (\wh{\theta}(X) - \theta)^2 + \] + В частности, это так для $\wh{\theta}(X) = \theta_1$ --- некоторый произвольно выбранный параметр из $\Theta$. Стало быть, при $\theta = \theta_1$ имеем + \[ + \E_{\theta_1} (\theta^*(X) - \theta_1)^2 \le \E_{\theta_1} (\theta_1 - \theta_1)^2 = 0 \Lora \E_{\theta_1} (\theta^*(X) - \theta_1)^2 = 0 + \] + Такое возможно тогда и только тогда, когда $\theta^*(X) =^{\aal{P_{\theta_1}}} \theta_1$, то есть оценка заранее знает то, что оценивает, противоречие. +\end{proof} \subsubsection{Минимаксный подход} @@ -119,7 +133,7 @@ \subsubsection{Байесовский подход} \end{definition} \begin{definition} - Оценка $\theta^*(X)$ называется \textit{наилучшей в байесовском подходе}, если выполнено равенство: + Оценка $\theta^*(X)$ называется \textit{наилучшей в байесовском подходе}, если её риск минимален: \[ R(\theta^*(X)) = \min_{\hat{\theta} \in \cK} R(\hat{\theta}(X)) \] diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/6lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/6lecture.tex index b6369a58..33a338c8 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/6lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/6lecture.tex @@ -157,22 +157,26 @@ \subsubsection{Среднеквадратический подход} \[ \hat{\theta}(X) = \tau(\theta) + c(\theta) \cdot U_\theta(X) \] - Так как $E_\theta U_\theta(X) = 0$, то $\hat{\theta} \in \cK$. Домножим исходное равенство на $U_\theta(X)$ и возьмём матожидание: + Так как $E_\theta U_\theta(X) = 0$, то $\hat{\theta} \in \cK$. Перенесём $\tau(\theta)$ влево, возведём равенство в квадрат и возьмём матожидание: + \[ + D_\theta \hat{\theta}(X) = \E_\theta (\hat{\theta}(X) - \tau(\theta))^2 = c^2(\theta)\E_\theta U_\theta^2(X) = c^2(\theta)I_X(\theta) + \] + Так как $0 < I_X(\theta) < +\infty$, то $\hat{\theta} \in \wh{\cK}$. Теперь домножим исходное равенство на $U_\theta(X)$ и возьмём матожидание: \[ \E_\theta (\hat{\theta} - \tau(\theta))U_\theta(X) = c(\theta) \E_\theta U_\theta^2(X) = c(\theta) I_X(\theta) \] - В силу регулярности $0 < I_X(\theta) < +\infty$. Таким образом, $\hat{\theta} \in \wh{\cK}$. При этом, из доказательства неравенства Рао-Крамера мы знаем, что левая часть равна $\tau'(\theta)$. Отсюда выражение для $c(\theta)$. В силу линейной зависимости $\eta = \hat{\theta} - \tau(\theta)$ и $\xi = U_\theta(X)$, $\hat{\theta}$ является эффективной оценкой. + При этом, из доказательства неравенства Рао-Крамера мы знаем, что левая часть равна $\tau'(\theta)$. Отсюда выражение для $c(\theta)$. В силу линейной зависимости $\eta = \hat{\theta} - \tau(\theta)$ и $\xi = U_\theta(X)$, $\hat{\theta}$ является эффективной оценкой. \end{itemize} \end{proof} -\begin{corollary} - Если $\theta^*(X) \in \wh{\cK}$ не хуже эффективной оценки $\hat{\theta} \in \wh{\cK}$, то по критерию эффективности $\theta^* =^{P_\theta\text{ п.н.}} \hat{\theta}$. -\end{corollary} - \begin{note} Если есть эффективная оценка $\tau(\theta)$, то она наилучшая оценка $\tau(\theta)$ в классе $\wh{\cK}$. Обратное, при этом, неверно. \end{note} +\begin{corollary} + Если $\theta^*(X) \in \wh{\cK}$ не хуже эффективной оценки $\hat{\theta} \in \wh{\cK}$, то $\theta^* =^{P_\theta\text{ п.н.}} \hat{\theta}$. +\end{corollary} + \begin{theorem} Если в условиях регулярности существует эффективная оценка для $\tau(\theta)$, $\tau \neq const$, то множество функций, для которых существует эффективная оценка, может быть выражено как $\{a\tau(\theta) + b \colon a, b \in \R\}$. \end{theorem} @@ -208,7 +212,7 @@ \subsubsection{Среднеквадратический подход} &{\hat{v}(X) =^{P_\theta\text{ п.н.}} v(\theta) + d(\theta)U_\theta(X)} } \] - В условиях регулярности $\Theta$ является интервалом, причём мы знаем, что $\tau \neq const$. Стало быть, существует $\theta_0$ такая, что $\tau'(\theta_0) \neq 0$. Тогда и $c(\theta_0) \neq 0$, а потому при $\theta_0$ из первого равенства можно выразить $U_\theta(X)$ и подставить во второе: + В условиях регулярности $\Theta$ является интервалом, причём мы знаем, что $\tau \neq const$. Стало быть, существует $\theta_0$ такой, что $\tau'(\theta_0) \neq 0$. Тогда и $c(\theta_0) \neq 0$, а потому при $\theta_0$ из первого равенства можно выразить $U_\theta(X)$ и подставить во второе: \[ \hat{v}(X) = v(\theta_0) + d(\theta_0)\ps{\frac{\hat{\tau}(X) - \tau(\theta_0)}{c(\theta_0)}} = a(\theta_0)\hat{\tau}(X) + b(\theta_0) \] diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/7lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/7lecture.tex index a7905ecb..ea26ab73 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/7lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/7lecture.tex @@ -24,7 +24,7 @@ \subsubsection*{Связь экспоненциальных семейств и \end{note} \begin{theorem} - Пусть $\{X_i\}_{i = 1}^n$ --- выборка из распределения $P_\theta \in \cP$. Тогда для этого распределения существует $\tau(\theta) \neq const$ и соответствующая эффективная оценка $\hat{\tau}(X)$ тогда и только тогда, когда распределение относится к экспоненциальному семейству. + Пусть выполнены условия регулярности и $\{X_i\}_{i = 1}^n$ --- выборка из распределения $P_\theta \in \cP$. Тогда для этого распределения существует $\tau(\theta) \neq const$ и соответствующая эффективная оценка $\hat{\tau}(X)$ тогда и только тогда, когда распределение относится к экспоненциальному семейству. \end{theorem} \begin{proof}~ @@ -39,21 +39,21 @@ \subsubsection*{Связь экспоненциальных семейств и \\ \pd{}{\theta} \ps{a(\theta)\sum_{i = 1}^n T(X_i) + nV(\theta)} = a'(\theta)\sum_{i = 1}^n T(X_i) + nV'(\theta) \end{multline*} - Если $T = const$, то $p_\theta(x) = h(x)e^{b(\theta)}$, а тогда $\int_\R p_\theta(x)d\mu(x) = 1$, то есть $b(\theta) = const$ и $p_\theta(x)$ не зависит от $\theta$. Такие случаи мы не рассматриваем. \textcolor{red}{Мы также считаем, что $a'(\theta) \neq 0$.} Тогда мы можем переписать равенство в стиле критерия эффективности: + Если $T = const$, то $p_\theta(x) = h(x)e^{b(\theta)}$ и в то же время $\int_\R p_\theta(x)d\mu(x) = 1$, то есть $b(\theta) = const$ и $p_\theta(x)$ не зависит от $\theta$. Такие случаи мы не рассматриваем. Если $a'(\theta) = 0$, то интегрированием мы установим, что $f_\theta(X)$ не зависит от $X$, что невозможно для непрерывной плотности (только в конечном случае). Тогда мы можем переписать равенство в стиле критерия эффективности: \[ \frac{1}{na'(\theta)}U_\theta(X) = \frac{1}{n}\sum_{i = 1}^n T(X_i) - \frac{-V'(\theta)}{a'(\theta)} \] Итак, $\hat{\tau}(X) = \ol{T(X)}$ является эффективной оценкой для $\tau(\theta) = \frac{-V'(\theta)}{a'(\theta)}$ \textcolor{red}{в случае, если это отношение не стало константой.} - \item[$\Ra$] Пусть $\hat{\tau}(X)$ --- эффективная оценка некоторой $\tau(\theta) \neq 0$. \textcolor{red}{Потребуем, что $\forall \theta \in \Theta\ \ \tau'(\theta) \neq 0$}. Так как оценка эффективна, то выполнено равенство Рао-Крамера: + \item[$\Ra$] Пусть $\hat{\tau}(X)$ --- эффективная оценка некоторой $\tau(\theta) \neq 0$. Так как оценка эффективна, то выполнено равенство Рао-Крамера: \[ - D_\theta \hat{\tau}(X) = \frac{(\tau'(\theta))^2}{I_X(\theta)} < \infty + D_\theta \hat{\tau}(X) = \frac{(\tau'(\theta))^2}{I_X(\theta)} \] - Отсюда автоматически следует, что $\hat{\tau}(X) \in L_2$. За счёт этого мы можем воспользоваться критерием эффективности: + Заметим, что если есть хотя бы одно $\theta \in \Theta$, при котором $\tau'(\theta) = 0$, то оценка $\hat{\tau}(X)$ вырождена (будет константой в силу нулевой дисперсией, а значит должна заранее знать оцениваемый параметр). Стало быть, $\tau'(\theta)$ не обращается в ноль ни при каком $\theta \in \Theta$. Также понятно, что из равенства следует конечность дисперсии, а значит $\hat{\tau}(X) \in L_2$. За счёт этого мы можем воспользоваться критерием эффективности: \[ \hat{\tau}(X) - \tau(\theta) =^{P_\theta\text{ п.н.}} c(\theta)U_\theta(X) \] - \textcolor{red}{За счёт того, что $\tau'(\theta) \neq 0$, мы также имеем $c(\theta) = \frac{\tau'(\theta)}{I_X(\theta)} \neq 0$}. Выразим $U_\theta(X)$ и подставим его в своё определение: + Так как $\tau'(\theta) \neq 0$, то и $c(\theta) = \frac{\tau'(\theta)}{I_X(\theta)} \neq 0$. Выразим $U_\theta(X)$ и подставим его в своё определение: \[ \pd{}{\theta} \ln f_\theta(X) =^{P_\theta\text{ п.н.}} \frac{\hat{\tau}(X) - \tau(\theta)}{c(\theta)} \] @@ -65,10 +65,9 @@ \subsubsection*{Связь экспоненциальных семейств и \end{align*} Теперь, если мы зафиксируем $x_{2, 0}, \ldots, x_{n, 0} \in A$ (где $A$ из условий регулярности), а $x_1$ оставим переменной, то можно получить формулу плотности одной случайной величины: \[ - p_\theta(x_1) = \frac{H(x_1, x_{2, 0}, \ldots, x_{n, 0})}{\prod_{i = 2}^n p_\theta(x_{i, 0})}\exp(\beta(\theta)T(x_1, x_{2, 0}, \ldots, x_{n, 0}) + D(\theta)) + \forall x_1 \in \cX\ \ p_\theta(x_1) = I_A(x) \cdot \frac{H(x_1, x_{2, 0}, \ldots, x_{n, 0})}{\prod_{i = 2}^n p_\theta(x_{i, 0})}\exp(\beta(\theta)T(x_1, x_{2, 0}, \ldots, x_{n, 0}) + D(\theta)) \] \end{itemize} - \textcolor{red}{Нужно ещё что-то сказать про независимость $a_1$ с 1. Дописать} \end{proof} \subsection{Достаточные статистики} @@ -88,10 +87,8 @@ \subsection{Достаточные статистики} Если существует биекция между статистиками $S$ и $T$, причём $T$ достаточная, то и $S$ тоже достаточная. Таким образом, важна не сама статистика, а порождённое ей разбиение вероятностного пространства. \end{note} -\textcolor{red}{А определение функции правдоподобия кто давать будет? Видимо я} - \begin{theorem} (Нейман, Фишер. Критерий факторизации) - Пусть $\cP = \{P_\theta \colon \theta \in \Theta\}$ --- доминируемое семейство. Тогда статистика $T$ является достаточной для параметра $\theta$ тогда и только тогда, когда функция правдоподобия $f_\theta(x)$ представима в следующем виде: + Пусть $\cP = \{P_\theta \colon \theta \in \Theta\}$ --- доминируемое семейство. Тогда статистика $T$ является достаточной для параметра $\theta$ тогда и только тогда, когда функция плотности $f_\theta(x)$ представима в следующем виде: \[ f_\theta(x) = \psi(T(x), \theta)h(x) \] @@ -115,7 +112,7 @@ \subsection{Достаточные статистики} \item[$\La$] Итак, $f_\theta(x) = \psi(T(x), \theta)h(x)$. В силу дискретности, мы можем заявить следующее: \[ - f_\theta(x) = P_\theta(X = x) = \psi(T(x), \theta)h(x) \Lora P_\theta(X = x | T(X) = t) = \frac{P_\theta(X = x \wedge T(X) = t)}{P_\theta(T(X) = t)} + f_\theta(x) = P_\theta(X = x) = \psi(T(x), \theta)h(x) \] С учётом этого, распишем условную вероятность по определению и покажем явно, что зависимости от $\theta$ нет: \begin{multline*} @@ -138,7 +135,7 @@ \subsubsection{Улучшение оценок с помощью достато \begin{enumerate} \item $\phi(T(X))$ не зависит от $\theta$, то есть является тоже статистикой, причём \\ $\E_\theta \phi(T(X)) = \tau(\theta)$ и $D_\theta(\phi(T(X))) \le D_\theta(d(X))$. - \item Если дополнительно $\E_\theta d^2(X) < \infty$, то неравенство дисперсий обрщается в равенство тогда и только тогда, когда $\phi(T(X)) =^{P_\theta\text{ п.н.}} d(X)$ при любом $\theta \in \Theta$. + \item Если дополнительно $\E_\theta d^2(X) < \infty$, то неравенство дисперсий обращается в равенство тогда и только тогда, когда $\phi(T(X)) =^{P_\theta\text{ п.н.}} d(X)$ при любом $\theta \in \Theta$. \end{enumerate} \end{theorem} diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/8lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/8lecture.tex index 54e13b5f..05c58506 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/8lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/8lecture.tex @@ -48,7 +48,10 @@ \[ p_\theta(x) = h(x)\exp\ps{\sum_{i = 1}^k a_i(\theta)T_i(x) + V(\theta)} \] - Тогда, если область значений векторной функции $\vv{a}(\theta) = (a_1(\theta), \ldots, a_k(\theta))^T, \theta \in \Theta$ содержит $k$-мерный параллелепипед, то \textcolor{red}{внезапно, вектор стал оценкой скаляра} + Тогда, если область значений векторной функции $a(\theta) = (a_1(\theta), \ldots, a_k(\theta))^T, \theta \in \Theta$, содержит $k$-мерный параллелепипед, то статистика $T(X)$ следующего вида является полной и достаточной для $\Theta$: + \[ + T(X) = \ps{\sum_{i = 1}^k T_i(X_1), \ldots, \sum_{i = 1}^k T_i(X_n)}^T + \] \end{theorem} \begin{note} diff --git a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/9lecture.tex b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/9lecture.tex index cd3c3e72..f4d96485 100644 --- a/Lectures/5_Semester/Statistics/2023_Savelov/lectures/9lecture.tex +++ b/Lectures/5_Semester/Statistics/2023_Savelov/lectures/9lecture.tex @@ -67,9 +67,9 @@ \subsection{Метод максимального правдоподобия} \begin{example} Найдём явно оценку ОМП в базовом случае $X_i \sim U[0; \theta]$. Тогда функция правдоподобия имеет вид: \[ - f_\theta(X) = \frac{1}{\theta^n} \prod_{i = 1}^n \chi\{0 \le X_i \le \theta\} = \frac{\chi\{0 \le X_{(1)} \le X_{(n)} \le \theta\}}{\theta^n} + f_\theta(X) = \prod_{i = 1}^n p_\theta(X_i) = \frac{1}{\theta^n} \prod_{i = 1}^n \chi\{0 \le X_i \le \theta\} = \frac{\chi\{0 \le X_{(1)} \le X_{(n)} \le \theta\}}{\theta^n} \] - Так как мы считаем, что реализация выборки $X$ фиксирована при выборе $\theta$, то оценка должна быть очевидна: $\hat{\theta}(X) = X_{(n)}$. \textcolor{red}{Исправить, тут не вероятность написана, а что-то другое} + Так как мы считаем, что реализация выборки $X$ фиксирована при выборе $\theta$, то оценка должна быть очевидна: $\hat{\theta}(X) = X_{(n)}$. \end{example} \begin{definition} @@ -123,11 +123,11 @@ \subsection{Метод максимального правдоподобия} \\ \int_A \ps{\frac{p_\theta(x)}{p_{\theta_0}(x)} - 1}p_{\theta_0}(x)d\mu(x) = \int_A p_\theta(x)d\mu(x) - \int_A p_{\theta_0}(x)d\mu(x) = 1 - 1 = 0 \end{multline*} - Последнее равенство опирается на то, что $A$ --- это носитель положительной вероятности. Сейчас мы доказали нестрогое неравенство, а надо строгое. Если выполнено равенство, то в том числе + Последнее равенство опирается на то, что $A$ --- это носитель вероятности. Сейчас мы доказали нестрогое неравенство, а надо строгое. Если выполнено равенство, то в том числе \[ \int_A \ln\ps{1 + \frac{p_\theta(x)}{p_{\theta_0}(x)} - 1}p_{\theta_0}(x)d\mu(x) = 0 = \int_A \ps{\frac{p_\theta(x)}{p_{\theta_0}(x)} - 1}p_{\theta_0}(x)d\mu(x) \] - Так как $\ln(1 + p_\theta(x) / p_{\theta_0}(x) - 1) \le p_\theta(x) / p_{\theta_0}(x) - 1$, то такое возможно тогда и только тогда, когда эти функции равны почти-наверное на $A$. Стало быть, $\mu\{x \in A \colon p_\theta(x) \neq p_{\theta_0}(x)\} = 0$, а это противоречит условию регулярности 0. Значит неравенство строгое, что и требовалось. + Так как $\ln(1 + p_\theta(x) / p_{\theta_0}(x) - 1) \le p_\theta(x) / p_{\theta_0}(x) - 1$, то такое возможно тогда и только тогда, когда эти функции равны $\mu$-почти наверное на $A$. Стало быть, $\mu\{x \in A \colon p_\theta(x) \neq p_{\theta_0}(x)\} = 0$, а это противоречит условию регулярности 0. Значит неравенство строгое, что и требовалось. \end{proof} \begin{corollary} @@ -139,7 +139,7 @@ \subsection{Метод максимального правдоподобия} \[ \{x \colon \wh{\theta}(x) = \theta_i\} = \ps{\bigcap_{l < i} C_{l < i}} \cap \ps{\bigcap_{l > i} C_{l \le i}} \] - Так как $f_{\theta_i}$ есть фактически плотность меры $P_{\theta_i}$, то это измеримая функция. Стало быть, каждое множество $C_{l < i}$, $C_{l \le i}$ в конечном пересечении измеримо, а значит и пересечение тоже измеримо. Причём, если $X_k \sim P_{\theta_i}$, то работает доказанная теорема и вероятность такого множества стремится к единице (этим установлена единственность и одновременно состоятельность). + Так как $f_{\theta_i}$ есть плотность меры $P_{\theta_i}$, то это измеримая функция. Стало быть, каждое множество $C_{l < i}$, $C_{l \le i}$ в конечном пересечении измеримо, а значит и пересечение тоже измеримо. Причём, если $X_k \sim P_{\theta_i}$, то работает доказанная теорема и вероятность такого множества стремится к единице (этим установлена единственность и одновременно состоятельность). \end{proof} \begin{definition}