Analiza danych statystycznych
R + RStudio; testowanie hipotez
W matematyce nie ma drogi specjalnie dla królów.
– Euklides
Teoria
Każdy z nas przynajmniej parę razy dziennie stawia pewne tezy, które potem na podstawie zebranych wcześniej danych/informacji weryfikuje by ostatecznie podjąć decyzję. Wszyscy jesteśmy naturalnymi maszynami statystycznymi ukształtowanymi w procesie doświadczeń życiowych. Niestety, już od pewnego poziomu złożoności naturalizm statystyczny nie wystarczy. Z pomocą przychodzi matematyka. Testowanie hipotez jest jednym z najważniejszych narzędzi w analizie danych, a jego wyniki mają wpływ na podejmowanie decyzji w wielu dziedzinach, takich jak medycyna, nauki społeczne, ekonomia i wiele innych.
- Znam i rozumiem testowanie hipotez dla parametrów przy zadanym poziomie istotności.
- Potrafię wyjaśnić rodzaje błędów występujących w testowaniu hipotez.
- Potrafię wyjaśnić co to jest p-value i wiem jak weryfikować hipotezę statystyczną na jej podstawie.
- Potrafię wyprowadzić reguły weryfikowania hipotez:
- Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu, \sigma^2)\), \(\sigma^2\) – znane. Test: \[H_0:\mu=\mu_0\quad\] vs. \[\text{a) }H_1: \mu\neq\mu_0, \quad \text{b) }H_1:\mu>\mu_0, \quad \text{c) }H_1: \mu<\mu_0.\]
- Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu, \sigma^2)\), \(\sigma^2\) – nieznane. Test: \[H_0:\mu=\mu_0\quad\] vs. \[\text{a) }H_1: \mu\neq\mu_0, \quad \text{b) }H_1:\mu>\mu_0, \quad \text{c) }H_1: \mu<\mu_0.\] Wskazówka. Statystyka testowa: \[\frac{\overline{X}-\mu_0}{s}\sqrt{n}.\]
- Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu, \sigma^2)\). Test: \[H_0:\sigma^2=\sigma^2_0\quad\] vs. \[\text{a) }H_1: \sigma^2\neq\sigma^2_0, \quad \text{b) }H_1:\sigma^2>\sigma^2_0, \quad \text{c) }H_1: \sigma^2<\sigma^2_0.\]
Wskazówka. Statystyka testowa: \[(n-1)\frac{s^2}{\sigma^2_0}.\] - Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu_X, \sigma^2)\), \(\boldsymbol{Y}\sim \mathcal{N}(\mu_Y, \sigma^2)\), \(\boldsymbol{X}\perp\boldsymbol{Y}\), \(\sigma^2\) – nieznane. Test: \[H_0:\mu_X=\mu_Y\quad\] vs. \[\text{a) }H_1: \mu_X\neq\mu_Y, \quad \text{b) }H_1:\mu_X>\mu_Y, \quad \text{c) }H_1: \mu_X<\mu_Y.\]
Wskazówka. Statystyka testowa: \[\frac{\overline{X}-\overline{Y}-(\mu_X-\mu_Y)}{\sqrt{(n-1)s^2_X+(k-1)s^2_Y}}\sqrt{\frac{n\,k (n+k-2)}{n+k}}.\] - Założenie: \(\boldsymbol{X}\) – \(n\)-wymiarowa próba losowa z populacji o rozkładzie dwupunktowym z parametrem \(p\). Test: \[H_0:p=p_0\quad\] vs. \[\text{a) }H_1: p\neq p_0, \quad \text{b) }H_1:p>p_0, \quad \text{c) }H_1: p<p_0.\] Wskazówka. Statystyka testowa: \[\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}\]
- Założenie: \(\boldsymbol{X}\), \(\boldsymbol{Y}\) – niezależne próby losowe o rozmiarach \(n_X\) i \(n_Y\) z populacji o rozkładach dwupunktowych z parametrami \(p_X\) i \(p_Y\). Test: \[H_0:p_X=p_Y\quad\] vs. \[\text{a) }H_1: p_X\neq p_Y, \quad \text{b) }H_1:p_X>p_Y, \quad \text{c) }H_1: p_X<p_Y.\] Wskazówka. Statystyka testowa: \[\frac{\hat{p}_X-\hat{p}_Y}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}},\] gdzie \[\hat{p} = \frac{n_X\cdot \hat{p}_X + n_Y\cdot \hat{p}_Y}{n_X+n_Y},\] \[n = \frac{n_X \cdot n_Y}{n_X + n_Y}.\]
R+RStudio
Inżynier musi łączyć teorię z praktyką, zatem kolejna porcja poleceń w R.
- Potrafię przeprowadzić test dla podstawowych parametrów i funkcji parametrów dla danych w wersji wektorowej i tabelarycznej również z podziałem na grupy.
- Znam i potrafię zastosować funkcje:
t.test
,var.test
,prop.test
. Potrafię omówić otrzymane wyniki.