Analiza danych statystycznych
R + RStudio; estymacja przedziałowa
Nie ma pożytku z nielubianej pracy.
Słowem: to studiuj, co naprawdę lubisz.
– William Shakespeare, Poskromienie złośnicy
Teoria
Oszacowanie punktowe nigdy nie jest dokładne, może prawie nigdy, poza szczególnymi wyjątkami. Oczywiście bardzo często jest blisko rzeczywistej wartości którą estymuje i w wielu przypadkach to nam wystarczy. Specjalnie nie przychodzi nam do głowy by sprawdzić czy kilogram cukru deklarowany na opakowaniu jest kilogramem cukru. Na pewne błędy się godzimy. Ale są sytuacje z oszacowaniami, w których nie chcemy popełnić żadnego błędu a mając wiedzę, że praktycznie jest to niemożliwe chcemy go zminimalizować i dodatkowo wiedzieć jakiego jest on rzędu. Tak się dzieje np. przy dozowaniu leków, takich, że pomyłka o setną grama może przynieść fatalne skutki. Czy to oznacza, że nie należy stosować estymatorów punktowych? Ależ nie. Ale jeżeli ważna jest precyzja, to podawajmy również przedział ufności. Hasło przewodnie statystyka: stosuję estymację świadomie i w przekonaniu o swojej bezbłędności ale na wszelki wypadek wykupuję ubezpieczenie NNW.
- Znam i rozumiem definicję przedziału ufności dla parametru na zadanym poziomie ufności.
- Potrafię wyprowadzić przedziały ufności:
- Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu, \sigma^2)\), \(\sigma^2\) – znane. Przedział dla \(\mu\).
- Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu, \sigma^2)\), \(\sigma^2\) – nieznane. Przedział dla \(\mu\).
Podpowiedź. Funkcja centralna: \[\frac{\overline{X}-\mu}{s}\sqrt{n}\sim t_{n-1}.\] - Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu, \sigma^2)\). Przedział dla \(\sigma^2\).
Podpowiedź. Funkcja centralna \[(n-1)\frac{s^2}{\sigma^2}\sim \chi^2_{n-1}.\] - Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu_X, \sigma^2)\), \(\boldsymbol{Y}\sim \mathcal{N}(\mu_Y, \sigma^2)\), \(\boldsymbol{X}\perp\boldsymbol{Y}\), \(\sigma^2\) – znane. Przedział dla \(\mu_x-\mu_y\).
Podpowiedź. Funkcja centralna \[\frac{\overline{X}-\overline{Y}-(\mu_X-\mu_Y)}{\sigma}\sqrt{\frac{n\,k}{n+k}}\sim \mathcal{N}(0,1).\] - Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu_X, \sigma^2)\), \(\boldsymbol{Y}\sim \mathcal{N}(\mu_Y, \sigma^2)\), \(\boldsymbol{X}\perp\boldsymbol{Y}\), \(\sigma^2\) – nieznane. Przedział dla \(\mu_X-\mu_Y\).
Podpowiedź. Funkcja centralna \[\frac{\overline{X}-\overline{Y}-(\mu_X-\mu_Y)}{\sqrt{(n-1)s^2_X+(k-1)s^2_Y}}\sqrt{\frac{n\,k (n+k-2)}{n+k}}\sim t_{n+k-2}.\] - Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu_X, \sigma^2_X)\), \(\boldsymbol{Y}\sim \mathcal{N}(\mu_Y, \sigma^2_Y)\), \(\boldsymbol{X}\perp\boldsymbol{Y}\), \(\sigma^2\) – nieznane. Przedział dla \(\frac{\sigma^2_X}{\sigma^2_Y}\).
Podpowiedź. Funkcja centralna \[\frac{\frac{s^2_X}{\sigma^2_X}}{\frac{s^2_Y}{\sigma^2_Y}}\sim F_{n-1,k-1}.\]
R + RStudio
Oprócz wywoływania funkcji obliczających przedziały ufności podstawowych parametrów, tzn. wartości oczekiwanej i wariancji oraz ich prostych funkcji, porcja kolejnych poleceń jako niezbędnik analityka.
- Znam i potrafię zastosować funkcje:
nest_by
,unnest_wider
,glance
z pakietu ‘broom’.
- Rozumiem i potrafię obliczać kwantyle określonego rzędu dla podstawowych rozkładów.
- Potrafię obliczyć przedziały ufności dla podstawowych parametrów i funkcji parametrów (patrz wykład) dla danych w wersji wektorowej i tabelarycznej również z podziałem na grupy.