Analiza danych statystycznych

R + RStudio; estymacja przedziałowa

Autor

Jacek Bojarski

Zmodyfikowano

December 23, 2024

Nie ma pożytku z nielubianej pracy.
Słowem: to studiuj, co naprawdę lubisz.
– William Shakespeare, Poskromienie złośnicy

Teoria

Oszacowanie punktowe nigdy nie jest dokładne, może prawie nigdy, poza szczególnymi wyjątkami. Oczywiście bardzo często jest blisko rzeczywistej wartości którą estymuje i w wielu przypadkach to nam wystarczy. Specjalnie nie przychodzi nam do głowy by sprawdzić czy kilogram cukru deklarowany na opakowaniu jest kilogramem cukru. Na pewne błędy się godzimy. Ale są sytuacje z oszacowaniami, w których nie chcemy popełnić żadnego błędu a mając wiedzę, że praktycznie jest to niemożliwe chcemy go zminimalizować i dodatkowo wiedzieć jakiego jest on rzędu. Tak się dzieje np. przy dozowaniu leków, takich, że pomyłka o setną grama może przynieść fatalne skutki. Czy to oznacza, że nie należy stosować estymatorów punktowych? Ależ nie. Ale jeżeli ważna jest precyzja, to podawajmy również przedział ufności. Hasło przewodnie statystyka: stosuję estymację świadomie i w przekonaniu o swojej bezbłędności ale na wszelki wypadek wykupuję ubezpieczenie NNW.

  1. Znam i rozumiem definicję przedziału ufności dla parametru na zadanym poziomie ufności.
  2. Potrafię wyprowadzić przedziały ufności:
    1. Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu, \sigma^2)\), \(\sigma^2\) – znane. Przedział dla \(\mu\).
    2. Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu, \sigma^2)\), \(\sigma^2\) – nieznane. Przedział dla \(\mu\).
      Podpowiedź. Funkcja centralna: \[\frac{\overline{X}-\mu}{s}\sqrt{n}\sim t_{n-1}.\]
    3. Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu, \sigma^2)\). Przedział dla \(\sigma^2\).
      Podpowiedź. Funkcja centralna \[(n-1)\frac{s^2}{\sigma^2}\sim \chi^2_{n-1}.\]
    4. Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu_X, \sigma^2)\), \(\boldsymbol{Y}\sim \mathcal{N}(\mu_Y, \sigma^2)\), \(\boldsymbol{X}\perp\boldsymbol{Y}\), \(\sigma^2\) – znane. Przedział dla \(\mu_x-\mu_y\).
      Podpowiedź. Funkcja centralna \[\frac{\overline{X}-\overline{Y}-(\mu_X-\mu_Y)}{\sigma}\sqrt{\frac{n\,k}{n+k}}\sim \mathcal{N}(0,1).\]
    5. Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu_X, \sigma^2)\), \(\boldsymbol{Y}\sim \mathcal{N}(\mu_Y, \sigma^2)\), \(\boldsymbol{X}\perp\boldsymbol{Y}\), \(\sigma^2\) – nieznane. Przedział dla \(\mu_X-\mu_Y\).
      Podpowiedź. Funkcja centralna \[\frac{\overline{X}-\overline{Y}-(\mu_X-\mu_Y)}{\sqrt{(n-1)s^2_X+(k-1)s^2_Y}}\sqrt{\frac{n\,k (n+k-2)}{n+k}}\sim t_{n+k-2}.\]
    6. Założenie: \(\boldsymbol{X}\sim \mathcal{N}(\mu_X, \sigma^2_X)\), \(\boldsymbol{Y}\sim \mathcal{N}(\mu_Y, \sigma^2_Y)\), \(\boldsymbol{X}\perp\boldsymbol{Y}\), \(\sigma^2\) – nieznane. Przedział dla \(\frac{\sigma^2_X}{\sigma^2_Y}\).
      Podpowiedź. Funkcja centralna \[\frac{\frac{s^2_X}{\sigma^2_X}}{\frac{s^2_Y}{\sigma^2_Y}}\sim F_{n-1,k-1}.\]

R + RStudio

Oprócz wywoływania funkcji obliczających przedziały ufności podstawowych parametrów, tzn. wartości oczekiwanej i wariancji oraz ich prostych funkcji, porcja kolejnych poleceń jako niezbędnik analityka.

  1. Znam i potrafię zastosować funkcje:
    1. nest_by,
    2. unnest_wider,
    3. glance z pakietu ‘broom’.
  2. Rozumiem i potrafię obliczać kwantyle określonego rzędu dla podstawowych rozkładów.
  3. Potrafię obliczyć przedziały ufności dla podstawowych parametrów i funkcji parametrów (patrz wykład) dla danych w wersji wektorowej i tabelarycznej również z podziałem na grupy.