Analiza danych statystycznych

R + RStudio; estymatory

Autor

Jacek Bojarski

Zmodyfikowano

March 9, 2023

Wszystko, czego się dotąd nauczyłeś, zatraci sens, jeśli nie potrafisz znaleźć zastosowania dla tej wiedzy.
– Paulo Coelho

R + RStudio

Naukę każdego języka programowania powinno rozpoczynać się od zapoznania się z podstawową strukturą danych. W materiale podstawowe informacje, które pozwolą Państwu nabrać rozpędu.

  1. Znam podstawowe typy zmiennych w środowisku R, tzw. zamienne atomowe.

  2. Znam podstawowe złożone obiekty atomowe. Znam podstawowe funkcje ich tworzenia, tj.

    1. seq, rep, sequence, sample, seq_along,

    2. matrix, cbind, rbind, array, as.matrix, row, col, expand.grid,

    3. data.frame.

  3. Potrafię odczytywać i określać atrybuty, w tym:

    1. attributes, attr,

    2. names, colnames, rownames, dim.

  4. Potrafię odczytywać i zmieniać wartości obiektów.

Zadania praktyczne

  1. Wygeneruj wektor wartości całkowitych od -10 do 20.

  2. Wygeneruj wektor długości \(n=54\) o wartościach z przedziału \(\left\langle0, 10\right\rangle\). Następnie z tego wektora utwórz macierz o wymiarach \(9\times6\).

  3. Dla zadanego \(k\) utwórz wektor zawierający kolejno jedną jedynkę, dwie dwójki, \(\ldots\), \(k\)-a \(k\)-atek.

  4. Wygeneruj wektor, który będzie 5-cio krotnym powtórzeniem wektora (2, 3, 5, 7).

  5. Połączyć wektory: (1, 2, 0, 1), (-1, -3, 5, 4), (0, 0, 0, 1) w jeden.

  6. Zasymulować losowanie bez zwracania \(k=3\) kul z urny zawierającej 13 kul białych, 10 czarnych, 7 czerwonych. Powinno być \(n=500\) powtórzeń. Wyniki zapisać w macierzy \(M\), wiersz to jedno losowanie.

  7. Zasymulować losowanie ze zwracaniem \(k=10\) kul z urny zawierającej 13 kul białych, 10 czarnych, 7 czerwonych. Powinno być \(n=500\) powtórzeń. Wyniki zapisać w macierzy \(M\), wiersz to jedno losowanie.

  8. Niech x = (8, 10, 5, 2, 1, 2, 5, 3, 3, 3, 10, 10, 2, 5, 2, 4, 2, 9, 8, 4, 8, 10, 6, 4, 8, 3, 2, 4, 9, 8, 7, 6, 3, 9, 5, 2, 3, 5, 7, 10, 7, 9, 9, 6, 9, 6, 4, 2, 3, 1, 9, 2, 7, 1, 7, 3, 4, 4, 7, 8, 4, 6, 1, 2, 7, 1, 3, 2, 10, 6, 9, 10, 8, 3, 3, 1, 9, 3, 10, 2, 7, 4, 4, 10, 7, 7, 8, 1, 1, 1, 3, 3, 9, 3, 5, 1, 7, 9, 1, 9).

    1. Uporządkować wartości: rosnąco, malejąco.

    2. Utworzyć wektor z liczb parzystych wektora x.

    3. Utworzyć wektor z wektora x bez liczb 10 i 3.

    4. Utworzyć macierz A o wymiarach \(10\times10\) z wektora x.

    5. Utworzyć macierz diagonalną \(B\) zawierającą diagonalną macierzy \(A\).

    6. Obliczyć ślad macierzy \(A\).

    7. Skopiować macierz \(A\) do macierzy \(C\). Następnie w macierzy \(C\) liczby podzielne przez \(3\) zastąpić NA.

  9. Tworząc odpowiednio macierze i korzystając z funkcji solve rozwiąż układ równań liniowych:\[ \begin{cases} 3x + 5y + z & = & 1\\ 7x – 2y + 4z & = & 0\\ -6x + 3y + 2z & = & -1 \end{cases}. \]

Teoria

Najbliższe wykłady poświęcone będą estymacji. Chciałbym aby Państwo maksymalnie rozumieli idee estymacji statystycznej, dlatego też będę się starał by formuły zobrazowane były czy to poprzez wykazanie określonych własności czy też poprzez wskazanie analogii do innych dziedzin. Zrozumienie estymacji pozwoli Wam nie tylko świadomie stosować narzędzia w postaci estymatorów ale również w razie potrzeby wprowadzać odpowiednie modyfikacje a nawet tworzyć czy odkrywać (w zależności od światopoglądu w nauce) własne estymatory. Pamiętajcie, że u podstaw statystyki są intuicje ukształtowane na podstawie obserwacji otaczającego nas świata. Matematyka, a precyzyjniej statystyka matematyczna daje potwierdzenie słuszności lub jej braku stosowania narzędzi w określonych przypadkach.

W praktycznym stosowaniu narzędzi statystycznych pamiętaj o założeniach.

  1. Jaką statystykę nazywamy estymatorem?

  2. Co to jest estymator punktowy?

  3. Potrafię wykazać, że średnia arytmetyczna próby losowej jest estymatorem nieznanej wartości oczekiwanej populacji.

  4. Potrafię wyznaczyć wariancję średniej arytmetycznej z próby losowej.

  5. Potrafię wykazać, że wariancja z próby losowej jest estymatorem nieznanej wariancji populacji.