Analiza danych statystycznych

R + RStudio; estymatory c.d.

Autor

Jacek Bojarski

Zmodyfikowano

March 23, 2023

Głównym celem szkoły jest tworzenie ludzi zdolnych do robienia nowych rzeczy, a nie tylko powtarzanie tego, co zrobiły inne pokolenia.
– Mandell Creighton

R + RStudio

W tej części zamkniemy podstawy przekształcania tabel. Praktycznie prawie wszystkie inne można stworzyć przy ich użyciu, wspomagając się funkcjonalnością R. Ale oczywiście nie przestajemy poznawać R i RStudio - jest jeszcze ogrom ciekawych rozwiązań ułatwiających pracę analityka.

  1. Znam i potrafię zastosować funkcje:
    1. select,
    2. filter,
    3. arrange,
    4. summary,
    5. group_by,
    6. across,
    7. pivot_longer, pivot_wider,
    8. all_of, any_of.
  2. Potrafię utworzyć tabelę losową, dopasowaną do założeń odnoszących się do analizowanej populacji.

Zadania praktyczne

Tabela do zadań: tabela.cos – opis kolumn:

  1. inicjał – pierwsza litera imienia;

  2. płeć – płeć;

  3. wiek – wiek;

  4. waga – waga;

  5. wzrost – wzrost.

Jest to kontynuacja zadań utrwalających z poprzedniego wykładu.

  1. Dla kobiet i mężczyzna oblicz parametry: średnia, wariancja, liczba rekordów.

  2. Wybrać rekordy z kobietami o inicjałach ‘A’ i ‘J’ oraz mężczyzn o wzroście większym niż 180 cm.

  3. Uporządkuj rekordy względem płci oraz wzrostu.

  4. Przedstaw na jednym wykresie zależność wagi od wieku w grupie kobiet i mężczyzn.

Teoria

Wracamy do estymatorów. Tym razem omawiane będą ich podstawowe własności. Gdy pierwszy raz kupujemy samochód, to zwracamy uwagę na jego ekonomiczność, czy mało pali, czy jest nieawaryjny, łatwy w prowadzeniu, czy jest lepszy od innych, itp. Ale już po roku, czasami szybciej, zapominamy o tym wszystkim i po prostu korzystamy z niego. Bardzo często analitycy podobnie postępują z estymacją. W pierwszych tygodniach stosowalności przyglądają się, badają, sprawdzają, a potem popadają w rutynę i po prostu korzystają z nich bez refleksji. Rutyna to jeden z grzechów ciężkich analityków - niestety poznałem jego konsekwencje. Unikajcie go.

  1. Wiem, że aby mówić o ‘lepszym’ czy ‘gorszym’ estymatorze należy podać kryterium porównawcze.
  2. Wiem co to jest błąd średniokwadratowy.
  3. Wiem co to jest obciążenie estymatora.
  4. Wiem co musi być spełnione aby estymator był nieobciążony.
  5. Wiem kiedy estymator jest asymptotycznie nieobciążony.
  6. Potrafię wskazać przykłady estymatorów: nieobciążonych, obciążonych, asymptotycznie nieobciążonych oraz wykazać te własności.