Zadania Problemy
Tu będą pojawiać się zadania do ćwiczeń w obszarze analiz danych.
Jeżeli podejmiecie się ich rozwiązywania, do czego gorąco namawiam, to wyniki muszą być opisane i zaprezentowane z należytą starannością. Oczywiście w środowisku R + RStudio.
Zadania oznaczone ♦ to kategoria zadań trudniejszych i nieobowiązkowych. Natomiast wymaganych w przypadku chęci uzyskania wyższej oceny. Mogą pojawić się na egzaminie w grupie pytań na wyższą ocenę.
Zad. 1.
Mamy dwie niezależne zmienne losowe \(X\) i \(Y\) każda o rozkładzie \(\mathcal{U}(a, b)\). Jaki rozkład ma zmienna losowa \(Z=X+Y\)? Jeżeli potrafisz to pokazać analitycznie, to super, zrób to. Ale niezależnie, napisz skrypt, który symulacyjnie pokaże jaki to jest rozkład. Wyniki symulacji odpowiednio zaprezentuj. Na podstawie wyników symulacyjnych oszacuj parametry rozkładu zmiennej losowej \(Z\), tj. wartość oczekiwana, wariancja, percentyle.
Zad. 2.
Dla zadanego ciągu \(x_1, x_2, \ldots, x_n\) wygeneruj macierz postaci:
\[\begin{bmatrix} x_1 & x_2 & \ldots & x_n \\ x_2 & x_3 & \ldots & x_{n-1} \\ x_3 & x_4 & \ldots & x_{n-2} \\ \vdots & \vdots & \ddots & \vdots \\ x_n & & \ldots & x_1 \end{bmatrix}.\]
- trójkątną górną
\[\begin{bmatrix} x_1 & x_2 & x_3 & \ldots & x_n \\ 0 & x_1 & x_2 & \ldots & x_{n-1} \\ 0 & 0 & x_1 & \ldots & x_{n-2} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \ldots & x_1 \end{bmatrix}\]
Zad. 3.
Na jednym wykresie przedstaw funkcje gęstości zmiennych losowych o rozkładach: \(\mathcal{N}(10, 3)\), \(\mathcal{N}(10, 1)\), \(\mathcal{N}(15, 1)\). Zastosuj kolory do rozróżnienia krzywych oraz odpowiednie oznaczenia.
Zad. 4.
Niech \(X\sim\mathcal{N}(10, 3)\), \(Y\sim\mathcal{N}(10, 1)\), \(Z\sim\mathcal{N}(15, 1)\). Dla każdej zmiennej wygeneruj 500 wartości.
Wykonaj wykres pudełkowy na jednym wykresie wszystkie zmienne.
Wykonaj wykres średnich zmiennych z odchyleniami standardowymi.
Zad. 5.
Ściągnij dane z kaggle: https://www.kaggle.com/datasets/ashishgup/netflix-rotten-tomatoes-metacritic-imdb. Zapoznaj się z opisem i:
Ile rekordów ma tabela?
Który film akcji ma najwyższy ranking?
Która komedia kryminalna ma najniższy ranking?
Wskaż 3 pierwsze filmy, na które oddano najwięcej głosów.
Który film jest najstarszy?
Ile czasu potrzebowałabyś/łbyś aby obejrzeć wszystkie filmy?
Jaka jest średnia, mediana i odchylenie standardowe czasu trwania horrorów?
Na wykresie przedstaw rozkład liczby znaków użytych w tytułach filmów. Nanieś kwartyle oraz wartość średnią.
Zad. 6.
Ściągnij dane z kaggle: https://www.kaggle.com/datasets/the-guardian/olympic-games?select=summer.csv. Zapoznaj się z opisem i:
Ile igrzysk letnich zostało zarejestrowanych w bazie danych?
Ile krajów brało udział w igrzyskach?
Ile medali złotych, srebrnych i brązowych zdobyły poszczególne kraje? Otrzymaną tabelę uporządków względem liczby zrobytych złotych medali, malejąco.
W której dyscyplinie najwięcej medali zdobyły kobiety a w której mężczyźni?
Jak zmieniała się proporcja liczby kobiet do liczby mężczyzna w kolejnych igrzyskach? Otrzymane proporcje przedstaw na wykresie.
Przypisując rangi medalom: złoty – 5, srebrny – 3, brązowy – 1. Dla dla igrzysk w roku 1900 oblicz sumy rang dla każdego kraju. Wynik przedstaw na wykresie słupkowym porządkując od kraju z najmniejszą sumą do kraju z największą sumą. Kolejne słupki niech niech będą w kolejnych kolorach tęczy.
Zad. 7.
Ze strony https://www.pse.pl/obszary-dzialalnosci/krajowy-system-elektroenergetyczny/zapotrzebowanie-kse ściągnij dane w formacie csv z tygodnia 6--12 marzec w roku 2022 i 2023. Prawdopodobnie trzeba będzie każdy dzień ściągać osobno. Może komuś uda się zautomatyzować proces pozyskiwania informacji.
Napisz polecenie wczytujące wszystkie tabele do jednej.
Z kolumn
Data
iGodz.
utwórz jedną o nazwieDataCzas
o typiedata/times
. Usuń kolumnęDobowa prognoza zapotrzebowania KSE
. Nazwę kolumnyRzeczywiste zapotrzebowanie KSE
zmień naP
- kolumna ta zawiera wartości mocy, stąd ta nazwa.Przedstaw na wykresie przebieg mocy z pobranego okresu dla roku 2023.
Na wspólnym wykresie przedstaw zapotrzebowanie mocy w odpowiadających sobie dniach i godzinach z różnych lat. Wykres opatrz odpowiednią legendą.
Przedstaw na wykresie różnicę rzeczywistego zapotrzebowania mocy KSE między odpowiadającymi sobie okresami z dwóch lat.
Dla pobranego okresu roku 2023, w którym momencie było największe zapotrzebowanie mocy a w którym najmniejsze?
Dla dobranego okresu roku 2022, oblicz średnie wartości, odchylenia standardowe, kwartyle z zapotrzebowania mocy w każdej godzinie. Wynik przedstaw za pomocą tabeli oraz wykresu.
Zad. 8.
Ze strony https://dane.gov.pl/pl/dataset/930,dane-statystyczne-uczniow-wedug-wieku/resource/45740/table?page=1&per_page=20&q=&sort= ściągnij dane w formacie csv. Zapoznaj się opisem zawartości tabeli. I:
Jak zauważyliście dane są po części zaagregowane. Utworzone są kolumny/zmienne o nazwach kolejnych lat zawierające wartości liczbowe. Ale te kolumny wiek, a więc jedna cecha. Zatem dla ułatwnienia dalszych przekształceń zalecam przekształcenie tabeli ‘szerokiej’ w tabelę ‘długą’ wprowadzając zmienną
Wiek
zawierającą liczbę osób w danym wieku. Sugestia:pivot_longer
,pivot_wider
i ich pochodne czy ich podobieństwa.Ile jest powiatów w każdym z województw?
Ile jest różnych typów szkół w Polsce?
Jaka jest średnia wieku dzieci w przedszkolach w każdym z województw?
Jakie są wartości: minimalna, kwartyl dolny, mediana, wartość średnia, kwartyl górny, maksymalna dla wieku uczniów w liceach ogólnokształcących w każdym z powiatów?
Dla każdego z województw wyznacz przedziały ufności dla średniego wieku młodzieży uczącej się w technikach.
Zad. 9.
Wygeneruj ciąg wartości o rozmiarze \(n\) z rozkładu o dystrybuancie \(F\) . Na jednym wykresie umieść dystrybuantę empiryczną \(\widehat{F}_n\) oraz dystrybuantę teoretyczną \(F\). Dla określonego rozkładu rozważaj przypadki z różnym \(n\) od małych do dużych wartości. Zaobserwuj co się dzieje z dystrybuantą empiryczną względem dystrybuanty empirycznej. Przykładowe rozkłady do eksperymentowania: jednostajny dyskretny, binomialny, Poissona, jednostajny ciągły, wykładniczy, beta, gamma, Cauchyego, normalny, chi-kwadrat, t-Studenta, F-Snedecora.
Zad. 10.
Wygeneruj ciąg wartości o rozmiarze \(n\) z rozkładu z funkcją rozkładu \(f\) . Na jednym wykresie umieść histogram \(\widehat{f}_n\) oraz funkcje rozkładu teoretycznego \(f\). Dla określonego rozkładu rozważaj przypadki z różnym \(n\) od małych do dużych wartości. Zaobserwuj co się dzieje z rozkładem empirycznym względem rozkładu teoretycznego. Przykładowe rozkłady do eksperymentowania: jednostajny dyskretny, binomialny, Poissona, jednostajny ciągły, wykładniczy, beta, gamma, Cauchyego, normalny, chi-kwadrat, t-Studenta, F-Snedecora.
Zad. 11. ♦
Zmienna losowa \(X\) ma rozkład o gęstości \(f\) i dystrybuancie \(F\). Tworzymy zmienną losową \(Y=h(X)\). Jaka jest gęstość i dystrybuanta zmiennej losowej \(Y\)?
Zad. 12. ♦
Zmienna losowa \(Z\) jest sumą dwóch niezależnych zmiennych losowych o rozkładzie jednostajnym \(\mathcal{U}(a,b)\). Jaki rozkład ma \(Z\)?
Zad. 13.
Niech \(X_1, X_2, \ldots,X_n\) będzie próbą losową o rozkładzie z wariancją \(\sigma^2\). Wyznacz obciążenie estymatora wariancji postaci \[\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^2.\]
Zad. 14.
Niech \(X_1, X_2, \ldots,X_n\) będzie próbą losową. Wykazać, że \[\sum_{i=1}^n(X_i-\overline{X})=0.\]
Zad. 15. ♦
Niech \(x_1, x_2, \ldots, x_n\) będzie realizacją próby losowej. Dla jakich \(a\) suma kwadratów odchyleń realizacji próby losowej od tego \(a\) \[\sum_{i=1}^n(x_i-a)^2\]jest najmniejsza?
Zad. 16.
Niech \(\boldsymbol{X}=X_1, X_2, \ldots, X_n\) będzie próbą losową. Wykaż, że
\[\overline{X^2}-\overline{X}^2=\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^2.\]
Oczywiście \(\overline{h(\boldsymbol{X})}\), to średnia arytmetyczna z \(h(\boldsymbol{X})\).
Zad. 17. ♦
Dla próby losowej z rozkładu Poissona, metodą momentów wyznaczyć estymatory wartości oczekiwanej i wariancji. Skomentować otrzymany wynik.
Zad. 18. ♦
Dla próby losowej z rozkładu wykładniczego, metodą momentów wyznaczyć estymator wartości oczekiwanej.
Zad. 19.
Dane są obserwacje: 1, 5, 2, 3, 5, 2, 2, 3, 3, 3, 4, 3, 9, 1, 3. Który z rozkładów: \({\rm Pois}(2)\), \({\rm Pois}(3)\), \({\rm Pois}(4)\) jest najbardziej prawdopodobny, że to z niego pochodzą podane obserwacje?
Zad. 20.
Mamy realizację próby losowej: 7.463, 7.072, 4.304, 0.474, 1.007, 3.388, 5.064, 7.726, 1.416, 3.014, 1.284, 0.439, 0.571, 2.249, 1.879, 2.34, 6.45, 0.468, 0.445, 2.285, 6.037, 1.694, 0.233, 2.74, 1.042, 1.028, 1.283, 0.835, 0.763, 0.847. Najprawdopodobniej z którego rozkładu pochodzą obserwacje: \({\rm Exp}(0.45)\), \({\rm Exp}(0.47)\), \({\rm Exp}(0.52)\)?
Zad. 21. ♦
Wyznaczyć estymator największej wiarygodności parametru \(\lambda\) na podstawie realizacji \(n\)-elementowej próby losowej z rozkładu Poissona.
Zad. 22. ♦
Niech \(\boldsymbol{x}=x_1, x_2, \ldots, x_n\) będzie realizacją próby losowej z rozkładu wykładniczego. Wyznaczyć estymator największej wiarygodności parametru tego rozkładu.
Zad. 23.
Ze strony https://www.pse.pl/obszary-dzialalnosci/krajowy-system-elektroenergetyczny/zapotrzebowanie-kse ściągnij dane w formacie csv z lat 2021--2022.
- Z kolumn
Data
iGodz.
utwórz jedną o nazwieDataCzas
o typiedata/times
. Nazwę kolumnyRzeczywiste zapotrzebowanie KSE
zmień naP
- kolumna ta zawiera wartości mocy, stąd ta nazwa. Nazwę kolumnyDobowa prognoza zapotrzebowania KSE
zmień naP_prog
. - Dla każdego dnia tygodnia wyznacz przedziały ufności na poziomie ufności 90%. Przedziały przedstaw graficznie na jednym wykresie.
- Wyznacz przedział ufności dla różnicy rzeczywistych zapotrzebowań mocy między rokiem 2021 a 2022.
- Zweryfikuj hipotezę, że średnie zapotrzebowanie mocy w roku 2022 było porównywalne z rokiem 2021, przeciwko hipotezie, że było większe.
- Zweryfikuj hipotezę, że średnie zapotrzebowanie mocy w okresie zimowym jest takie same jak w letnim, przeciwko hipotezie, że jest mniejsze.
- Zweryfikuj hipotezę: częstość niedoszacowań i przeszacowań prognoz jest taka sama, przeciwko, że jest różna.
- Potwórz weryfikację hipotey z punktu 6 z podziałem na porę dzienną i nocną.
- Wykonaj głęboką analizę poboru mocy ze względu na dni robocze i weekendy.
Zad. 24.
Pod adresem: https://staff.uz.zgora.pl/jbojarsk/data/rzut_moneta.csv znajdują się dane z eksperymentu. Każda z osób otrzymała różne monety. Ich zadaniem było wykonanie dużej liczby rzutów otrzymaną monetą i po każdym rzucie zapisanie wyniku.
Wykonać wykres słupkowy przedstawiający liczbę wyrzuconych orłów i reszek z podziałem na osoby.
Wykonać wykres na którym przedstawiona zostanie częstość wypadnięcia orła u każdej z osób.
Dla każdej z osób zweryfikować hipotezę: częstość wypadania orła i reszki jest taka sama, przeciwko, że jest inna. Skomentować otrzymany wynik.
Zad. 25.
Pod adresem: https://staff.uz.zgora.pl/jbojarsk/data/praktyki.csv zamieszczone dane. Uczniowie odbywają praktyki w pewnym zakładzie. Ich zadaniem jest montowanie sensorów ruchu w pojazdach elektrycznych. W pierwszych dniach praktyk (kolumna przed
) zmierzono ich czasy montażu sensorów (kolumna czas
). Pod koniec praktyk (kolumna po
) ponownie zmierzono ich czasy (kolumna czas
).
Dla każdej praktykantki i każdego praktykanta wyznacza przedziały ufności na poziomie 0.99 dla czasów z początku praktyki i z końca praktyki. Wynik przedstaw na jednym wykresie.
Dla każdej osoby przeprowadź weryfikację hipotezy: średni czas montażu pod koniec praktyki jest taki sam jak na początku praktyki, przeciwko, że jest mniejszy.
Wykonaj test: panie i panowie pod koniec praktyk wykonywali montaż w tym samym czasie, przeciwko, panie robiły to szybciej od panów.
Przeprowadzone analizy opatrzyć komentarzami.