Analiza danych statystycznych

wrowadzenie

Autor

Jacek Bojarski

Zmodyfikowano

December 23, 2024

Nauka to czary, które naprawdę działają.
– Kurt Vonnegut

Zajęcia te (wykład i laboratorium) opracowane zostały z myślą o studentach kierunku Inżynieria Danych.

Analiza danych statystycznych łączy dwa obszary: statystykę i informatykę. Jest także trzeci, ważny obszar, trudny do zdefiniowania, nazwijmy go głęboka wiedza ogólna. Analiza danych to nie tylko sprawne przekształcenie danych, poprawne wykonywanie obliczeń i ich ładne przedstawienie w postaci wykresów czy tabel. To również wnioskowanie adekwatne do analizowanego problemu. To odkrywanie prawidłowości i umiejętne ich wyjaśnienie. W nowych przypadkach to również dostrzegania analogii między innymi dziedzinami. Dlatego studiowanie (w sensie poznawczym) innych dyscyplin tj. fizyka, biologia, ekonomia i wiele innych, moim zdaniem, jest niezbędnym elementem by osiągnąć poziom ponad przeciętny.

Obecnie rachunków nie wykonuje się ręcznie, przynajmniej nie w tym obszarze, w którym będziemy się poruszać. Jak uciążliwe i długie rachunki, to nieodzowny jest program. Zapewne poznaliście już R i Python. Na tych zajęciach będziemy pracować z R. To nie są jedyne narzędzia statystyczne. Wpiszcie w wyszukiwarce ‘programs for statistics’ lub ‘statistics tools’ albo po prostu wejdźcie na stronę https://en.wikipedia.org/wiki/List_of_statistical_software - zawrót głowy. Ale nie przejmujcie się, mogę Was zapewnić, że jeżeli nauczycie się porządnie R i/lub Python, to o ile w przyszłej pracy przyjdzie Wam nauczyć się nowego narzędzia, to z pewnością nie będziecie mieli problemów. Dlaczego? Możliwe, że struktura danych będzie różna w tych programach, ale z pewnością polecenia będą takie same albo bardzo podobne. Zobaczcie, poniżej obliczanie średniej arytmetycznej w przykładowych programach:

mean(c(1, 2, 3)) # R
numpy.mean([1, 2, 3]) // Python
Mean[{1, 2, 3}] (* Wolfram Mathematica *)
mean([1, 2, 3]) % Matlab
mean([1, 2, 3]) // Scilab
mean([1, 2, 3]) # Julia
mean([1, 2, 3]) % Octave

Podobnie będzie z programami, gdzie obliczenia wykonuje się poprzez klikanie w menu czy oknach dialogowych. Mówię tu o Statistica, SPSS, SAS, S-Plus i innych. Polecenia ulokowane będę na różnych poziomach menu w różnych oknach, ale wszędzie będą wykonywane te same obliczenia, te same wykresy.

A najważniejsze w tej różnorodności jest to, że każde z tych rozwiązań ma świetnie zbudowane pliki pomocy, w Internecie znajdziemy wskazówki i pomoc praktycznie na każdy temat. ‘Tutorialami’ możemy być prowadzeni za rączkę przez dowolne ścieżki analiz.

Dlatego przede wszystkim uczcie się pojęć, zapamiętujcie idee, przyswajajcie słowa kluczowe. Zobaczycie, że polecenia w większości są naturalne i adekwatne do działań. Ponadto ‘klepo-kodowanie’, a sporo tego będzie, wymusi trwalsze zapamiętanie.

Na wykładach omówimy podstawowe analizy statystyczne. Tak, analityk danych nie ucieknie od statystyki, a co najmniej dobry statystyk z nią się zaprzyjaźni. To rozległy dział matematyki. W przyszłych semestrach będziecie pogłębiać wiedzę i umiejętności z takich działów jak ekonometria, teoria decyzji, szeregi czasowe, analiza przeżycia, kontrola jakości, planowanie doświadczeń, itd. Ale póki co, poznacie statystykę matematyczną - jako narzędzie analityczne.
Już zapewne doświadczyliście tego, że działy matematyki to system naczyń połączonych. Nie ma działów, które egzystują w oderwaniu od innych. Nie da się zrozumieć analizy matematycznej bez algebry bez geometrii. I vice versa. Ze statystyką matematyczną jest podobnie. Praktycznie każdy dział matematyki, który dotychczas poznaliście tj. algebra liniowa, analiza matematyczna, geometria, matematyka dyskretna, metody numeryczne a przede wszystkim rachunek prawdopodobieństwa to fundamenty statystyki. I dlatego statystyka jest tak piękną nauką. Nie obawiajcie się, nie będę Was torturował wielkim twierdzeniami, mozolnymi dowodami - operator wózka widłowego nie musi umieć go zbudować. Macie być inżynierami danych, którzy świadomie korzystają z narzędzi matematycznych i informatycznych. Stąd parę łatwych wyprowadzeń Was czeka ale tylko po to by wnioski wypływające z analizy były dla Was oczywiste, a przez to łatwiejsze w interpretacji i prezentacji szerokiemu gronu. Ale jeżeli tylko poczujecie głód głębszej wiedzy, to gorąco zachęcam do podejmowania się problemów trudniejszych.

Kolejną rzecz, którą chciałem poruszyć to dyskusja. Analityk danych nie może być istotą nic nie mówiącą, obawiającą się własnego i innych głosów. W analityku powinna być naturalna, wręcz dziecięca ciekawość: a po co? a skąd my to wiemy? a jakie są założenia? a dlaczego obserwacje są takie? … Szereg, szereg pytań i odpowiedzi - burza mózgów. To nieodzowny element dyskusji, dyskusji na argumenty. Szanowni Państwo, jak każdy wykładowca, jestem po to by podzielić się z Wami swoją wiedzą i umiejętnościami.

Ranking przeraźliwego głosu

Wysłuchiwanie monologu wykładowcy w tym przedmiocie to za mało. Musicie się przełamać i inicjować lub włączać się do dyskusji. Dane są wszędzie a przez to i statystyka jest wszędzie, więc nie ma tematu, którego nie można byłoby poruszyć przy okazji analizowania danych. Wszechobecność statystyki doświadczam już od wielu lat. Pracowałem i pracuję w zespole, w którym analizujemy prądy w silnikach i prądy w sieciach energetycznych wszelakich napięć (od niskich do wysokich), opracowujemy zdecentralizowany system zarządzania energią elektryczną, analizujemy optymalność parametrów magazynów energii dla określonych podsieci, analizujemy efektywność źródeł odnawialnych; w zespole z biologami analizuję hibernację nietoperzy, staramy się odgadnąć ich strategię przetrwania zimy; staramy się odgadnąć dlaczego jest tak duża śmiertelność np. borsuków na naszych drogach; kiedy papugi będą pospolitym ptakiem w Polsce; z zoolożką statystycznie analizowałem dymorfizm płciowy koni huculskich, które jeszcze do nie dawna były na wymarciu; z inżynierami środowiska analizujemy systemy kogeneracyjne. Mógłbym jeszcze wiele linii zapisać ciekawymi przypadkami - może kiedyś niektóre rozwinę na wykładach. Często powtarzam, że nie muszę oglądać Discovery Channel (ale i tak oglądam) bo z tyloma ciekawymi tematami mam styczność w swojej pracy. Według mnie wybraliście jeden z najciekawszych kierunków związanych z matematyką, z statystyką.