Strona główna » Analiza danych - Big Data

Studia Podyplomowe Analiza Danych – Big Data adresowane są do osób, które pracują lub zamierzają podjąć pracę na stanowisku związanym ze statystyczną analizą danych (szczególnie dużych zbiorów danych) i chciałyby się nauczyć jak przygotować dane do analizy, dokonać eksploracji danych, budować modele statystyczne i wykorzystywać zaawansowane metody data mining za pomocą nowoczesnego oprogramowania.

Program studiów zaczyna się od wprowadzenia do tematyki big data i analizy statystycznej. Słuchacze poznają m.in. etapy i metody analiz big data, najważniejsze źródła wartości analiz dla odbiorcy. Bardzo ważnym aspektem w analizie dużych zbiorów danych jest oprogramowanie. Na studiach podyplomowych Analiza danych – Big Data kładziemy nacisk na dwa środowiska programistyczne: R oraz Python, będące obecnie najpopularniejszymi językami programowania obliczeń. W pierwszym semestrze zajęcia praktyczne prowadzone są w środowisku R, w drugim zaś w R i Pythonie. Dla obu języków w pierwszej kolejności prowadzone są zajęcia wprowadzające, na których od podstaw wyjaśniana jest składnia danego języka.

Najważniejszym i najobszerniejszym blokiem zajęć w pierwszym semestrze jest Eksploracja danych i modelowanie statystyczne. Obejmuje on treści związane z przygotowaniem danych do analizy, takie jak: kodowanie danych, agregację cech/jednostek, imputację braków danych, transformację zmiennych i przypadków, wykrywanie obserwacji nietypowych, redukcję wymiarowości, analizę jakości danych. W dalszej kolejności słuchacze nabywają umiejętności konstruowania modeli statystycznych dla różnego typu zmiennych objaśniających (ciągłych, binarnych, porządkowych); są to m.in. uogólnione modele liniowe (regresja wieloraka, regresja logistyczna), modele czasu trwania, modele nieparametryczne (drzewa klasyfikacyjne i regresyjne). Słuchacze na bieżąco wykorzystują poznaną wiedzę poprzez pracę nad rzeczywistym projektem badawczym (jest to praca w grupach, której rezultaty są prezentowane i bronione na egzaminie ustnym).

W drugim semestrze główny blok zajęciowy tworzą Zaawansowane metody data mining. Obejmują one szereg metod służących klasyfikacji i regresji (głównie sztuczne sieci neuronowe, ale też lasy losowe, drzewa wzmacniane, naiwny klasyfikator Bayesa, metodę k najbliższych sąsiadów). Sporo uwagi jest poświęcane na analizę danych nieustrukturyzowanych (text mining, analizę sieci społecznościowych). W ramach tego bloku słuchacze również pracują w grupach nad rzeczywistym problemem badawczym oraz prezentują swoje projekty i bronią je na egzaminie ustnym.

Studia podyplomowe Analiza danych – Big Data skupiają się na metodach statystycznych i wyciąganiu wniosków (wiedzy) z danych. Jednak pracując z big data niezbędna jest również znajomość infrastruktury informatycznej i obsługi baz danych. W ramach studiów słuchacze nabywają umiejętności ekstrakcji danych z relacyjnych baz danych za pomocą SQL. Nabywają też podstawową wiedzę na temat zarządzania przetwarzaniem danych gromadzonych w hurtowniach danych oraz zastosowań chmury obliczeniowej.

Absolwent studiów podyplomowych Analiza danych – Big Data może podjąć pracę m.in. na stanowiskach Data Scientist, Data Intelligence Analyst, Marketing Data Analyst, Fraud & Risk Analyst, Research Analyst. Absolwent może podjąć pracę w podmiotach sektora bankowego, ubezpieczeniowego, z branży IT, w firmach konsultingowych i w każdym innym przedsiębiorstwie, które wykorzystuje metody zarządzania opartego na danych (Data Driven Business).

Wymagania wstępne: od kandydatów na studia wymagamy znajomości podstaw statystyki opisowej i wnioskowania statystycznego oraz przynajmniej niewielkiego doświadczenia w programowaniu (w dowolnym języku). Pomocna w przyswajaniu treści programowych będzie też znajomość podstaw algebry liniowej (rachunek macierzowy) i analizy matematycznej.

Organizacja studiów

Studia podyplomowe trwają 2 semestry i prowadzone są w formie studiów niestacjonarnych. Program studiów obejmuje 228 godzin zajęć (wykłady i ćwiczenia). Zajęcia prowadzone są w laboratoriach komputerowych na Wydziale Zarządzania w Sopocie.