Uvod u znanost o podacima
ISVU: 251789•5 ECTS•Ljetni semestar
Osnovne informacije
- Organizacijska jedinica
- Centar za kognitivnu znanost
- Satnica
- Predavanja: 45 sati
- Auditorne vježbe: 15 sati
- Laboratorijske vježbe: 15 sati
Nastavnici
Cilj
Ovaj predmet upoznaje studente s pet ključnih aspekata istraživanja temeljenog na podatcima dobivenih opažanjem:
(i) prilagođavanje formata podataka, čišćenja podataka i uzorkovanje u cilju dobivanja odgovarajućeg skupa podataka,
(ii) upravljanje podacima radi brzog i pouzdanog pristupa podacima,
(iii) eksploratorna analiza podataka u cilju generiranja hipoteze i intuicije,
(iv) predviđanje temeljeno na statističkim metodama kao što su regresija i klasifikacija,
(v) komuniciranje rezultata kroz vizualizaciju, opis i sažetu interpretaciju rezultata.
Sadržaj
- Administracija predmeta. Pregled područja znanosti o podacima. Potporne tehnologije za znanost o podacima. Auditorne vježbe: uvod u Pandas.
- Rukovanje podacima dobivenih opažanjem: prikupljanje podataka, modeli podataka, česti problemi skupova podataka, preoblikovanje podataka, čišćenje podataka. Auditorne vježbe: rukovanje podacima i inženjerstvo značajki u Pythonu. Projekt: proučavanje predloženih međudisciplinarnih znanstvenih članaka.
- Vizualizacija podataka: različiti grafički prikazi skupa podataka, najbolja praksa primjene vizualizacije, vizualizacija za posebne namjene, alati za vizualizaciju. Auditorne vježbe: vizualizacija podataka u Pythonu. Projekt: proučavanje znanstvenih članaka, odabir članka za replikaciju rezultata.
- Prvi pogled na podatke: deskriptivna i inferencijalna statistika. Auditorne vježbe: deskriptivna statistika u Pythonu. Projekt: konzultacije s asistentom oko odabranog znanstvenog članka.
- Označavanje podataka i metrike. Auditorne vježbe: označavanje podataka i metrike. Projekt: rad na replikaciji rezultata.
- Prikupljanje podataka istraživanjem: vrste istraživanja i metode prikupljanja podataka. Projekt: rad na replikaciji rezultata.
- Primjena linearne regresije u deskriptivnoj analizi podataka. Transformacije podataka. Pretpostavke linearne regresije. Auditorne vježbe: uvod u regresijsku analizu. Projekt: rad na replikaciji rezultata.
- Međuispit.
- Primijenjeno nadzirano strojno učenje: klasifikacija i predviđanje. Auditorne vježbe: primijenjeno nadzirano strojno učenje u Pythonu. Projekt: završetak rada na replikaciji rezultata.
- Primijenjeno nenadzirano strojno učenje: grupiranje. Auditorne vježbe: primijenjeno nenadzirano strojno učenje u Pythonu. Projekt: formiranje tima za poboljšanje rezultata znanstvenog članka, konzultacije s asistentom.
- Uvod u duboko učenje (neuronske mreže, funkcija gubitka, invarijanca i ekvivarijanca, konvolucijske mreže, povratne mreže). Auditorne vježbe: duboko učenje u Pythonu. Projekt: timski rad na poboljšanju rezultata.
- Rad s tekstom (tekstni podaci, vektori značajki, vreća riječi, tokenizacija, stop riječi, n-grami, TF/IDF, pozornost). Auditorne vježbe: rad s tekstnim podacima u Pythonu. Projekt: timski rad na poboljšanju rezultata.
- Rad s grafovima i mrežama (čvorovi i veze, usmjereni i neusmjereni grafovi, mjere centralnosti, konvolucijske mreže na grafovima). Auditorne vježbe: rad s grafovima u Pythonu. Projekt: timski rad na poboljšanju rezultata.
- Prezentacije projekata.
- Završni ispit.
Ishodi učenja
- Koristiti Python i druge alate za prikupljanje, čišćenje i procesiranje podataka.
- Koristiti tehnike upravljanja podataka za spremanje podataka lokalno i u oblak.
- Koristiti statističke metode i vizualizaciju za brzo istraživanje podataka.
- Primijeniti statistiku i računalnu analizu za predviđanje temeljeno na podacima.
- Opisati rezultate analize podataka koristeći deskriptivnu statistiku i vizualizacije.
- Koristiti grozd računala i infrastrukturu u oblaku za obavljanje podatkovno-intenzivnih računanja.
Metode podučavanja
Predavanja, Vježbe, Samostalni zadaci
Metode ocjenjivanja
Pohađanje nastave, Pismeni ispit, Projekt
Obavezna literatura
- Jacob T. Vanderplas, Jake VanderPlas (2016.), Python Data Science Handbook, O'Reilly Media, Inc.
Dopunska literatura
- Matt Harrison, Theodore Petrou (2020.), Pandas 1.x Cookbook, Packt Publishing Ltd.
- Alice Zheng, Amanda Casari (2018.), Feature Engineering for Machine Learning, O'Reilly Media, Inc.
- John D. Kelleher, Brendan Tierney (2018.), Data Science, The MIT Press.