Veliki podatci
ISVU: 280624•4 ECTS•Zimski semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za informacijske i komunikacijske znanosti
- Satnica
- Predavanja: 30 sati
Nastavnici
Cilj
Cilj ovog kolegija je pružiti studentima sveobuhvatno razumijevanje povijesti i razvoja velikih podataka, uključujući datafikaciju i metode prikupljanja podataka. Studenti će naučiti prepoznati i analizirati različite izvore velikih podataka, kao što su strojevi, ljudi i institucije, te će se upoznati s tehnikama upravljanja velikim količinama podataka, uključujući spajanje različitih skupova podataka i rješavanje problema podatkovnih “grobnica” i ispušnih plinova. Kolegij će obuhvatiti analizu osnovnih i dodatnih karakteristika velikih podataka te procjenu njihove vrijednosti u različitim kontekstima. Studenti će se upoznati s ulogom podatkovne znanosti i podatkovnih znanstvenika, razvijati strategije za učinkovito upravljanje i korištenje velikih podataka, te ovladati procesima analize, rudarenja podataka i prediktivne analitike. Posebna pažnja bit će posvećena etičkim pitanjima i izazovima zaštite podataka u eri velikih podataka, kao i konceptu “dark data”. Na kraju, studenti će na teoretskoj razini steći osnovna znanja o sustavima velikih podataka i osnovama programiranja potrebnim za rad s velikim podacima.
Sadržaj
- Kako smo došli do ere velikih podataka
- Gdje se sve koriste veliki podatci
- Izvori velikih podataka: strojno proizvedeni podatci
- Izvori velikih podataka: podatci koje proizvodi čovjek
- Izvori velikih podataka: institucijski proizvedeni podatci
- Svojstva velikih podataka: količina
- Svojstva velikih podataka: varijabilnost i brzina
- Svojstva velikih podataka: različitost i valencija
- Podatkovna znanost
- Proces analize velikih podataka: 5 koraka
- Programski modeli za velike podatke (DFS i skalarno računalstvo)
- Hadoop, YARN i MapReduce
- Rudarenje podataka i prediktivna analitika
- Prikupljanje podataka i zakoni
- Algoritmi i etika
Ishodi učenja
- Identificirati izvore velikih podataka
- Primijeniti algoritme grupiranja, klasificiranja i predlaganja
- Definirati karakteristike velikih podataka
- Primijeniti 5 koraka analize podataka na zadanom problemu
- Instalirati virtualnu mašinu i pokrenuti pripremljeni MapReduce program
Metode podučavanja
1. izravno poučavanje
2. samostalno učenje
3. poučavanje vođenim otkrivanjem i raspravom
4. ERR okvir za poučavanje
Metode ocjenjivanja
1. kratki testovi znanja
2. projektni zadatci
3. sudjelovanje na nastavi
Obavezna literatura
- Jules J. Berman: Principles of big data: preparing, sharing, and analyzing complex information, 2013.
- Jared Dean: Big data, data mining and machine learning: value creation for business leaders and practicioners, 2014.
- Kristina Kocijan: Big data: kako smo došli do velikih podataka i kamo nas oni vode, 2014
- Davis Kord, Doug Patterson: Ethics of big data, 2012.
Dopunska literatura
- John W. Foreman: Data Smart: using data science to transform information into insight, 2014
- Guy Harrison: Next generation databases: NoSQL, NewSQL, and Big Data, 2015
- Rob Kitchin: The Data Revolution, 2014
- Rick Smolan, Jennifer Erwitt: The human face of big data, 2012
- Pete Warden: Big data Glossary, 2011.
- Cthy O'Neil: Wapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy, 2016.