Uvod u programiranje nad tekstualnim podacima
ISVU: 280623•4 ECTS•Zimski semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za informacijske i komunikacijske znanosti
- Satnica
- Predavanja: 30 sati
- Vježbe u praktikumu: 30 sati
Nastavnici
- Lorena Ninčevićasist.
Cilj
Studenti upoznaju osnovne metode automatske obrade tekstualnih podataka, uključujući načine kodiranja teksta, najčeščće datotečne formate zapisa teksta te osnove statističke obrade teksta. Praktični se dio sastoji od upoznavanja osnova programiranja u interpretiranom jeziku Python nad tekstualnim podacima. Završni zadatak predstavlja potvrdu usvojenosti elemenata kolegija uvedenima tijekom semestra.
Sadržaj
- Uvodno predavanje. Opis kolegija. Programski jezik Python.
- Osnove kodiranja teksta. Osnove programiranja u Pythonu.
- Kodne stranice stalne duljine zapisa. Osnovne strukture podataka u Pythonu.
- Unicode i oblici kodiranja Unicode standarda. Rad s tekstualnim datotekama u Pythonu.
- Rad s rječnicima.
- Rad s modulima.
- Računanje čestotnih razdioba.
- Kontinuirana provjera znanja.
- Osnove regularnih izraza.
- Napredni regularni izrazi.
- Čestotne razdiobe n-grama znakova i riječi.
- Rad na dizajnu završnog zadatka.
- Implementacija završnog zadatka.
- Implementacija završnog zadatka.
- Implementacija završnog zadatka.
Ishodi učenja
- Objasniti osnove pohrane i obrade teksta u računalu.
- Opisati karakteristike osnovnih struktura podataka.
- Objasniti osnove programiranja nad tekstualnim podacima.
- Implementirati u programskom jeziku osnovne statističke teorijske koncepte obrade tekstualnih podataka.
Metode podučavanja
Predavanja, tjedne vježbe na računalima, sustav učenja na daljinu.
Metode ocjenjivanja
pohađanje nastave, kontinuirana provjera znanja (obvezni minimalni prag za ispunjenje studijskih obveza), istraživanje, praktični rad i tjedne vježbe (70% ocjene), usmeni ispit (30% ocjene)
Obavezna literatura
- Jurafsky, Daniel; Martin, James H. Speech and Language Processing (2nd Edition). New Jersey: Prentice Hall, 2008.
- Python Documentation. https://docs.python.org/.
- Tadić, Marko. Jezične tehnologije i hrvatski jezik. Zagreb: Ex libris, 2003.
Dopunska literatura
- Bird, Steven; Klein, Ewan, Loper, Edward. Natural Language Processing with Python. O'Reilly Media, 1999.
- Manning, Christopher D.; Schuetze, Hinrich. Foundations of Statistical Natural Language Processing. The MIT Press, 2002.