Preskoči na glavni sadržaj

Programiranje za društvene i humanističke znanosti

ISVU: 2552605 ECTSZimski semestar

Osnovne informacije

Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
Satnica
  • Predavanja: 30 sati
  • Vježbe u praktikumu: 30 sati

Nastavnici

Cilj

Studenti se upoznaju s osnovnim metodama automatske obrade tekstualnih podataka na razini niza podataka.U teorijskom se dijelu kolegija upoznaju načine kodiranja teksta kao i najčešći datotečni formati zapisa teksta. Nadalje se daje uvod u osnove statističke obrade jezika te primjere statističkog modeliranja jezika.Praktični se dio sastoji od upoznavanja osnova programiranja u interpretiranom jeziku Python, programiranja nad sekvencijalnim tipovima podataka, struktura, regularnih izraza, računanja čestotnih razdioba sekvenci te primjera izgradnje jezičnih statističkih modela s primjenom. Završni zadatak predstavlja potvrdu usvojenosti elemenata kolegija uvedenima tijekom semestra.

Sadržaj

  1. Uvodno predavanje. Opis kolegija. Programski jezik Python.
  2. Osnove kodiranja teksta. Osnove programiranja u Pythonu.
  3. Kodne stranice stalne duljine zapisa. Osnovne strukture podataka u Pythonu.
  4. Unicode i oblici kodiranja Unicode standarda. Rad s tekstualnim datotekama u Pythonu.
  5. Rad s modulima.
  6. Računanje čestotnih razdioba.
  7. Prvi kolokvij.
  8. Osnove regularnih izraza.
  9. Napredni regularni izrazi.
  10. Čestotne razdiobe n-grama znakova i riječi.
  11. Osnove modeliranja jezika.
  12. Rad na dizajnu završnog zadatka.
  13. Implementacija završnog zadatka.
  14. Implementacija završnog zadatka.
  15. Predstavljanje završnog zadatka.

Ishodi učenja

  1. Objasniti osnove pohrane i obrade teksta u računalu.
  2. Objasniti osnove programiranja nad tekstnim podacima.
  3. Objasniti osnove statističkog modeliranja jezičnih fenomena.
  4. Usporediti razne jezične modele.

Metode podučavanja

predavanja, vježbe, mještovito e-učenje, samostalni zadaci, multimedija i mreža

Metode ocjenjivanja

pohađanje nastave, kolokvij, istraživanje, praktični rad, usmeni ispit

Obavezna literatura

  1. Jurafsky, Daniel; Martin, James H. Speech and Language Processing (2nd Edition). New Jersey: Prentice Hall, 2008.
  2. Python Documentation. https://docs.python.org/.
  3. Tadić, Marko. Jezične tehnologije i hrvatski jezik. Zagreb: Ex libris, 2003.

Dopunska literatura

  1. Bird, Steven; Klein, Ewan, Loper, Edward. Natural Language Processing with Python. O'Reilly Media, 1999.
  2. Manning, Christopher D.; Schuetze, Hinrich. Foundations of Statistical Natural Language Processing. The MIT Press, 2002.