Uvod u obradu prirodnog jezika
ISVU: 266144•4 ECTS•Zimski i ljetni semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za informacijske i komunikacijske znanosti
- Satnica
- Predavanja: 30 sati
- Laboratorijske vježbe: 30 sati
Nastavnici
Cilj
Cilj kolegija je dati studentima osnovne smjernice računalne obrade prirodnog jezika. Studenti će se upoznati sa morfološkom analizom i generiranjem, sintaktičkom analizom i značenjskom interpretacijom jezika. Kroz niz tjednih tema dobit će uvid u raznolikost područja i širinu primjene metoda obrade prirodnog jezika. Praktičnim radom na tjednim zadatcima tijekom semestra ovladat će konkretnom primjenom teorijskog znanja da bi na kraju semestra mogli razlikovati i vrednovati strukturalne značajke tekstova na prirodnom jeziku i načela njihove računalne obrade kako bi se dobile lingvističke (morfološke, sintaktičke, semantičke) informacije.
Sadržaj
- Uvodno predavanje o kolegiju. Ciljevi obrade prirodnog jezika. Povijest. Pregled područja koje je po svojoj prirodi interdisciplinarno.
- Fonetika i fonologija. Razine jezične analize. Prva razina – fonetika. Odnos fonetike i fonologije. Definicija fonema, alofona, podjela glasova po načinu tvorbe, zvučnosti i mjestu tvorbe. IPA. Kako nastaje govor, koartikulacija, obilježja govora, zvučni valovi, oscilogram, osnovna frekvencija, spektrogram. Računalna obrada govora: aplikacije za automatsko prepoznavanje govora i automatsku sintezu teksta u govor.
- Odnos pisma i jezika. Tipovi pisma i faze razvoja pisma, fonološki i nefonološki sustavi, odnos glasa i slova u pismima, usporedba pisama, ASCII kod, UNICODE.
- Regularni izrazi u obradi prirodnog jezika. Napredno pretraživanje interneta korištenjem lingivističkih obilježja.
- Osnovni pojmovi regularnih izraza: unarni, binarni operatori, tvorba regularnih izraza, alati s regularnim izrazima, regularni izrazi u Wordu.
- Pretraživanje korpusa regularnim izrazima.
- Računalna morfologija. Osnove morfologije hrvatskog i engleskog jezika. Definicija morfologije, morfema, alomorfa, afiksa, infiksa, tvorbeni i oblični morfemi u hrvatskom i engleskom jeziku.
- Derivacijska i oblična morfologija u hrvatskom i engleskom jeziku na primjeru imenica, glagola i pridjeva. Morfološka obrada: računalna analiza i računalno generiranje oblika.
- Morfološki analizatori i generatori oblika, konačni automati, konačni pretvarači.
- Računalna sintaksa: osnovni pojmovi računalne sintakse: vrste riječi, otvoreni i zatvoreni vokabular, kategorije sintagmi i oznake vrsta riječi (part of speech), rečenične kategorije.
- Sintaktička stabla i parsanje, banke stabala.
- Uvod u računalne gramatike. Regularna, beskontekstna, kontekstna, gramatika neograničenih produkcija. Bezokolinska gramatika: sastavnice, završne i nezavršne oznake, pravila.
- Provjernici pravopisa i gramatike. Način funkcioniranja i problemi provjernika pravopisa i gramatike. Interaktivni i automatski provjernici, otkrivanje pogrešaka i ispravak pogrešaka, tehnike provjere pravopisa: pronalaženje nepostojećih riječi, ispravak pogrešno napisanih riječi bez konteksta, ispravljanje riječi s obzirom na kontekst i provjera gramatičke ispravnosti.
- Uvod u semantiku prirodnog jezika. Kompozicijska semantika, sematičke uloge, teorija dubinskih padeža, padežni okviri glagola.
- Sintaktički i semantički opis padežnih okvira u hrvatskom jeziku.
Ishodi učenja
- Prepoznati i nabrojati vodeće trendove u razvoju računalnih tehnologija te sustava za obradu prirodnog jezika
- Razlikovati terminologiju računalne lingvistike i obrade prirodnog jezika
- Demonstrirati nacrt sustava u svakom od područja obrade prirodnoga jezika (računalna fonetika i fonologija, morfologija, sintaksa i semantika)
- Koristiti odgovarajuće aplikacije koje ilustriraju svako od područja obrade prirodnoga jezika
- Pretraživati računalne korpuse korištenjem regularnih izraza
- Koristiti s razumijevanjem automatske provjernike pravopisa i gramatike te vrednovati te sustave
- Primijeniti znanja iz različitih područja računalne obrade jezika
- Prepoznati i primijeniti rezultate istraživanja iz polja informacijskih i komunikacijskih znanosti
- Primijeniti i integrirati znanja i algoritme u izradi programskih rješenja
- Interpretirati i koristiti stručnu terminologiju na hrvatskom i engleskom jeziku
- Primijeniti znanja i algoritme u izradi programskih rješenja
Metode podučavanja
Predavanja, vježbe
Metode ocjenjivanja
Vježbe se ocjenjuju na sljedeći način:
0% = Više od 6 propuštenih vježbi.
10% = Više od 5 propuštenih vježbi.
20% = Više od 4 propuštene vježbe.
30% = Više od 3 propuštene vježbe.
40% = Više od 2 propuštene vježbe.
50% = Redovito pohađa vježbe, predao/la svih 15 vježbi na kolegiju
Završni pismeni ispit se ocjenjuju na sljedeći način
manje od 50% točnih odgovora = 0% ocjene
od 50% do 55% = 10% ocjene
od 56% do 61% = 15% ocjene
od 62% do 67% = 20% ocjene
od 68% do 73% = 25% ocjene
od 74% do 79% = 30% ocjene
od 80% do 84% = 35% ocjene
od 85% do 89% = 40% ocjene
od 90% do 94% = 45% ocjene
od 95% do 100% = 50% ocjene
Konačna se ocjena dobiva na sljedeći način:
89 − 100% 5 (izvrstan)
76 − 88,9% 4 (vrlo dobar)
63 − 75,9% 3 (dobar)
50 − 62,9% 2 (dovoljan)
Obavezna literatura
- Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-12
- Mikelić Preradović, Nives. Pristupi izradi strojnog tezaurusa za hrvatski jezik / doktorska disertacija. Zagreb: Filozofski fakultet, 2008.
- Tepeš Golubić, Lidija; Mikelić Preradović, Nives; Boras, Damir. Semi-automatic detection of germanisms in Croatian newspaper texts // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 173-177.
- Ljubešić, Nikola; Esplà-Gomis, Miquel; Klubička, Filip; Mikelić Preradović, Nives. Predicting Inflectional Paradigms and Lemmata of Unknown Words for Semi-automatic Expansion of Morphological Lexicons. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015).Hissar, Bulgaria: Association for Computational Linguistics, 2015, str. 379-387.
- Šojat, Krešimir; Mikelić Preradović, Nives; Tadić, Marko. Generation of Verbal Stems in Derivationally Rich Language // Proceedings of the Eigth International Conference on Language Resources and Evaluation (LREC'12) / Calzolari, Nicoletta ; Choukri, Khalid ; Declerck, Thierry ; Ugur Dogan, Mehmet ; Maegaard, Bente ; Mariani, Joseph ; Odijk, Jan ; Piperidis, Stelios (ur.). Istanbul: European Language Resources Association (ELRA), 2012.
- Ljubesic, Nikola; Mikelić, Nives; Boras, Damir. Language identification: how to distinguish similar languages? // Proceedings of the 29th International Conference on Information Technology Interfaces / Budin, Leo; Lužar-Stiffler, Vesna ; Bekić, Zoran ; Hljuz Dobrić, Vesna (eds). Zagreb: SRCE, 2007.
Dopunska literatura
- Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
- Marko Tadic. Problemi računalne obrade imeničnih oblika u hrvatskome. Suvremena lingvistika 34, (1992), str. 301-308.
- Marko Tadic. Building the Croatian Morphological Lexicon. Proceedings of the EACL2003 Workshop on Morphological Processing of Slavic Languages (Budimpešta 2003), ACL, str. 41-46.
- Robert Dale, Hermann Moisl and Harold Somers, eds. Handbook of Natural Langauge Processing. MIT Press, 2000.
- Lucja M. Iwanska and Stuart C. Shapiro, eds. Natural Language Processing and Knowledge Representation. MIT Press, 2000.
- Roland R. Hausser. Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. Springer Verlag, 2001.
- Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000.
- Tepeš, B. Računarska lingvistika, Radovi Zavoda za informacijske studije, Knjiga 9., Zagreb, 2001.
- Roland R. Hausser. Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. Springer Verlag, 2001.