Jezični inženjering za digitalne lingviste
ISVU: 255304•6 ECTS•Zimski semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za informacijske i komunikacijske znanosti
- Satnica
- Predavanja: 15 sati
- Seminar: 15 sati
- Auditorne vježbe: 30 sati
Nastavnici
Cilj
Cilj predmeta je podučiti studente razlikovanju jezičnih alata i jezičnih resursa. Studenti će se upoznati s karakteristikama jezičnih
alata na glasovnoj/fonemskoj/grafemskoj razini, razini riječi, sintaktičkoj razini, semantičkoj razini te pragmatičkoj razini te posebice
sa složenim komercijalnim alatima obrade prirodnog jezika. Detaljnije će se upoznati i s jezičnim resursima za hrvatski jezik
(računalni korpusi i valencijski leksikon). Nadalje, cilj kolegija je pružiti studentima teoretsko i praktično znanje u oblikovanju jezičnog
resursa. Tijekom semestra će raditi na projektu izrade jezičnog resursa na kojem će moći ispuniti sve očekivane ishode učenja.
Studenti će imati priliku raditi na jednom od 2 projekta: izradi i označavanju CroLTeC-a (učeničkog korpusa hrvatskog kao stranog
jezika) ili CroVallex-a (valencijskog leksikona hrvatskih glagola).Studenti će se upoznati s automatskom analizom ljudskog jezika od
strane računalnih algoritama te ih koristiti za pretvorbu jednog jezičnog oblika u drugi, ali i za parsiranje jezika u strukturirani oblik.
Sadržaj
- Uvodno predavanje. Opis kolegija i uvjeti. Pregled područja i ciljevi.
- Jezični resursi i jezični alati. MULTEXT-EAST morfosintaktičke specifikacije.
- Jezični alati: 4 razine.
- Jezični resursi: leksikoni. Sintaktički i semantički pristup izradi leksičkih resursa. Korpusi, hrvatski korpusi, učenički korpusi.
- Jezični resursi: učenički korpusi - svjetski projekti izrade učeničkih korpusa.
- Učenički korpus CroLTeC.
- Jezični resursi - višejezični korpusi EU.
- Važnost valencijskog leksikona za računalnu obradu jezika.
- Valencijski leksikon: CROVALLEX- valencijski leksikon glagola hrvatskog jezika.
- Svjetski projekti izrade valencijskih leksikona.
- E-leksikografija i računalna leksikografija.
- Obrada diskursa i obrada dijaloga.
- Dijaloški sustavi – povijesni pregled.
- Dijaloški sustavi s inicijativom sustava.
- Dijaloški sustavi s mješovitom inicijativom.
Ishodi učenja
- Primijeniti znanja iz različitih područja računalne obrade jezika
- Identificirati i usporediti vodeće trendove i razvoj računalnih tehnologija
- Prepoznati značajke koje razlikuju sustave prirodnog jezika od ostalih inteligentnih sustava
- Opisati i reproducirati barem jedan pristup izradi računalnog jezičnog resursa za hrvatski jezik
- Opisati razliku u sintaktičkom i semantičkom pristupu klasifikaciji glagola u valencijskom leksikonu za različite prirodne jezike
- Vrednovati postojeće sustave za različite prirodne jezike
Metode podučavanja
predavanja, seminari i radionice, vježbe, mješovito e-učenje, samostali zadaci
Metode ocjenjivanja
projekt, pismeni ispit, pohađanje nastave, seminarski rad, praktični rad
Obavezna literatura
- Mikelic Preradovic, Nives; Lauc, Tomislava; Unic, Danijela. Application of Morphosyntactic Cues in Detection of GOAL Semantic Role // International Journal of E-Services and Mobile Applications (IJESMA), 13(2021), 4.
- Mikelić Preradović, Nives. CROVALLEX Valencijski leksikon glagola hrvatskoga jezika. Zagreb: Zavod za informacijske studije Odsjeka za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2019 (monografija).
- Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-126.
- Mikelić Preradović, Nives Error-Tagging of CroLTeC (Electronic Learner Corpus of Croatian as a Foreign Language) // Rasprave Instituta za hrvatski jezik i jezikoslovlje, 46 (2020), 2; 899-92.
- Mikelić Preradović, Nives; Boras, Damir; Lauc, Tomislava. Motion Event in Croatian, English, German and Italian Concerning Path Prefixes and Prepositions // Lecture Notes in Computer Science / Habernal, Ivan; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 335-342.
- Mikelić Preradović, Nives; Boras, Damir. Semi-automatic Verb Valence Frame Assignment through VerbNet Classification // Lecture notes in Computer Science / Habernal, Ivan ; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 492-500.
- Mikelić Preradović, Nives; Boras, Damir. Knowledge-Driven Multilingual Event Detection Using Cross-Lingual Subcategorization Frames // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 214- 218.
Dopunska literatura
- Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
- Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000