Jezični inženjering
ISVU: 280614•4 ECTS•Zimski semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za informacijske i komunikacijske znanosti
- Satnica
- Predavanja: 30 sati
- Auditorne vježbe: 30 sati
Nastavnici
Cilj
Cilj predmeta je upoznati studente s jezičnim resursima za hrvatski jezik na različitim razinama obrade jezika i pružiti studentima teoretsko i praktično znanje u oblikovanju jezičnog resursa. Tijekom semestra će raditi na projektu izrade jezičnog resursa na kojem će moći ispuniti sve očekivane ishode učenja.
Sadržaj
- Uvodno predavanje. Opis kolegija i uvjeti. Pregled područja i ciljevi.
- Računalni korpusi i razine označavanja.
- Razvojni korpusi i učenički korpusi.
- Tvorbeni morfološki leksikoni različitih europskih jezika
- Flektivni morfološki leksikoni različitih europskih jezika
- Automatska ekstrakcija morfološkog leksikona
- Leksički i značenjski odnosi u jezičnim resursima
- Inicijative izgradnje višejezičnih leksičkih baza
- Strategije spajanja i širenja za stvaranje i integraciju različitih leksičkih baza
- Jezične ontologije vs. konceptualne ontologije
- Potkategorizacija i valencija.
- Potkategorizacijski i valencijski leksički resursi.
- Značenjske uloge i leksikoni.
- Značenjski leksikoni.
- Mnijenje i leksikoni mnijenja.
Ishodi učenja
- Identificirati obilježja leksičkih resursa na različitiim razinama jezičnog označavanja
- Oprimjeriti automatsku izradu leksičkih resursa
- Analizirati obilježja leksičkih resursa na različitiim razinama jezičnog označavanja
- Vrednovati postojeće leksičke resurse za različite prirodne jezike
Metode podučavanja
Predavanja, vježbe
Metode ocjenjivanja
Student koji ne dolazi na nastavu ili izostane više od 3 puta s predavanja i vježbi nema pravo izlaska na pismeni ispit.
Vježbe se ocjenjuju na sljedeći način:
0% = Više od 6 propuštenih vježbi.
10% = Više od 5 propuštenih vježbi.
20% = Više od 4 propuštene vježbe.
30% = Više od 3 propuštene vježbe.
40% = Više od 2 propuštene vježbe.
50% = Redovito pohađa vježbe, predao/la svih 15 vježbi na kolegiju.
Završni pismeni ispit se ocjenjuju na sljedeći način
manje od 50% točnih odgovora = 0% ocjene
od 50% do 55% = 10% ocjene
od 56% do 61% = 15% ocjene
Obavezna literatura
- Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-126.
- Mikelić Preradović, Nives. CROVALLEX Valencijski leksikon glagola hrvatskoga jezika. Zagreb: Zavod za informacijske studije Odsjeka za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2019 (monografija).
- Mikelić Preradović, Nives; Boras, Damir. Semi-automatic Verb Valence Frame Assignment through VerbNet Classification // Lecture notes in Computer Science / Habernal, Ivan ; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 492-500.
- Mikelić Preradović, Nives; Boras, Damir. Knowledge-Driven Multilingual Event Detection Using Cross-Lingual Subcategorization Frames // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 214-218.
- Mikelić Preradović, Nives; Boras, Damir; Lauc, Tomislava. Motion Event in Croatian, English, German and Italian Concerning Path Prefixes and Prepositions // Lecture Notes in Computer Science / Habernal, Ivan; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 335-342.
Dopunska literatura
- Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
- Pinker, Steven. The Language Instinct. London: Penguin, 1994.
- Evans, Roger; and Gerald Gazdar. DATR: a Language for Lexical Knowledge Representation. Computational Linguistics 22 (2).167-216
- Marko Tadić i Krešimir Šojat. Finding Multiword Term Candidates in Croatian. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 102-107
- Marko Tadić i Božo Bekavac. Preparation of POS tagging of Croatian using CLaRK System. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 455-459
- Allen, James. Natural Language Understanding. Redwood, CA: Benjamin, 1995.
- Copestake, Ann. Analysing Sentences, Noel Burton-Roberts, Longman, 1997.
- Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000
- Mikelic Preradovic, Nives; Boras, Damir; Kisicek, Sanja. (2009) CROVALLEX: Croatian Verb Valence Lexicon. In / Luzar-Stiffler, V. et al. (eds.) Proceedings of the ITI 2009 31st International Conference on Information Technology Interfaces. Zagreb: SRCE. pp. 533-538.