Preskoči na glavni sadržaj

Jezični inženjering

ISVU: 2806144 ECTSZimski semestar

Osnovne informacije

Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
Satnica
  • Predavanja: 30 sati
  • Auditorne vježbe: 30 sati

Nastavnici

Cilj

Cilj predmeta je upoznati studente s jezičnim resursima za hrvatski jezik na različitim razinama obrade jezika i pružiti studentima teoretsko i praktično znanje u oblikovanju jezičnog resursa. Tijekom semestra će raditi na projektu izrade jezičnog resursa na kojem će moći ispuniti sve očekivane ishode učenja.

Sadržaj

  1. Uvodno predavanje. Opis kolegija i uvjeti. Pregled područja i ciljevi.
  2. Računalni korpusi i razine označavanja.
  3. Razvojni korpusi i učenički korpusi.
  4. Tvorbeni morfološki leksikoni različitih europskih jezika
  5. Flektivni morfološki leksikoni različitih europskih jezika
  6. Automatska ekstrakcija morfološkog leksikona
  7. Leksički i značenjski odnosi u jezičnim resursima
  8. Inicijative izgradnje višejezičnih leksičkih baza
  9. Strategije spajanja i širenja za stvaranje i integraciju različitih leksičkih baza
  10. Jezične ontologije vs. konceptualne ontologije
  11. Potkategorizacija i valencija.
  12. Potkategorizacijski i valencijski leksički resursi.
  13. Značenjske uloge i leksikoni.
  14. Značenjski leksikoni.
  15. Mnijenje i leksikoni mnijenja.

Ishodi učenja

  1. Identificirati obilježja leksičkih resursa na različitiim razinama jezičnog označavanja
  2. Oprimjeriti automatsku izradu leksičkih resursa
  3. Analizirati obilježja leksičkih resursa na različitiim razinama jezičnog označavanja
  4. Vrednovati postojeće leksičke resurse za različite prirodne jezike

Metode podučavanja

Predavanja, vježbe

Metode ocjenjivanja

Student koji ne dolazi na nastavu ili izostane više od 3 puta s predavanja i vježbi nema pravo izlaska na pismeni ispit. Vježbe se ocjenjuju na sljedeći način: 0% = Više od 6 propuštenih vježbi. 10% = Više od 5 propuštenih vježbi. 20% = Više od 4 propuštene vježbe. 30% = Više od 3 propuštene vježbe. 40% = Više od 2 propuštene vježbe. 50% = Redovito pohađa vježbe, predao/la svih 15 vježbi na kolegiju. Završni pismeni ispit se ocjenjuju na sljedeći način manje od 50% točnih odgovora = 0% ocjene od 50% do 55% = 10% ocjene od 56% do 61% = 15% ocjene

Obavezna literatura

  1. Mikelić Preradović, Nives; Berać, Monika; Boras, Damir. Learner Corpus of Croatian as a Second and Foreign Language // Multidisciplinary Approaches to Multilingualism / Cergol Kovačević, Kristina ; Udier, Sanda Lucija (ur.). Frankfurt am Main, Germany : Peter Lang, 2015. Str. 107-126.
  2. Mikelić Preradović, Nives. CROVALLEX Valencijski leksikon glagola hrvatskoga jezika. Zagreb: Zavod za informacijske studije Odsjeka za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2019 (monografija).
  3. Mikelić Preradović, Nives; Boras, Damir. Semi-automatic Verb Valence Frame Assignment through VerbNet Classification // Lecture notes in Computer Science / Habernal, Ivan ; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 492-500.
  4. Mikelić Preradović, Nives; Boras, Damir. Knowledge-Driven Multilingual Event Detection Using Cross-Lingual Subcategorization Frames // Human Language Technologies as a Challenge for Computer Science and Linguistics / Vetulani, Zygmunt ; Uszkoreit, Hans (ur.). Poznan, Poland: Fundacja Uniwersytetu im. A. Mickiewicza, 2013. Str. 214-218.
  5. Mikelić Preradović, Nives; Boras, Damir; Lauc, Tomislava. Motion Event in Croatian, English, German and Italian Concerning Path Prefixes and Prepositions // Lecture Notes in Computer Science / Habernal, Ivan; Matoušek, Václav (ur.). Heidelberg : Springer, 2013. Str. 335-342.

Dopunska literatura

  1. Marko Tadić. Jezične tehnologije i hrvatski jezik. Exlibris, Zagreb 2003.
  2. Pinker, Steven. The Language Instinct. London: Penguin, 1994.
  3. Evans, Roger; and Gerald Gazdar. DATR: a Language for Lexical Knowledge Representation. Computational Linguistics 22 (2).167-216
  4. Marko Tadić i Krešimir Šojat. Finding Multiword Term Candidates in Croatian. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 102-107
  5. Marko Tadić i Božo Bekavac. Preparation of POS tagging of Croatian using CLaRK System. Proceedings of RANLP2003 Conference (Borovets 2003), Bugarska akademija znanosti, str. 455-459
  6. Allen, James. Natural Language Understanding. Redwood, CA: Benjamin, 1995.
  7. Copestake, Ann. Analysing Sentences, Noel Burton-Roberts, Longman, 1997.
  8. Daniel Jurafsky & James. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Prentice Hall, NJ, 2000
  9. Mikelic Preradovic, Nives; Boras, Damir; Kisicek, Sanja. (2009) CROVALLEX: Croatian Verb Valence Lexicon. In / Luzar-Stiffler, V. et al. (eds.) Proceedings of the ITI 2009 31st International Conference on Information Technology Interfaces. Zagreb: SRCE. pp. 533-538.