Jezične tehnologije
ISVU: 117625•5 ECTS•Zimski semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za lingvistiku
- Satnica
- Predavanja: 30 sati
- Seminar: 15 sati
Nastavnici
Cilj
Polaznici se osposobljavaju za suvereno snalaženje unutar područja jezičnih tehnologija te za primjenu jezičnih resursa i alata, ali i komercijalnih proizvoda s područja jezičnih tehnologija.
Sadržaj
- Razlika između računalne lingvistike i strojne obradbe jezika
- Tehnologija i jezične tehnologije (JT)
- Industrijalizacija jezika, razvitak pismenosti i (tele)komunikacija
- Podjela JT-a: jezični resursi, jezični alati, (komercijalni) proizvodi
- Razvitak JT-a za pojedini jezik
- Primjeri uporabe JT: pretraživanje dokumenata, crpljenje obavijesti, prepoznavanje imena...
- JT za hrvatski jezik: stanje, projekti, perspektive
- JT resursi: korpusi, rječnici
- JT alati na raznim jezičnim razinama: fonološka razina (n-grami pismena)
- JT alati na raznim jezičnim razinama: morfološka razina (generatori, analizatori, lematizatori, označivači)
- JT alati na raznim jezičnim razinama: sintaktička razina (plitki, duboki, robustni parseri, razdjelnici (chunkeri), generativne i ovisnosne banke stabala)
- JT alati na raznim jezičnim razinama: semantička razina (FrameNet i WordNet)
- Komercijalni proizvodi: rječnici, provjernici (pravopisa, gramatike, stila), sustavi za diktiranje, strojno (potpomognuto) prevođenje (M(A)T)
- Računalno potpomognuto učenje jezika (CALL): HR4EU, mrežni portal za učenje hrvatskoga jezika
- Pregled relevantnih europskih projekata: CLARIN, ACCURAT, Let'sMT!, CESAR, XLike, Prevoditelj za predsjedanje Vijećem EU-a, MARCELL
Ishodi učenja
- Usvojiti razliku između računalne lingvistike i strojne obradbe jezika
- Usvojiti i objasniti podjelu jezičnih tehnologija na jezične resurse, jezične alate i komercijalne proizvode
- Objasniti kako se razvijaju jezične tehnologije za pojedini jezik
- Nabrojiti primjere uporabe jezičnih tehnologija
- Nabrojiti postojeće jezične resurse i alate za hrvatski jezik
- Primijeniti jezične tehnologije za hrvatski jezik u vlastitim istraživanjima
- argumentirano procijeniti stručnu i znanstvenu literaturu na hrvatskom i engleskom jeziku iz područja računalne lingvistike i srodnih znanstvenih disciplina kao što su algebarska lingvistika, korpusna lingvistika te kognitivna lingvistika
- nabrojiti temeljne suvremene smjerove računalne lingvistike
- objasniti temeljne teorijske i metodološke poveznice računalne lingvistike s drugim srodnim znanstvenim disciplinama, ponajprije korpusnom i kognitivnom lingvistikom, ali i s informacijskim znanostima, te računarstvom
- procijeniti primjenljivost pojedinih računalnolingvističkih metoda pri obradbi jezične građe
Metode podučavanja
Predavanja, seminari, rasprava, rješavanje zadataka
Metode ocjenjivanja
Pisani ispit i obavljanje praktičnoga zadatka
Obavezna literatura
- Fellbaum, C. (ur.) (1998) Wordnet: An Electronic Lexical Database, MIT Press, Cambridge MA.
- Hausser, R. R. (2001) Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. Springer Verlag.
- Jurafsky, D. & Martin, J. H. (2000) Speech and Language Processing. An Introduction to Natural Language Processing. Computational Linguistics, and Speech Recognition. Prentice Hall.
- Mitkov, R. (ur.) (2003) The Oxford Handbook of Computational Linguistics, OUP, Oxford.
- Tadić, M.(2003) Jezične tehnologije i hrvatski jezik, Exlibris, Zagreb.
- Tadić, M., Brozović-Rončević, D., Kapetanić, A. (2012) Hrvatski jezik u digitalnom dobu / The Croatian Language in the Digital Age, Springer Verlag.
Dopunska literatura
- Tadić, M. (1992) Problemi računalne obrade imeničnih oblika u hrvatskome. Suvremena lingvistika 34, str. 301-308
- Tadić, M. (2003) Building the Croatian Morphological Lexicon. Proceedings of the EACL2003 Workshop on Morphological Processing of Slavic Languages, ACL, str. 41-46.
- Odabrani članci prema seminarskim potrebama.