Korpusna lingvistika
ISVU: 265520•4 ECTS•Zimski i ljetni semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za lingvistiku
- Satnica
- Predavanja: 30 sati
- Seminar: 15 sati
Nastavnici
Cilj
Studente se uvodi u područje korpusne lingvistike, upoznaje s ulogom korpusa u današnjim istraživanjima jezika/teksta te daje praktično znanje sastavljanja, obradbe i pretraživanja korpusa.
Sadržaj
- Povijest korpusnih istraživanja u svijetu i u nas
- Uloga korpusa u istraživanju jezika
- Definicija korpusa
- Računalno podržan korpus
- Korpusni parametri
- Postupci u sastavljanju korpusa: uzorkovanje, reprezentativnost
- Vrste podataka pretraživih iz korpusa: abecedariji, čestotnici, konkordancije
- Postupci obradbe korpusa: nelingvističko obilježavanje i standardi digitalnoga zapisa
- Postupci obradbe korpusa: lingvističko obilježavanje (segmentacija i označavanje)
- Postupci obradbe korpusa: lingvističko obilježavanje (označavanje vrsta riječi, lematizacija, MSD-označavanje)
- Postupci obradbe korpusa: lingvističko obilježavanje (označavanje sintaktičkih uloga – banke stabala; označavanje značenja riječi i semantičkih uloga)
- Postupci obradbe korpusa: statističke metode
- Praktičan rad na pretrazi korpusa: Hrvatski nacionalni korpus i drugi (nacionalni) korpusi
- Praktičan rad na pretrazi korpusa: Sketch Engine / No Sketch Engine
- Praktičan rad na pretrazi korpusa: CQL i regularni izrazi
Ishodi učenja
- Studenti će usvojiti definiciju korpusa kako ga vidi suvremena korpusna lingvistika
- Studenti će moći objasniti razliku između zbirke tekstova, korpusa i računalnog korpusa
- Studenti će moći opisati različite vrste korpusa
- Studenti će moći opisati postupke sastavljanja korpusa
- Studenti će moći dobivati različite vrste podataka pretragom korpusa: abecedarije, čestotnike, konkordancije
- Studenti će usvojiti različite tipove pretrage korpusa; pretraživati korpus CQL-om i regularnim izrazima
- Studenti će znati obilježavati korpuse na različitim razinama
Metode podučavanja
Predavanja, seminari, rasprava, praktični zadaci
Metode ocjenjivanja
Pisani ispit i rješavanje praktičnoga zadatka
Obavezna literatura
- Biber, D. (1998) Corpus Linguistics: Investigate Langauge Structure and Use, CUP, Cambridge.
- Kennedy, G.: Introduction to Corpus Linguistics, Longman, London 1998.
- McEnery, T. & Wilson, A. Corpus linguistics, Edinburgh Univ. Press, Edinburgh 1996, 2001
- Sinclair, J.: Corpus, concordance, collocation, Oxford University Press, Oxford 1991
- Tadić, M.: "Računalna obradba hrvatskih korpusa: povijest, stanje i perspektive", Suvremena lingvistika 43 44, 1997.
- Tadić, M.: Jezične tehnologije, Exlibris, Zagreb 2003.
- Tognini-Bonelli, E.: Corpus Linguistics at Work, Benjamins, Amsterdam 2001.
Dopunska literatura
- Tadić, M.: "Od korpusa do čestotnoga rječnika hrvatskoga književnog jezika", Radovi Zavoda za slavensku filologiju, 27, 1991.
- Tadić, M.: Računalna obradba hrvatskoga i nacionalni korpus, Suvremena lingvistika 41-42, 1996.
- Tadić, M.: "Raspon, opseg i sastav korpusa hrvatskoga jezika", Filologija 30-31, Zagreb 1998
- Tadić, M: "New version of the Croatian National Corpus" u: Hlaváčková, D. ; Horák, A.; Osolsobě, K.; Rychlý, P. (ur.) After Half a Century of Slavonic Natural Language Processing, Masaryk University, Brno 2009., str. 199-205