Korpusi u jezičnim istraživanjima
ISVU: 265678•4 ECTS•Ljetni semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za lingvistiku
- Satnica
- Predavanja: 30 sati
- Seminar: 15 sati
Nastavnici
Cilj
Studente se uvodi u područje korpusne lingvistike, upoznaje s ulogom korpusa u današnjim istraživanjima jezika/teksta, posebno u kontekstu neofiloloških istraživanja, te daje praktično znanje pretraživanja korpusa.
Sadržaj
- Povijest korpusnih istraživanja u svijetu i u nas
- Uloga korpusa u istraživanju jezika
- Definicija korpusa
- Računalno podržan korpus
- Korpusni parametri
- Postupci u sastavljanju korpusa: uzorkovanje, reprezentativnost
- Vrste podataka pretraživih iz korpusa: abecedariji, čestotnici, konkordancije
- Postupci obradbe korpusa: nelingvističko obilježavanje i standardi digitalnoga zapisa
- Postupci obradbe korpusa: lingvističko obilježavanje (segmentacija i označavanje)
- Postupci obradbe korpusa: lingvističko obilježavanje (označavanje vrsta riječi, lematizacija, MSD-označavanje)
- Postupci obradbe korpusa: lingvističko obilježavanje (označavanje sintaktičkih uloga – banke stabala; označavanje značenja riječi i semantičkih uloga)
- Postupci obradbe korpusa: statističke metode
- Praktičan rad na pretrazi korpusa: Hrvatski nacionalni korpus i drugi (nacionalni) korpusi
- Praktičan rad na pretrazi korpusa: Sketch Engine / No Sketch Engine / CQL i regularni izrazi
- Praktičan rad na pretrazi korpusa: korpusi u neofilološkim istraživanjima
Ishodi učenja
- Studenti će usvojiti definiciju korpusa kako ga vidi suvremena korpusna lingvistika.
- Studenti će moći objasniti razliku između zbirke tekstova, korpusa i računalnog korpusa.
- Studenti će moći opisati različite vrste korpusa.
- Studenti će moći objasniti i uočiti važnost primjene korpusa i korpusnolingvističkih metoda u neofilološkim istraživanjima.
Metode podučavanja
Predavanja, seminari, e-učenje
Metode ocjenjivanja
Pismeni ispit, praktični zadatak
Obavezna literatura
- Biber, D. (1998) Corpus Linguistics: Investigate Language Structure and Use, CUP, Cambridge.
- Kennedy, G. (1998) Introduction to Corpus Linguistics, Longman, London.
- McEnery, T. & Wilson A. (2001) Corpus linguistics, Edinburgh Univ. Press, Edinburgh.
- Tadić, M. (1997) Računalna obradba hrvatskih korpusa: povijest, stanje i perspektive, Suvremena lingvistika 43-44, 387-394.
- Tadić, M. (2003) Jezične tehnologije. Ex Libris, Zagreb.
- Tognini-Bonelli, E. (2001) Corpus Linguistics at Work, Benjamins, Amsterdam.
Dopunska literatura
- Tadić, M. (1991) Od korpusa do čestotnoga rječnika hrvatskoga književnog jezika, Radovi Zavoda za slavensku filologiju, 27, 169-78.
- Tadić, M. (1996) Računalna obradba hrvatskoga i nacionalni korpus, Suvremena lingvistika 41-42, 603-611.
- Tadić, M. (1998) Raspon, opseg i sastav korpusa hrvatskoga jezika, Filologija 30-31, 337-347.
- Tadić, M. (2009) New version of the Croatian National Corpus, u: Hlaváčková, D. ; Horák, A.; Osolsobě, K.; Rychlý, P. (ur.) After Half a Century of Slavonic Natural Language Processing, Masaryk University, Brno, str. 199-205