Pretraživanje teksta
ISVU: 255306•3 ECTS•Ljetni semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za informacijske i komunikacijske znanosti
- Satnica
- Predavanja: 15 sati
- Seminar: 15 sati
Nastavnici
Cilj
Kolegij daje prikaz osnovnih zadataka obrade prirodnog jezika s primjenom u pretraživanju informacija, kao što su opojavničenje,
izrada invertnog indeksa, TF-IDF težinsko mjerenje, vektorizacija dokumenta, kosinusna sličnost, korjenovanje i lematizacija.
Studenti se upoznaju s dvije paradigme pretraživanja informacija: modelom vektorskog prostora i vjerojatnosnim modelom
pretraživanja informacija. Naposljetku, studenti savladavaju osnove nadziranog strojnog učenja te njegove evaluacije na zadatku
klasifikacije dokumenata.
Sadržaj
- Uvod u pretraživanje obavijesti i obradu prirodnog jezika.
- Predobrada teksta. Opojavničenje.
- Obrada jezika: morfološka normalizacija (korjenovanje).
- Obrada jezika: morfosintaktičko označavanje i lematizacija.
- Osnovni koncepti: prikaz teksta, popis indeksnih termina.
- Modeli pretraživanja. Invertni indeks.
- Booleovo pretraživanje i višerječni upiti.
- Model vektorskog prostora.
- Sličnosti tekstova. Kosinusna sličnost i TFIDF mjera.
- Grupiranje dokumenta i termina.
- Vjerojatnosni model pretraživanja informacija.
- Klasifikacija tekstova i nadzirano strojno učenje.
- Primjena naivnog Bayesovog klasifikatora u klasifikaciji dokumenata.
- Evaluacija i usporedba više skupova postavki.
- Završni izvještaj
Ishodi učenja
- Opisati postupke obrade jezika poput morfološke normalizacije (korjenovanja i lematizacije) u svrhu procjene sličnosti tekstova.
- Opisati paradigme pretraživanja informacija: model vektorskog prostora te vjerojatnosni model pretraživanja informacija.
- Opisati postupke za klasifikaciju dokumenata.
- Primijeniti postupke za procjenu sličnosti tekstova.
- Primijeniti paradigmu nadziranog strojnog učenja.
Metode podučavanja
predavanja, vježbe, mješovito e-učenje, samostalni zadaci
Metode ocjenjivanja
pohađanje nastave, kolokvij, istraživanje, referat, praktični rad, usmeni ispit
Obavezna literatura
- Ignatow, G., & Mihalcea, R. (2017). Text mining: A Guidebook for the Social Sciences Thousand Oaks, CA: SAGE Publications, Inc doi: 10.4135/9781483399782 (selected chapters)
- Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008
- Lauc, Tomislava. PRETRAŽIVANJE OBAVIJESTI: pristupi automatskom indeksiranju dokumenata // Modeli znanja i obrada prirodnoga jezika / Tuđman, Miroslav (ur.). Zagreb: Zavod za informacijske studije, Filozofski fakultet, 2003. str. 169-196
Dopunska literatura
- G. Miner, J. Elder IV, T. Hill, R. Nisbet, D. Delen, A. Fast (2012.), Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications, Academic Press