Preskoči na glavni sadržaj

Pretraživanje teksta

ISVU: 2553063 ECTSLjetni semestar

Osnovne informacije

Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
Satnica
  • Predavanja: 15 sati
  • Seminar: 15 sati

Nastavnici

Cilj

Kolegij daje prikaz osnovnih zadataka obrade prirodnog jezika s primjenom u pretraživanju informacija, kao što su opojavničenje, izrada invertnog indeksa, TF-IDF težinsko mjerenje, vektorizacija dokumenta, kosinusna sličnost, korjenovanje i lematizacija. Studenti se upoznaju s dvije paradigme pretraživanja informacija: modelom vektorskog prostora i vjerojatnosnim modelom pretraživanja informacija. Naposljetku, studenti savladavaju osnove nadziranog strojnog učenja te njegove evaluacije na zadatku klasifikacije dokumenata.

Sadržaj

  1. Uvod u pretraživanje obavijesti i obradu prirodnog jezika.
  2. Predobrada teksta. Opojavničenje.
  3. Obrada jezika: morfološka normalizacija (korjenovanje).
  4. Obrada jezika: morfosintaktičko označavanje i lematizacija.
  5. Osnovni koncepti: prikaz teksta, popis indeksnih termina.
  6. Modeli pretraživanja. Invertni indeks.
  7. Booleovo pretraživanje i višerječni upiti.
  8. Model vektorskog prostora.
  9. Sličnosti tekstova. Kosinusna sličnost i TFIDF mjera.
  10. Grupiranje dokumenta i termina.
  11. Vjerojatnosni model pretraživanja informacija.
  12. Klasifikacija tekstova i nadzirano strojno učenje.
  13. Primjena naivnog Bayesovog klasifikatora u klasifikaciji dokumenata.
  14. Evaluacija i usporedba više skupova postavki.
  15. Završni izvještaj

Ishodi učenja

  1. Opisati postupke obrade jezika poput morfološke normalizacije (korjenovanja i lematizacije) u svrhu procjene sličnosti tekstova.
  2. Opisati paradigme pretraživanja informacija: model vektorskog prostora te vjerojatnosni model pretraživanja informacija.
  3. Opisati postupke za klasifikaciju dokumenata.
  4. Primijeniti postupke za procjenu sličnosti tekstova.
  5. Primijeniti paradigmu nadziranog strojnog učenja.

Metode podučavanja

predavanja, vježbe, mješovito e-učenje, samostalni zadaci

Metode ocjenjivanja

pohađanje nastave, kolokvij, istraživanje, referat, praktični rad, usmeni ispit

Obavezna literatura

  1. Ignatow, G., & Mihalcea, R. (2017). Text mining: A Guidebook for the Social Sciences Thousand Oaks, CA: SAGE Publications, Inc doi: 10.4135/9781483399782 (selected chapters)
  2. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008
  3. Lauc, Tomislava. PRETRAŽIVANJE OBAVIJESTI: pristupi automatskom indeksiranju dokumenata // Modeli znanja i obrada prirodnoga jezika / Tuđman, Miroslav (ur.). Zagreb: Zavod za informacijske studije, Filozofski fakultet, 2003. str. 169-196

Dopunska literatura

  1. G. Miner, J. Elder IV, T. Hill, R. Nisbet, D. Delen, A. Fast (2012.), Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications, Academic Press