Preskoči na glavni sadržaj

Pretraživanje obavijesti i obrada prirodnog jezika

ISVU: 697493 ECTSZimski semestar

Osnovne informacije

Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
Satnica
  • Predavanja: 15 sati
  • Vježbe u praktikumu: 15 sati

Nastavnici

Cilj

Kolegij daje prikaz osnovnih zadataka obrade prirodnog jezika s primjenom u pretraživanju informacija, kao što su opojavničenje, izrada invertnog indeksa, TF-IDF težinsko faktoriranje, vektorizacija dokumenta, kosinusna sličnost, korjenovanje i lematizacija. Studenti se upoznaju s dvije paradigme pretraživanja informacija: modelom vektorskog prostora i vjerojatnosnim modelom pretraživanja informacija. Naposljetku, studenti savladavaju osnove nadziranog strojnog učenja te njegove evaluacije na zadatku klasifikacije dokumenata.

Sadržaj

  1. Uvod u pretraživanje obavijesti i obradu prirodnog jezika.
  2. Predobrada teksta. Opojavničenje.
  3. Obrada jezika: morfološka normalizacija (korjenovanje)
  4. Obrada jezika: morfosintaktičko označavanje i lematizacija
  5. Osnovni koncepti: prikaz teksta, popis indeksnih termina.
  6. Modeli pretraživanja. Invertni indeks.
  7. Booleovo pretraživanje i višerječni upiti.
  8. Model vektorskog prostora.
  9. Sličnosti tekstova. Kosinusna sličnost i TFIDF mjera.
  10. Grupiranje tekstova i termina.
  11. Vjerojatnosni model pretraživanja informacija.
  12. Klasifikacija tekstova i nadzirano strojno učenje.
  13. Primjena naivnog Bayesovog klasifikatora u klasifikaciji dokumenata.
  14. Evaluacija i usporedba više skupova postavki.
  15. Završni izvještaj.

Ishodi učenja

  1. Objasniti osnovne koncepte prikaza teksta poput opojavničenja, indeksiranja i težinskog faktoriranja termina.
  2. Opisati postupke obrade jezika poput morfološke normalizacije (korjenovanja i lematizacije) u svrhu procjene sličnosti tekstova.
  3. Opisati paradigme pretraživanja informacija: model vektorskog prostora te vjerojatnosni model pretraživanja informacija.
  4. Opisati postupke za klasifikaciju dokumenata.
  5. Primijeniti postupke za procjenu sličnosti tekstova.
  6. Primijeniti paradigmu nadziranog strojnog učenja (naivnog Bayesovog klasifikatora).

Metode podučavanja

Predavanja i vježbe.

Metode ocjenjivanja

Praktičan rad na tjednim zadatcima tijekom semestra i završni rad.

Obavezna literatura

  1. https://omega.ffzg.hr/course/view.php?id=37