Pretraživanje obavijesti i obrada prirodnog jezika
ISVU: 69749•3 ECTS•Zimski semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za informacijske i komunikacijske znanosti
- Satnica
- Predavanja: 15 sati
- Vježbe u praktikumu: 15 sati
Nastavnici
Cilj
Kolegij daje prikaz osnovnih zadataka obrade prirodnog jezika s primjenom u pretraživanju informacija, kao što su opojavničenje, izrada invertnog indeksa, TF-IDF težinsko faktoriranje, vektorizacija dokumenta, kosinusna sličnost, korjenovanje i lematizacija. Studenti se upoznaju s dvije paradigme pretraživanja informacija: modelom vektorskog prostora i vjerojatnosnim modelom pretraživanja informacija. Naposljetku, studenti savladavaju osnove nadziranog strojnog učenja te njegove evaluacije na zadatku klasifikacije dokumenata.
Sadržaj
- Uvod u pretraživanje obavijesti i obradu prirodnog jezika.
- Predobrada teksta. Opojavničenje.
- Obrada jezika: morfološka normalizacija (korjenovanje)
- Obrada jezika: morfosintaktičko označavanje i lematizacija
- Osnovni koncepti: prikaz teksta, popis indeksnih termina.
- Modeli pretraživanja. Invertni indeks.
- Booleovo pretraživanje i višerječni upiti.
- Model vektorskog prostora.
- Sličnosti tekstova. Kosinusna sličnost i TFIDF mjera.
- Grupiranje tekstova i termina.
- Vjerojatnosni model pretraživanja informacija.
- Klasifikacija tekstova i nadzirano strojno učenje.
- Primjena naivnog Bayesovog klasifikatora u klasifikaciji dokumenata.
- Evaluacija i usporedba više skupova postavki.
- Završni izvještaj.
Ishodi učenja
- Objasniti osnovne koncepte prikaza teksta poput opojavničenja, indeksiranja i težinskog faktoriranja termina.
- Opisati postupke obrade jezika poput morfološke normalizacije (korjenovanja i lematizacije) u svrhu procjene sličnosti tekstova.
- Opisati paradigme pretraživanja informacija: model vektorskog prostora te vjerojatnosni model pretraživanja informacija.
- Opisati postupke za klasifikaciju dokumenata.
- Primijeniti postupke za procjenu sličnosti tekstova.
- Primijeniti paradigmu nadziranog strojnog učenja (naivnog Bayesovog klasifikatora).
Metode podučavanja
Predavanja i vježbe.
Metode ocjenjivanja
Praktičan rad na tjednim zadatcima tijekom semestra i završni rad.
Obavezna literatura
- https://omega.ffzg.hr/course/view.php?id=37