Obrada prirodnog jezika
ISVU: 266319•5 ECTS•Zimski semestar
Osnovne informacije
- Organizacijska jedinica
- Centar za kognitivnu znanost
- Satnica
- Predavanja: 15 sati
- Seminar: 15 sati
- Auditorne vježbe: 15 sati
Nastavnici
Cilj
Studenti će steći temeljna znanja i praktične vještine u području računalne obrade prirodnih jezika i bit će osposobljeni samostalno modelirati postupke leksičke i sintaksne analize prirodnih jezika. Također će znati koristiti alate za ekstrahiranje informacija iz tekstova napisanih u prirodnom jeziku. NooJ NLP okruženje će se koristiti za demonstraciju automata konačnih stanja (FSA), rekurzivnih prijelaznih mreža (RTN), poboljšanih rekurzivnih prijelaznih mreža (ERTN), beskontekstnih gramatika (CFG) i kontekstnih gramatika (CSG). Perl i NooJ regularni izrazi će se koristiti za upite nad nestrukturiranim tekstovima. Lokalne gramatike dizajnirat će se pomoću grafičkog i tekstualno sučelja (flektivne, derivacijske, leksičke, ortografske, morfološke, terminološke, sintaktičke, semantičke i prijevodne gramatike). Oprimjerit će se uklanjanje višeznačnosti i izgradnja konkordancija. Izrađeni algoritmi će se evaluirati (preciznost, odziv, f-mjera) i međusobno uspoređivati. Raspravljat će se o NLP-u u kontekstu velikih podataka a bit će govora i o teoriji i primjeni LLM-ova i razgovornih agenata.
Studenti će razvijati analitički pristup u razumijevanju i rješavanju problema u području obrade prirodnog jezika. Kroz evaluaciju algoritama i rasprave o primjeni NLP-a, studenti će razvijati kritičko razmišljanje. Studenti će razviti vještine primjene naučenih koncepta na stvarnim tekstualnim podacima a kroz diskusije i projekte, studenti će razvijati suradničke vještine. Kolegij obuhvaća različite aspekte jezika, računalstva i statistike, potičući interdisciplinarni pristup.
Sadržaj
- Što je obrada prirodnog jezika i čime se bavi?
- Korpusi; evaluacija i mjere (zlatni standard, PARSEVAL, preciznost, odziv, f-mjera).
- Korištenje alata za obradu jezika; Grafičko/tekstualno sučelje gramatika.
- Postavljanje upita nad tekstom.
- POS označavanje: statistički i ne-statistički pristup
- POS označavanje i rječnici
- Flektivne i derivacijske gramatike (opis paradigmi)
- Ugniježđena pravila
- Generiranje riječi; Prepoznavanje novih riječi iz već postojećih
- Produktivna morfologija (posebne oznake u prepoznavaču/označivaču, operacija provjere jednakosti, varijable, provjera rezultata i traženje grešaka)
- Višesložni izrazi (rječnik, gramatika); Jezične varijacije
- Regularne gramatike; Regularni izrazi
- Beskontekstne gramatike
- Kontekstne gramatike
- NLP u analizi društvenih medija
Ishodi učenja
- Izraditi rječnik za strojnu obradu teksta.
- Dizajnirati i testirati morfološku gramatiku.
- Dizajnirati i testirati sintaksnu gramatiku.
- Evaluirati sustav za obradu jezika.
- Ekstrahirati informacije iz teksta
- Analizirati rezultate algoritma za obradu jezika
Metode podučavanja
1. izravno poučavanje
2. samostalno učenje
3. poučavanje vođenim otkrivanjem i raspravom
4. ERR okvir za poučavanje
Metode ocjenjivanja
1. kratki testovi znanja
2. projektni zadatci
3. sudjelovanje na nastavi
Obavezna literatura
- Daniel Jurafsky, James H. Martin (2019). Speech and Language Processing (3rd edition). Prentice Hall, USA.
- Alexander Clark, Chris Fox, Shalom Lappin (2010). The Handbook of Computational Linguistics and Natural Language Processing. Wiley- Blackwell, USA.
- Christopher D. Manning, Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. MIT Press, USA.
Dopunska literatura
- Silberztein, M.: Formalizing Natural Languages: The NooJ Approach, Wiley, 2016.