Preskoči na glavni sadržaj

Računarska lingvistika

ISVU: 2155316 ECTSZimski semestar

Osnovne informacije

Organizacijska jedinica
Odsjek za informacijske i komunikacijske znanosti
Satnica
  • Predavanja: 15 sati
  • Seminar: 15 sati
  • Vježbe u praktikumu: 30 sati

Nastavnici

Cilj

Student će dobiti temeljna znanja u području računarske lingvistike iz perspektive računalne obrade prirodnih jezika i bit će osposobljen da može samostalno modelirati postupke leksičke i sintaktičke analize prirodnih jezika. Također će znati koristiti alate za ekstrahiranje informacija iz tekstova. NooJ NLP okruženje će se koristiti za demonstraciju automata konačnih stanja (FSA), rekurzivnih prijelaznih mreža (RTN), poboljšanih rekurzivnih prijelaznih mreža (ERTN), beskontekstnih gramatika (CFG) i kontekstnih gramatika (CSG). Perl i NooJ regularni izrazi će se koristiti za upite nad nestrukturiranim tekstovima. Lokalne gramatike dizajnirat će se pomoću grafičkog i tekstualno sučelja (flektivne, derivacijske, leksičke, ortografske, morfološke, terminološke, sintaktičke, semantičke i prijevodne gramatike). Leksička i sintaktička analiza bit će objašnjene i demonstrirane kroz gramatike koje su studenti izradili samostalno. Oprimjerit će se uklanjanje višeznačnosti i izgradnja konkordancija. Izrađeni algoritmi će se evaluirati (preciznost, odziv, f-mjera) i međusobno uspoređivati. Raspravljat će se o NLP-u u kontekstu velikih podataka.

Sadržaj

  1. Što je i čime se bavi RL?
  2. Korpusi; evaluacija i mjere (zlatni standard, PARSEVAL, preciznost, odziv, f-mjera); Alat NooJ; Kako crtamo gramatike
  3. Korištenje alata za obradu jezika; postavljanje upita nad tekstom; grafičko /tekstualno sučelje
  4. POS označavanje: statistički i ne-statistički pristup
  5. POS označavanje i rječnici; flektivne i derivacijske gramatike (opis paradigmi); ugniježđena pravila
  6. Generiranje riječi; prepoznavanje novih riječi iz već postojećih; produktivna morfologija (posebne oznake u prepoznavaču/označivaču; operacija provjere jednakosti; varijable; provjera rezultata i traženje grešaka)
  7. Višesložni izrazi (rječnik, gramatika); jezične varijacije
  8. Regularne gramatike
  9. Bezokolinske gramatike
  10. Kontekstne gramatike
  11. Regularni izrazi
  12. NLP EKSPERTI u analizi društvenih medija 1 - projektni zadatak
  13. NLP EKSPERTI u analizi društvenih medija 2 - projektni zadatak
  14. NLP EKSPERTI u analizi društvenih medija 3 - projektni zadatak
  15. NLP EKSPERTI u analizi društvenih medija 4 - projektni zadatak

Ishodi učenja

  1. izraditi rječnik za strojnu obradu teksta
  2. dizajnirati morfološku gramatiku
  3. dizajnirati sintaksnu gramatiku
  4. evaluirati sustav za obradu jezika
  5. ekstrahirati informacije iz teksta
  6. analizirati rezultate algoritma za obradu jezika

Metode podučavanja

1. izravno poučavanje 2. samostalno učenje 3. poučavanje vođenim otkrivanjem i raspravom 4. ERR okvir za poučavanje

Metode ocjenjivanja

1. kratki testovi znanja 2. projektni zadatci 3. sudjelovanje na nastavi

Obavezna literatura

  1. Jurafsky, D.; Martin, J.H.: Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition, 2009.
  2. Silberztein, M.: Formalizing Natural Languages: The NooJ Approach, Wiley, 2016.

Dopunska literatura

  1. Clark, A.; Fox, C.; Lappin, S. (eds.): The handbook of computational linguistics and natural language processing, 2010.
  2. Dovedan Han, Z.: FORMALNI JEZICI I PREVODIOCI • sintaksna analiza i primjene, Element, Zagreb, 2012.
  3. Dovedan Han, Z.: FORMALNI JEZICI I PREVODIOCI • regularni izrazi, gramatike, automati, Element, Zagreb, 2012.
  4. Grishman, R.: Computational linguistics: an introduction, Cambridge University Press, 1986.
  5. Harris, M.D.: Introduction to Natural Language Processing. Prentice Hall, 1985.
  6. Lawer, J.M.; Dry, H.A. (eds.): Using computers in linguistics: a practical guide, 1998.