Preskoči na glavni sadržaj

Prepoznavanje obavijesti u tekstu

ISVU: 523015 ECTSLjetni semestar

Osnovne informacije

Organizacijska jedinica
Odsjek za lingvistiku
Satnica
  • Predavanja: 30 sati
  • Seminar: 15 sati

Nastavnici

Cilj

Teorijski i praktično uputiti studente u područje crpljenja obavijesti. Budući da su u žarištu obavijesti kodirane prirodnim jezikom, nakon općeg teorijskog dijela težište se premješta na crpljenje obavijesti iz tekstova pisanih hrvatskim jezikom. Studenti u završnom dijelu kolegija izrađuju dijelove sustava za crpljenje obavijesti na korpusima pisanim hrvatskim jezikom.

Sadržaj

  1. Definicije obavijesti, obavijest u tekstu, nosioci obavijesti.
  2. Što je naziv (Named Entity)? Prepoznavanje i klasifikacija naziva (Named Entity Recognition and Classification)
  3. Crpljenje obavijesti (Information Extraction) - Pronalaženje obavijesti (Information Retrieval)
  4. Konferencije o razumijevanju poruka (Message Understanding Conferences, MUC)
  5. Mjere evaluacije: preciznost, odziv i f-mjera
  6. Strukturiranost podataka: baza podataka - slobodni tekst. Osobine crpljenja obavijesti: ovisnost o domeni.
  7. Prepoznavanje i klasifikacija naziva u kontekstu računalne lingvistike. Sustavi za prepoznavanje i klasifikaciju naziva zasnovani na pravilima.
  8. Sustavi zasnovani na pravilima – uloga popisa imena. Metode strojnog učenja za prepoznavanje i klasifikaciju naziva, hibridni sustavi.
  9. Strategija provjere općeg nizanja entiteta. Unutarnji i vanjski dokazi. Izrada pravila: najduži pogodak, otoci sigurnosti, jedan smisao u diskursu.
  10. Izrada sustava za prepoznavanje i klasifikaciju naziva na hrvatskim tekstovima.
  11. Izrada sustava za prepoznavanje i klasifikaciju naziva na hrvatskim tekstovima.
  12. Izrada sustava za prepoznavanje i klasifikaciju naziva na hrvatskim tekstovima.
  13. Izrada sustava za prepoznavanje i klasifikaciju naziva na hrvatskim tekstovima.
  14. Izrada sustava za prepoznavanje i klasifikaciju naziva na hrvatskim tekstovima.
  15. Izrada sustava za prepoznavanje i klasifikaciju naziva na hrvatskim tekstovima.

Ishodi učenja

  1. Definirati prepoznavanje i klasifikacija obavijesti u kontekstu lingvistike i računalne lingvistike.
  2. Identificirati temeljne nosioce obavijesti u tekstu prema konvencionalnoj specifikaciji.
  3. Kritički prosuđivati o području crpljenja obavijesti iz različitih perspektiva lingvistike i računalne znanosti.
  4. Opisati razliku između sustava za prepoznavanje i klasifikaciju naziva zasnovanih na pravilima i sustava zasnovanih na strojnom učenju.
  5. Kritički proširiti poimanje naziva koji mogu biti od osobitog značaja istraživaču ovisno o području koje se istražuje.
  6. Odrediti strategije i usvojiti metodologiju za izradu gramatika za prepoznavanje i klasifikaciju naziva.
  7. Samostalno izraditi pravila za prepoznavanje i klasifikaciju naziva koristeći postojeći lingvistički alat.
  8. Vrjednovati izrađena pravila na samostalno prikupljenom korpusu za evaluaciju.

Metode podučavanja

Teorijski dio nastave izvodi se u računalnoj učionici. Svaka teorijska cjelina popraćena je konkretnim primjerima koji se prikazuju na računalu. U drugom dijelu nastave svaki student dobiva specifičan zadatak kojeg izvodi na računalu uz nadzor nastavnika. Kvaliteta izrađenog zadatka se ocjenjuje.

Metode ocjenjivanja

Svaki student dobiva ocjenu iz pismenog ispita. Također se ocjenjuje konkretni izrađeni zadatak. Konačna ocjena je prosjek dviju navedenih ocjena. Također je svakom studentu omogućeno polaganje ispita usmenim putem.

Obavezna literatura

  1. Grishman, Ralph (2003), Information Extraction, Handbook of Computational Linguistics, urednik Ruslan Mitkov, poglavlje 27
  2. Gross, Maurice (1997), The Construction of Local Grammars, Finite State Devices for Natural Language Processing, (urednici: Roche, E.; Schabes, Y.), MIT Press, Cambridge, MA, str. 329–354
  3. Hobbs, Jerry R.; Douglas E. Appelt; John Bear; David Israel; Megumi Kameyama; Mark Stickel; Mabry Tyson (1997), FASTUS: A cascaded finite-state transducer for extracting information from natural language text, Finite State Devices for Natural Language Processing, (urednici: Roche, E.; Schabes, Y.), MIT Press, Cambridge, MA, str. 383–406
  4. Silberztein, Max (2000), INTEX Manual. ASSTRIL, Pariz

Dopunska literatura

  1. McDonald, David (1996), Internal and external evidence in the identification and semantic categorization of proper names, Corpus Processing for Lexical Acquisition, poglavlje 2, urednici: Boguraev; Pustejovsky, The MIT Press, Cambridge, MA, str. 21–39.
  2. Friburger, Nathalie; Maurel, Denis (2004), Finite-state transducer cascades to extract named entities in texts, Theoretical Computer Science, Vol. 313, Issue 1, str. 93–104