Računalna analiza teksta i podataka
ISVU: 181265•5 ECTS•Zimski i ljetni semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za informacijske i komunikacijske znanosti
- Satnica
- Predavanja: 15 sati
- Seminar: 15 sati
- Vježbe u praktikumu: 15 sati
Nastavnici
Cilj
Cilj predmeta jest razumijevanje podataka, proces, algoritama i aplikacija u analizi velikih količina podataka (eng. Big Data) u cilju stvaranja novoga znanja. Primijenit će se jezično ovisni i statistički modeli za dubinsku analizu teksta, provesti računalno obilježavanje i analiza podataka. Obrada teksta će se provesti i primjenom programskog jezika Python. Analiza strukturiranih podataka će se izvršiti primjenom programskog jezika R ili odgovarajućeg softvera za analizu podataka. Postupak analitike završava vizualizacijom podataka i analizom moguće primjene u konkretnim situacijama.
Sadržaj
- Uvodno predavanje. Računalna obrada jezika (eng. Natural Language Processing) i primjena.
- Big Data - obilježja, uloga, analiza vrste podataka, kvaliteta podataka. Rad u programskom jeziku R. Vrste podataka. Učitavanje podataka, klase, pretvorba tipova podataka. Vektorske funkcije.
- KorpusI: vrste i uloga korpusa. Korpusi jednojezični i dvojezični/ višejezični. Funkcije za rad sa stringovima u programskom jeziku R. Tokenizacija korpusa. Unigrami. Zaustavne riječi.
- Dubinska analiza teksta. Dohvaćanje leksikona. Pristup djelima javne domene. Vizualizacija informacija nad korpusom u programskom jeziku R.
- Regularni izrazi nad korpusom. Pretraživanje korpusa.
- Analiza društvenih mreža. Računalna reprezentacija. Struktura mreže. Vrste grafova: usmjereni, neusmjereni, mještoviti. Rad u odabranom programskom alatu. Instalacija, upoznavanje sa sučeljem, osnovne funkcije. Putanja. Gustoća grafa.
- Matrica susjedstava i lista susjedstava. Težinski graf. Informacijske mjere - mjere centralnosti. Ulazna i izlazna centralnost, centralnost blizine, stupanj međučpovezanosti. Rad na vlastitim podacima primjenom odabranog alata za analizu mreže.
- Informacijske mjere: Eigenvektor centralnost, Page rank. Primjena analize društvenih mreža u konkretnin situavijama. Rad na javno dostupnim podacima primjenom odabranog alata.
- Programski jezik Python. Analiza značajki tekstualnih podatkovnih skupova (korpusa) i njihova primjena u računalnoj analizi i obradi jezika; analiza procesa opojavničenja tekstualnog podatkovnog skupa (korpusa), tj. procesa svođenja na manje sastavne dijelove (tokene) primjenom skripnog jezika Python.
- Programski jezik Python. Analiza procesa korjenovanja (lematizacije), analiza utjecaja visokofrekventnih unigrama na generiranje šuma te evaluacija mogućnosti eliminacije generiranog šuma primjenom skripnog jezika Python.
- Programski jezik Python. Analiza mogućnosti primjene računalne leksičko-semantičke mreže i ekstrakcije podataka.
- Analiza procesa razdjeljivanja tekstualnog podatkovnog skupa (korpusa), tj. procesa pronalaženja osnovnih gradivnih elemenata rečenica primjenom skripnog jezika Python. Vizualizacija.
- Primjena skriptnog jezika u pretraživanju podataka. Analiza procesa POS označavanja tekstualnog podatkovnog skupa primjenom skripnog jezika Python.
- Projektni rad: samostalno istraživanje nad prikupljenim podacima primjenom odabranog programskog jezika ili alata.
- Projektni rad: Samostalno istraživanje nad prikupljenim korpusom primjenom odabranog programskog jezika ili alata. Analiza rezultata i interpretacija. Uočavanje trendova i osmišljavanje moguće primjene u širem kontekstu.
Ishodi učenja
- Objasniti pojmove vezane uz računalnu analizu teksta i podataka: uloga velikih količina podataka u stvaranju novoga znanja, primjene računalne obrade jezika, uloga, vrste i strauktura korpusa kao izvora informacija, informacijske mjere i struktura društvene mreže, dubinska analiza teksta.
- Primijeniti tehnike i alate za dohvaćanje, analizu korpusa, analizu društvenih mreža i vizualizaciju podataka.
- Konstruirati algoritme u skriptnom jeziku (Python, R)
- Identificirati relevantne strukturirane i nestrukturirane podatke kao izvore informacija radi donošenje informiranih odluka.
- Usporediti alate i metode za vizualizaciju podataka, interpretirati i vrednovati rezultate obrade i vizualizacije podataka
- Sintetizirati rezultate istraživanja u procesu ekstrakcije informacija od velikih količina podataka do stvaranja novoga znanja
Metode podučavanja
Predavanja, samostalne vježbe/ laboratorijske vježbe, projektni rad, e-učenje.
Metode ocjenjivanja
Konačnu ocjena čini ukupnost bodova stečenih kroz pismenu provjeru znanja, izvršenih zadataka i izvršenog projektog zadatka (istraživanje, prezentacija, izlaganje).
Obavezna literatura
- Provost, F.; Fawcett, T. Data Science for Business: What you need to know about data minig and data-analytic thinking, 2013.
- Maindonald, J. H. Using R for Data Analysis and Graphics Introduction, Code and Commentary, 2008.
- Paradis, Emmanuel. R for Beginners, 2005.
- Pejic-Bach, M., Krstic, Z., Seljan, S., Turulija, L. Text Mining for Big Data Analysis in Financial Sector, 2019.
- Marrara, S., Pejic-Bach, M., Seljan, S., Topalovic, A. FinTech and SMEs - The Italian Case. FinTech as a Disruptive Technology for Financial Institutions, IGI-Global, 2019.
- Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit. O'Reilly Media, 2009
- Python https://www.python.org/
- Krstić, Ž.; Seljan, S.; Zoroja, J. Visualization of big data text analytics in financial industry: a case study of topic extraction for Italian banks // Proceedings of the ENTRENOVA , 2019. str. 67-75
Dopunska literatura
- Zhai, ChengXiang. Statistical Language Models for Information Retrieval A Critical Review. Foundations and Trends, Information Retrieval, Vol. 2, No. 3 (2008) 137–213
- Covington, D. Analytics. Data Science, Data Analysis and Predictive Analytics for Business. 5th ed.
- Gašpar, A.; Seljan, S. Consistency of Translated Terminology Measured by the Herfindahl-Hirshman Index (HHI). // Lecture Notes in Computer Science (LNCS). (2016)
- Tsvetovat, M.; Kouznetsov, A. Social Network Analysis for Startups, O'Reilly, 2011
- Seljan, S.; Stančić, H.; Dunđer, I. Extracting Terminology by Language Independent Methods. Forum Translationswissenschaft. Translation Studies and Translation Practice. Peter Lang GmbH, 2017. Str. 141-147
- Dunđer, I.; Pavlovski, M.; Seljan, S. Computational analysis of a literary work in the context of its spatiality // Trends and innovations in information systems and technologies: vol.1, Springer, 2020. str. 252-26