Strojno prevođenje
ISVU: 52647•6 ECTS•Zimski semestar
Osnovne informacije
- Organizacijska jedinica
- Odsjek za informacijske i komunikacijske znanosti
- Satnica
- Predavanja: 30 sati
- Seminar: 30 sati
Nastavnici
Cilj
Cilj kolegija je stjecane kompetencija vezanih uz izradu i primjenu sustava za automatsko strojno prevođenje u cilju prijenosa informacija, u okviru suvremenih disruptivnih tehnologija. eorijski dio odnosi se na arhitekturu i evaluaciju sustava za strojno prevođenje, metode evaluacije, na ulogu paralelnih korpusa i na višejezični informacijski sustav u EU. Analizirat će se primjena automatskog strojnog prevođenja i drugih jezičnih tehnologija (sustavi za prepoznavanje govora, agenti za razgovor) u konkretnim situacijama. Praktičan rad obuhvaća prikupljanje i pripremu podataka za izgradnju sustava za strojno prevođenje, ljudsku i automatsku evaluaciju i analizu primjene jezičnih tehnologija kroz integraciju različitih disruptivnih jezičnih tehnologija u konkretnim situacijama poslovanja, obrazovanja i svakodnevne upotrebe.
Sadržaj
- Uvodno predavanje. Tehnologija i društvo. Uloga umjetne inteligencije. Jezične tehnologije u društvu.
- Disruptivne tehnologije: karakteristike, razvoj, analiza. Odnos: umjetna inteligencija, strojno učenje, duboko učenje.
- Generativna umjetna inteligencija: karakteristike, analiza i primjena. GenUI u umjetnosti.
- Veliki jezični modeli (Large Language Models - LLMs). Temeljni modeli (Foundation Models) za generiranje sadržaja. Botovi (ChatGPT i dr.).
- Jezično modeliranje temeljeno na podacima. Objašnjiva umjetna inteligencija. Pristranost.
- Povijesni razvoj – od prve primjene do suvremenih rješenja sustava za strojno prevođenje.
- Arhitektura sustava za strojno prevođenje. Strojno prevođenje temeljeno na pravilima (RBMT). Statističko strojno prevođenje (SMT). Neuronske mreže. Neuronsko strojno prevođenje (NMT).
- Primjena umjetne inteligencije u stvaranju sadržaja. Jeične tehnologije. Analiza i usporedba izvora na internetu: chatbotovi, online alati.
- Priprema podataka za izradu sustava za strojno prevođenje. Paralelni korpusi: identifikacija, karakteristike. Vrste podataka i analiza resursa potrebnih za izgradnju automatskog sustava za strojno prevođenje. Stupnjevi automatizacije.
- Izgradnja sustava za strojno prevođenje: prikupljanje resursa, pretprocesiranje. Mogućnosti integracije strojnog prevođenja u digitalno okruženje.
- Agenti za razgovor - analiza i primjena.
- Automatsko strojno prevođenje u multimediji. Sustavi za prepoznavanje govora i evaluacija. Alati jezičnih tehnologija u EU.
- Faze evaluacije sustava za strojno prevođenje. Metrike za evaluaciju. Ljudska evaluacija sustava: kriteriji, skale. Višediomenzionalna metrika (MQM).
- Metrike za automatsku evaluaciju sustava za strojno prevođenje: BLEU, NIST, WER, PER, preciznost, odziv, F-mjera.
- Evaluacija vlastitog sustava. Kritička analiza, evaluacija, mogućnosti primjene i ograničenja. Indeksi za procjenu digitalnoj razvoja i razvoja umjetne inteligencije.
Ishodi učenja
- Osposobiti studente za usvajanje znanja iz područja strojnog prevođenja, disruptivnih i jezičnih tehnologija, arhitekture sustava za strojno prevođenje, vrste podataka i metodologije evaluacije
- Osposobiti studente stjecanju znanja i vještina vezanih uz primjenu, izgradnju i ulogu paralelnih korpusa u strojnom prevođenju
- Osposobiti studente za osmišljavanje primjene i provođenje evaluacije sustava za strojno prevođenje i srodnih jezičnih tehnologija
- Osposobiti studente za osmišljavanje, izgradnju i kritičku evaluaciju vlastitog modela sustava za strojno prevođenje sukladno potrebama korisnika, provesti evaluaciju i interpretaciju rezultata
Metode podučavanja
Metode poučavanja: klasično i primjenom sustava za e-učenje
- Predavanja – teorijski dio
- Vježbe – kroz samostalne zadatke
- Seminar – kroz samostalni ili timski rad
Metode ocjenjivanja
Konačna ocjena čini ukupnost znanja i ispunjenih obaveza tijekom nastavnog razdoblja, a stječe se prikupljanjem bodova kroz izvršene praktične zadatake (samostali rad), projekti zadatak kroz timski rad (istraživanje, prezentacija, izlaganje) i pismeni ispit.
Obavezna literatura
- Bijimol T.K., Abraham J. T. A Study of Machine Translation Methods. LAP LAMBERT Academic Publishing, 2018.
- Wang, P., Swyer, D. B., Machine Learning in Translation. Routledge, 2023.
- European Commission, Directorate-General for Translation, Translation tools and workflow, Publications Office, 2017.
- Study Report on Disruptive Technologies. (2022) World customs organization. https://www.wto.org/english/res_e/booksp_e/wco-wto_e.pdf
- Seljan, S., Dunđer, I. (2014). Combined Automatic Speech Recognition and Machine Translation in Business Correspondence Domain for English-Croatian. Journal of Computer, Information, Systems and Control Engineering 8 (11), 1069.
- Seljan, S.; Gašpar, A. Primjena prevoditeljskih alata u EU i potreba za hrvatskim tehnologijama. Zagreb : HDPL, 2009, 617-625.
- Kučiš, V.; Seljan, S.; Klasnić, K. Evaluation of Electronic Translation Tools Through Quality Parameters // INFuture2009 - Digital Resources and Knowledge Sharing . Zagreb : Odsjek za informacijske znanosti, 2009, 341-351
- Seljan, S.; Dunđer, I. Machine Translation and Automatic Evaluation of English/Russian-Croatian, 2015. 72-79
- Seljan, S.; Tucaković, M.; Dunđer, I. Human Evaluation of Online Machine Translation Services for English/Russian-Croatian. Springer. 353, 2015.
- Seljan, S.; Dunđer, I.; Pavlovski, M. (2020) Human quality evaluation of machine-translated poetry // 2020 43rd International Convention on Information, Communication and Electronic Technology (MIPRO): proceedings, 1040-1045 doi:10.23919/MIPRO48935.2020
- Dunđer, I. Seljan, S.; Pavlovski, M. (2020). Automatic machine translation of poetry and a low-resource language pair // 2020 43rd International Convention on Information, Communication and Electronic Technology (MIPRO): proceedings, 1034-1039 doi:10.23919/MIPRO48935
- Dunder, I., Seljan, S., Pavlovski, M. (2021) What Makes Machine-Translated Poetry Look Bad? A Human Error Classification Analysis. Central European Conference on Information and Intelligent Systems (CECIIS), 183-191
- Gupta, A., Hathwar, D., Vijayakumar, A. (2020). Introduction to AI Chatbots. International Journal of Engineering Research & Technology 9 (7) (IJERT) https://www.ijert.org/introduction-to-ai-chatbots
- Dovedan, Z.; Seljan, S.; Vučković, K. Strojno prevođenje kao pomoć u procesu komunikacije. Str. 283-291. Informatologia 35 (4), 2002, 283-291
Dopunska literatura
- Seljan, S. (ed.) (2021) Special Issue On Disruptive Technologies Changing Business and Communication. International Journal of E-Services and Mobile Applications (IJESMA) 13 (4). IGI-Global ISSN: 1941-627X eISSN 1941-6288
- TAUS Translation Technology Landscape, 2020.
- Jaworski, R., Seljan, S., Dunđer, I. (2023). Four Million Segments and Counting: Building an English-Croatian Parallel Corpus through Crowdsourcing Using a Novel Gamification-Based Platform. Information 14 (4), 226
- Görög, A. Quantifying and benchmarking quality: the TAUS Dynamic Quality Framework, 2014.
- Seljan, S.; Brkić, M.; Kučiš, V. Evaluation of Free Online Machine Translations for Croatian-English and English-Croatian Language Pairs, 2011.
- Brkić, M.; Seljan, S.; Matetić, M. Machine Translation Evaluation for Croatian-English and English-Croatian Language Pairs // NLPCS Workshop: Human-Machine Interaction in Translation / Sharp, Bernardette ; Zock, Michael ; Carl, Michael ; Jakobsen, Arnt Lykke (ur.). Copenhagen : Copenhagen Business School, 2011. 93-104
- Seljan, S.. Sublanguage in Machine Translation. Proceedings of 23rd International Convention MIRO 2000: Computers in Intelligent Systems CIS + CTS . Str.17-20. Rijeka: Liniavera, 2000.
- Seljan, S. Hrvatski jezik i računalno prevođenje: Hrvatski online. InfoTrend.hr - onLINE, 2014.