Konferenca Jezikovne tehnologije in digitalna humanistika 2022

Konferenca Jezikovne tehnologije in digitalna humanistika 2022 Ana Cvek 2022-10-27 Inštitut za novejšo zgodovino Institute of Contemporary History

Privoz 11 SI-1000 Ljubljana

http://ojs.inz.si/pnz/article/view/4067 2022 http://creativecommons.org/licenses/by-nc-nd/4.0/ Prispevki za novejšo zgodovino Contributions to Contemporary History 62 3 2463-7807

No source, born digital.

Contributions to Contemporary History is one of the central Slovenian scientific historiographic journals, dedicated to publishing articles from the field of contemporary history (the 19th and 20th century).

The journal is published three times per year in Slovenian and in the following foreign languages: English, German, Serbian, Croatian, Bosnian, Italian, Slovak and Czech. The articles are all published with abstracts in English and Slovenian as well as summaries in English.

Prispevki za novejšo zgodovino je ena osrednjih slovenskih znanstvenih zgodovinopisnih revij, ki objavlja teme s področja novejše zgodovine (19. in 20. stoletje).

Revija izide trikrat letno v slovenskem jeziku in v naslednjih tujih jezikih: angleščina, nemščina, srbščina, hrvaščina, bosanščina, italijanščina, slovaščina in češčina. Članki izhajajo z izvlečki v angleščini in slovenščini ter povzetki v angleščini.

2022-11-02T08:13:04Z Mihael Ojsteršek Pretvorba iz DOCX v TEI, dodatno kodiranje Ana Cvek

15. in 16. septembra je potekala že trinajsta konferenca Jezikovne tehnologije in digitalna humanistika, ki jo vsaki dve leti organizira Slovensko društvo za jezikovne tehnologije (SDJT) v sodelovanju z Inštitutom za novejšo zgodovino, Centrom za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT), ter raziskovalni infrastrukturi CLARIN.SI in DARIAH-SI. Konferenca, ki ima že več kot dvajsetletno tradicijo, je postala pomembna vez med področjem jezikovnih tehnologij in digitalno humanistiko ter je tudi letos predstavljala multidisciplinarni dogodek od razširitve programa konference na področje digitalne humanistike leta 2016.

Poleg osrednjega dela konference sta v sredo, 14. septembra, v okviru konference JTDH 2022 na Inštitutu za novejšo zgodovino potekala tudi predkonferenčna seminarja. Prvo delavnico o tematskem modeliranju parlamentarnih razprav je izvedla Ajda Pretnar Žagar, drugi seminar o raziskovalni infrastrukturi CLARIN.SI pa sta prevzela Kristina Pahor de Maiti in Jakob Lenardič.

Letošnja konferenca se je odvijala na Fakulteti za družbene vede Univerze v Ljubljani. V dveh dneh so svoje prispevke predstavili vabljeni predavatelji in avtorji sprejetih prispevkov, ker pa je bila konferenca mednarodna, je bil program razdeljen na sekcije v slovenskem in angleškem jeziku. Zvrstile so se slovenska in angleška študentska sekcija, dve slovenski in tri angleške redne sekcije ter angleška in slovenska poster sekcija, tako za redne kot za študentske prispevke.

Prvi dan se je konferenca pričela z uradno otvoritvijo, kmalu za tem pa sta na študentski sekciji svoje prispevke predstavila David Bordon, ki je govoril o tem, kako ljudje razumemo jezik sodobnih strojnih prevajalnikov, ter Špela Antloga s prispevkom Korpusni pristopi za identifikacijo metafore in metonimije: primer metonimije v korpusu g-KOMET. Sledilo je predavanje vabljenega predavatelja Eetuja Mäkeläja, ki je predstavil, kako najbolje oblikovati računalniške sisteme za podporo humanistiki in družboslovju v namen znanstvenih raziskav. Po vabljenem predavanju sta potekali vzporedni sekciji v slovenskem in angleškem jeziku. Na slovenski sekciji je bilo predstavljenih šest prispevkov. O metodah, vsebini in kategorizaciji besedil v spremljevalnem korpusu Trendi so govorili Iztok Kosem, Jaka Čibej, Kaja Dobrovoljc in Nikola Ljubešić. Eva Pori, Jaka Čibej, Tina Munda, Luka Terčon in Špela Arhar Holdt so se predstavili s prispevkom o lematizaciji in oblikoskladenjskem označevanju korpusa SentiCoref, o nadgradnji smernic, učnih podatkov in razčlenjevalnega modela na primeru Universal Dependencies za slovenščino pa so govorili Kaja Dobrovoljc, Luka Terčon in Nikola Ljubešić. Na sekciji so sodelovali tudi Darinka Verdonik, Andreja Bizjak, Andrej Žgank in Simon Dobrišek s prispevkom o metapodatkih pri posnetkih in govorcih v govornih virih na primeru baze Artur. S prispevkom Primerjava načinov razcepljanja besed v strojnem prevajanju slovenščina-angleščina sta se predstavila Gregor Donaj in Mirjam Sepesy Maučec, sekcija pa se je zaključila s predstavitvijo raziskovalne infrastrukture CLARIN.SI avtorjev Tomaža Erjavca, Kaje Dobrovoljc, Darje Fišer, Jana Jone Javorška, Simona Kreka, Taje Kuzman, Cypriana Laskowskega, Nikole Ljubešića in Katje Meden.

Vzporedno sekcijo v angleškem jeziku sta otvorila Jakob Lenardič in Kristina Pahor de Maiti s prispevkom Slovenian Epistemic and Deontic Modals in Socially Unacceptable Discourse Online. Jure Skubic in Darja Fišer sta predstavila prispevek na temo zgodovinopisja, govorila sta o metodah tekstualnih analiz in primerjala skupne značilnosti ter razlike v pristopih, uveljavljenih v zgodovinopisju, s pristopi, ki temeljijo na korpusu. To naj bi omogočalo boljše razumevanje zgodovinske analize parlamentarnega diskurza ter poudarilo pomen projekta ParlaMint in integracije parlamentarnih korpusov v zgodovinske raziskave. O parlamentarnem diskurzu sta spregovorila tudi Nikola Ljubešić in Peter Rupnik. Pri angleški sekciji so s svojim prispevkom o obogatitvi dokumentov kot orodju za avtomatizirano kodiranje intervjujev sodelovali tudi Ajda Pretnar Žagar, Nikola Đukić in Rajko Muršič, sekcijo pa so zaključile Marta Petrak, Mia Uremović in Bogdanka Pavelin Lešić s prispevkom Fine-grained human evaluation of NMT applied to literary text: case study of a French-to-Croatian translation.

Po rednih sekcijah je potekala predstavitev plakatov ob kavi. Predstavljene so bile štiri vsebine na temo jezikovih tehnologij in digitalne humanistike. Jasna Cindrič, Lara Kuhelj, Sara Sever, Živa Simonišek in Miha Šemen so tako govorili o zbiranju podatkov in definicijskih opombah za ekstrakcijo semantičnih relacij, Branko Žitko, Lucija Bročić, Angelina Gašpar, Ani Grubišić, Daniel Vasić in Ines Šarić-Grgić pa so predstavili prispevek z naslovom Automatic Predicate Sense Disambiguation Using Syntactic and Semantic Features. Katja Meden je govorila o analiziranju parlamentarnih razprav s pristopi uporabe leksikonov, Petra Matović in Katarina Radić pa sta na sekciji predstavili poster na temo digitalne filologije in poučevanja klasičnih jezikov na Hrvaškem.

Tudi zadnja sekcija prvega dneva konference je bila razdeljena na dva dela: slovenskega in angleškega. Slovenska sekcija, kjer je bilo predstavljenih šest prispevkov, se je začela s predstavitvijo prispevka o sovražnem govoru in grobem besedišču v odzivnem Slovarju sopomenk sodobne slovenščine, ki so ga pripravili Špela Arhar Holdt, Polona Gantar, Iztok Kosema, Eva Pori, Nataša Logar Berginc, Vojko Gorjanc in Simon Krek. Na temo slovarjev je bil predstavljen še prispevek z naslovom Raba kolokacijskega slovarja sodobne slovenščine pri prevajanju kolokacij avtorjev Martina Antona Grada in Nataše Hirci. O gradnji Korpusa študentskih besedil KOŠ sta na sekciji govorili Tadeja Rozman in Špela Arhar Holdt; kako v praksi uporabiti Europeanin podatkovni model (EDM), pa sta na primeru digitalizacije Skuškove zbirke iz Slovenskega etnografskega muzeja v okviru projekta PAGODE-Europeana China predstavili Maja Veselič in Dunja Zorman. Matija Marolt, Mark Žakelj, Alenka Kavčič in Matevž Pesek so predstavili proces poravnave zvočnih posnetkov s transkripcijami narečnega govora in petja, sekcija pa se je zaključila s predstavitvijo zadnjih napredkov pri samodejni slovenski grafemsko-fonemski pretvorbi, ki so jo pripravili Janez Križaj, Simon Dobrišek, Aleš Mihelič in Jerneja Žganec Gros.

Na vzporedni angleški sekciji je bilo prav tako predstavljenih šest prispevkov. Thi Hong Hanh Tran, Matej Martinc, Andraz Repar, Antoine Doucet in Senja Pollak so v prispevku A Transformer-based Sequence-labeling Approach to the Slovenian Cross-domain Automatic Term Extraction govorili o pristopu k označevanju zaporedja. Michal Mochtak, Peter Rupnik in Nikola Ljubešić so predstavili nabor podatkov ParlaSent-BCS o parlamentarnih razpravah, o avtomatični analizi besedila pri ocenjevanju jezika na primeru spletne aplikacije MultiDis pa so govorili Sara Košutar, Dario Karl, Matea Kramarić in Gordana Hržica. Primerjalno študijo o različnih sistemih za pridobivanje ključnih besed so predstavili Boshko Koloski, Senja Pollak in Matej Martinc, na zadnji predstavitvi prvega dne konference pa sta Andrejka Žejn in Mojca Šorli govorili o anotacijah entitet na primeru korpusa May68.

Drugi dan konference se je začel s študentsko sekcijo, ki je potekala v angleškem jeziku. Sekcijo sta otvorili Ruzica Farmakovski in Natalija Tomic s prispevkom na temo srbske in hrvaške spletne enciklopedije – Wikipedie. Meta Jazbinšek, Teja Hadalin, Sara Sever, Erika Stanković in Eva Boneš so predstavile nevronski prevajalski model, specializiran za prevajanje angleških govorov TED (angl. TED Talks) v slovenščino, o pripravi korpusa in sistema odgovorov na vprašanja za slovenščino pa so govorili Uroš Šmajdek, Maj Zirkelbach, Matjaž Zupanič in Meta Jazbinšek. Zadnji prispevek na študentski sekciji je predstavil Tvrtko Balić, ki je govoril o CCRU (Cybernetic Culture Research Unit) kot poskusu delovanja filozofije v digitalnem svetu.

Sledilo je predavanje vabljenega predavatelja Benoîta Sagota z naslovom Large-scale language models: challenges and perspective. Predavanje je potekalo na temo razvoja večjezičnega korpusa OSCAR in znanja, pridobljenega med izpopolnjevanjem francoskega jezikovnega modela CamemBERT, prvega obsežnega enojezičnega modela za jezik, ki ni angleščina. Po vabljenem predavanju je potekala redna sekcija v angleškem jeziku s petimi prispevki. Taja Kuzman, Nikola Ljubešić in Senja Pollak so predstavili prispevek z naslovom Assessing Comparability of Genre Datasets via Cross-Lingual and Cross-Dataset Experiments, o vrednotenju strojnih prevodov sta govorila Špela Vintar in Andraz Repar. Aleksandar Petrovski je predstavil dvojezični angleško-ukrajinski leksikon poimenovanih entitet, izvlečen iz Wikipedije, o populističnem in nepopulističnem diskurzu v slovenskem parlamentu od leta 1992 do leta 2018 pa so govorili Darja Fišer, Tjaša Konovšek in Andrej Pančur. Sekcijo je zaključila Petra Bago s predstavitvijo prispevka Progress of the RETROGRAM Project: Developing a TEI-like Model for Pre-standard Croatian Grammars.

Sledila je še zadnja sekcija predstavitev – predstavitve plakatov. Predstavili so se Tina Mozetič, Miha Sever, Martin Justin in Jasmina Pegan s temo evalvacijske kategorizacije strojno izluščenih protipomenskih parov; Nina Sangawa Hmeljak, Anna Sangawa Hmeljak in Jan Hrastnik so predstavili aplikacijo Ilukana za učenje japonskih zlogovnih pisav hiragana in katakana s pomočjo asociacij; o šahovski terminološki bazi so govorili Vili Grdič, Kaja Perme, Lea Turšič in Alja Križanec. Lucija Gril, Simon Dobrišek in Andrej Žgank so predstavili plakat z naslovom Akustično modeliranje z različnimi osnovnimi enotami za avtomatsko razpoznavanje slovenskega govora, Saša Babič in Tomaž Erjavec pa sta predstavila izdelavo in analizo digitalizirane zbirke paremioloških enot. Na sekciji je sodelovala tudi Magdalena Gapsa, ki je govorila o ocenjevanju uporabniško dodanih sopomenk v Slovarju sopomenk sodobne slovenščine.

Sledila sta podelitev nagrade najboljšemu študentskemu prispevku, ki jo je prejel David Bordon za svoj prispevek Govoriš nevronsko? Kako ljudje razumemo jezik sodobnih strojnih prevajalnikov, in zaključek konference. Po uradnem zaključku je sledila še posebna sekcija, kjer so bili predstavljeni dosedanji rezultati projekta Razvoj slovenščine v digitalnem okolju, konferenca JTDH 2022 pa se je uspešno zaključila z rednim letnim občnim zborom Slovenskega društva za jezikovne tehnologije.