Uporaba oblikoslovnega leksikona pri polavtomatskem pristopu k popravljanju lem in oblikoskladenjskih oznak
DOI:
https://doi.org/10.51663/pnz.65.3.06Ključne besede:
lematizacija, oblikoskladenjsko označevanje, učni korpusi, oblikoslovni leksikon, označevanje korpusovPovzetek
V prispevku predstavljamo nov polavtomatski pristop k popravljanju lem in oblikoskladenjskih oznak. Za razliko od predhodnih pristopov k ročnemu označevanju slovenskih korpusov nova metoda vsebuje dodaten korak, v katerem pojavnice ter njihove strojno pripisane leme in oblikoskladenjske oznake navzkrižno primerjamo z naborom oblik v Slovenskem oblikoslovnem leksikonu Sloleks. Na podlagi primerjave vsako pojavnico uvrstimo v enega od označevalnih scenarijev. Novi pristop občutno zmanjša količino časa in sredstev, ki jih je treba vložiti v označevanje, tako da odstrani veliko število odvečnih označevalnih nalog. Med prednostmi te metode je tudi možnost, da označevalne naloge razdelimo v sklope s podobnimi označevalnimi problemi (npr. razločevanje slovničnih enakopisnic). Ob ustrezni pripravi podatkov lahko metoda tudi drastično zmanjša potrebo po tem, da se označevalci seznanijo z obširnim označevalnim sistemom Multext-East za slovenščino, kar je v sorodnih označevalnih kampanjah predstavljalo ozko grlo. Metodo smo preizkusili med označevanjem Učnega korpusa govorjene slovenščine ROG. Algoritem pripisovanja označevalnih scenarijev preizkusimo tudi na Učnem korpusu pisne slovenščine SUK, ki je bil označen s tradicionalnim označevalnim pristopom (poved za povedjo, pojavnica za pojavnico). Predstavimo rezultate primerjave in zagovarjamo, da bi bilo metodo treba uporabiti pri prihodnjih označevalnih kampanjah, da z njo prihranimo čas in stroške ter nasploh izboljšamo doslednost označevanja, pri čemer razpravljamo tudi o nekaterih slabostih in pasteh predlaganega pristopa.
Literatura
Arhar Holdt, Špela, Jaka Čibej, Kaja Dobrovoljc, Tomaž Erjavec, Polona Gantar, Simon Krek, … Slavko Žitnik. "Nadgradnja učnega korpusa ssj550k v SUK 1.0." Razvoj slovenščine v digitalnem okolju (2023): 119–156.
Arhar Holdt, Špela, Simon Krek, Kaja Dobrovoljc, Tomaž Erjavec, Polona Gantar, Jaka Čibej … Anja Zajc. "Training corpus SUK 1.1". Slovenian language resource repository CLARIN.SI, ISSN 2820-4042 (2024) http://hdl.handle.net/11356/1959
Čibej, Jaka and Tina Munda. "Metoda polavtomatskega popravljanja lem in oblikoskladenjskih oznak na primeru učnega korpusa govorjene slovenščine ROG." Language technologies and digital humanities: proceedings of the conference: 19-20 September 2024, Ljubljana, Slovenia. (2024): 66–86. https://www.sdjt.si/wp/wp-content/uploads/2024/09/JT-DH_2024_Cibej_Munda.pdf
Čibej, Jaka, Darja Fišer and Tomaž Erjavec. Normalisation, Tokenisation and Sentence Segmentation of Slovene Tweets. Normalisation and Analysis of Social Media Texts (NORMSOME) – LREC 2016 (2016): 5–10. Portorož, Slovenia. http://www.lrec-conf.org/proceedings/lrec2016/workshops/LREC2016Workshop-NormSoMe_Proceedings.pdf#page=10
Čibej, Jaka, Kaja Gantar, Kaja Dobrovoljc, Simon Krek, Peter Holozan, Tomaž Erjavec, … Marko Robnik-Šikonja. "Morphological lexicon Sloleks 3.0." Slovenian language resource repository CLARIN.SI (2022) http://hdl.handle.net/11356/1745
Čibej, Jaka, Špela Arhar Holdt, Darja Fišer and Tomaž Erjavec. Ročno označeni korpusi JANES za učenje jezikovnotehnoloških orodij in jezikoslovne raziskave. Viri, orodja in metode za analizo spletne slovenščine (2018): 44–73. https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/111/203/2416
Dobrovoljc, Kaja and Joakim Nivre. "The Universal Dependencies Treebank of Spoken Slovenian." Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16). Portorož, Slovenia: European Language Resources Association (ELRA). (2016): 1566–1573. https://aclanthology.org/L16-1248
Dobrovoljc, Kaja. "Skladenjska drevesnica govorjene slovenščine: stanje in perspektive." Stanje in perspektive uporabe govornih virov v raziskavah govora. (2024): 41–62.
Eckart de Castilho, Richard, Éva Mújdricza-Maydt, Seid Muhie Yimam, Silvana Hartmann, Iryna Gurevych, Anette Frank and Chris Biemann. "A Web-based Tool for the Integrated Annotation of Semantic and Syntactic Structures." Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH). Osaka, Japan: The COLING 2016 Organizing Committee (2016): 76–84. https://www.aclweb.org/anthology/W16-4011
Erjavec, Tomaž, Darja Fišer, Jaka Čibej and Špela Arhar Holdt. "CMC training corpus JANES-Norm 1.2." Slovenian language resource repository CLARIN.SI. (2016a) http://hdl.handle.net/11356/1084
Erjavec, Tomaž, Darja Fišer, Jaka Čibej and Špela Arhar Holdt. "CMC training corpus JANES-Tag 1.1." Slovenian language resource repository CLARIN.SI. (2016b). http://hdl.handle.net/11356/1081
Fišer, Darja, Nikola Ljubešić and Tomaž Erjavec. "The JANES Project: Language Resources and Tools for Slovene User-Generated Content." Language Resources Evaluation, 54, (2020): 223–246. https://doi.org/10.1007/s10579-018-9425-z
Kosem, Iztok, Simon Krek and Polona Gantar. "Semantic data should no longer exist in isolation: the digital dictionary database of Slovenian." Proceedings of the XIX EURALEX International Congress: Lexicography for Inclusion. Komotini: SynMorPhoSe Lab, Democritus University of Thrace. (2021): 81–83. https://elex.is/wp-content/uploads/2021/09/Semantic-Data-should-no-longer-exist-in-isolation-the-Digital-Dictionary-Database-of-Slovenian_Kosem-Krek-Gantar_EURALEX2020.pdf
Ljubešić, Nikola and Kaja Dobrovoljc. "What does Neural Bring? Analysing Improvements in Morphosyntactic Annotation and Lemmatisation of Slovenian, Croatian and Serbian." Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing. Florence, Italy. Association for Computational Linguistics. (2019): 29–34. https://aclanthology.org/W19-3704/
Ljubešić, Nikola, Luka Terčon and Jaka Čibej. "The CLASSLA-Stanza model for morphosyntactic annotation of standard Slovenian 2.0". Slovenian language resource repository CLARIN.SI, ISSN 2820-4042 (2023) http://hdl.handle.net/11356/1767
Pori, Eva, Jaka Čibej, Tina Munda, Luka Terčon and Špela Arhar Holdt. "Lematizacija in oblikoskladenjsko označevanje korpusa SentiCoref." Konferenca Jezikovne tehnologije in digitalna humanistika (2022): 162–168. Ljubljana, Slovenija. https://nl.ijs.si/jtdh22/pdf/JTDH2022_Pori-et-al_Lematizacija-in-oblikoskladenjsko-oznacevanje-korpusa-SentiCoref.pdf
Terčon, Luka, Jaka Čibej and Nikola Ljubešić. "The CLASSLA-Stanza model for lemmatisation of standard Slovenian 2.0." Slovenian language resource repository CLARIN.SI, ISSN 2820-4042 (2023) http://hdl.handle.net/11356/1768
Verdonik, Darinka, Andreja Bizjak, Mirjam Sepesy Maučec, … Naum Dretnik. "ASR database ARTUR 1.0 (transcriptions)." Slovenian language resource repository CLARIN.SI (2023). http://hdl.handle.net/11356/1772
Verdonik, Darinka, Kaja Dobrovoljc, Peter Rupnik, Nikola Ljubešić, Simona Majhenič, Jaka Čibej and Thomas Schmidt. "Training corpus of spoken Slovenian ROG 1.0." Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, (2024) http://hdl.handle.net/11356/1992
Verdonik, Darinka, Nikola Ljubešić, Peter Rupnik, Kaja Dobrovoljc and Jaka Čibej. "Izbor in urejanje gradiv za učni korpus govorjene slovenščine ROG." Konferenca jezikovne tehnologije in digitalna humanistika. Ljubljana, Slovenija. (2024): 472–488.
Zwitter Vitez, Ana, Jana Zemljarič Miklavčič, Simon Krek, Marko Stabej and Tomaž Erjavec. "Spoken corpus GOS 1.1." Slovenian language resource repository CLARIN.SI. (2021) http://hdl.handle.net/11356/1438.
Zwitter Vitez, Ana, Jana Zemljarič Miklavčič, Simon Krek, Marko Stabej, Tomaž Erjavec, Darinka Verdonik, … Kaja Dobrovoljc. "Spoken corpus GOS 2.0 (transcriptions)." Slovenian language resource repository CLARIN.SI. (2023). http://hdl.handle.net/11356/1771
Prenosi
Objavljeno
Številka
Rubrika
Licenca
Avtorske pravice (c) 2025 Jaka Čibej, Tina Munda

To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.
Avtorji prispevkov, objavljenih v tej reviji, soglašajo z naslednjimi pogoji glede avtorskih pravic:
- Avtorji ohranijo avtorske pravice, reviji pa odobrijo pravico do prve objave. Delo se hkrati zaščiti z licenco za prosto uporabo avtorskih del (Creative Commons Attribution License), ki drugim osebam omogoča deljenje dela ob priznanju avtorstva in prve objave v tej reviji.
- Avtorji lahko sklenejo ločene dodatne pogodbene dogovore za neizključno distribucijo različice dela, objavljene v reviji, (npr. oddaja v institucionalni repozitorij ali objava v knjigi) z navedbo, da je bilo delo prvič objavljeno v tej reviji.
- Pred postopkom pošiljanja in med njim lahko avtorji delo objavijo v spletu (npr. v institucionalnih repozitorijih ali na svoji spletnih strani), k čemer jih tudi spodbujamo, saj lahko to prispeva k plodnim izmenjavam ter hitrejšemu in obsežnejšemu navajanju objavljenega dela (glej The Effect of Open Access).