Potencial ChatGPT pri razvoju Slovarja sopomenk sodobne slovenščine
DOI:
https://doi.org/10.51663/pnz.65.3.08Ključne besede:
digitalno slovaropisje, ChatGPT, sopomenke, besedni pomen, slovenščinaPovzetek
V raziskavi preverjamo, kako dobro se ChatGPT-4 odreže pri dveh slovaropisnih nalogah: (a) čiščenju seznama strojno pridobljenih sopomenskih kandidatov in umeščanju sopomenskega gradiva pod besedne pomene ter (b) izdelavi slovarskega gesla, vključno s pomensko členitvijo, definicijami in zgledi, na podlagi različnih vhodnih podatkov. Kot zlati standard upoštevamo slovaropisne odločitve, vključene v Digitalno slovarsko bazo za slovenščino. V prvem preizkusu analiziramo rezultate za 246 slovarskih iztočnic in ugotavljamo, da je ChatGPT podatke uredil povsem enako kot slovaropisci pri 41,9 odstotka iztočnic, pri 58,1 odstotka pa se je v odločitvi razlikoval. Pri presojanju relevantnosti sopomenskih kandidatov je bil ChatGPT popustljivejši od zlatega standarda. Razlike v razvrščanju sopomenk (umestitev pod drug pomen pri 14,6 odstotka iztočnic, manjkajoča umestitev pri 19,9 odstotka) deloma pripisujemo značilnostim vhodnih podatkov, kot sta kompleksnost naloge in kratkost pomenskih indikatorjev. V drugem preizkusu preverjamo zmožnost ChatGPT za samostojno izdelavo slovarskih gesel za 116 iztočnic. Analiza kakovosti generiranih pomenskih členitev in definicij kaže, da sistem deluje zmerno dobro: v 57 odstotkih primerov je zaznal vse pomene,
Literatura
Angleško-slovenski slovar Bridge. 2000. Ljubljana: DZS.
Arhar Holdt, Špela, Jaka Čibej, Kaja Dobrovoljc, Polona Gantar, Vojko Gorjanc, Bojan Klemenc, Iztok Kosem, Simon Krek, Cyprian Laskowski in Marko Robnik-Šikonja. "Thesaurus of Modern Slovene: By the Community for the Community." V Proceedings of the XVIII EURALEX International Congress, Lexicography in Global Contexts, 17–21 July 2018, Ljubljana, ur. Jaka Čibej, Vojko Gorjanc, Iztok Kosem in Simon Krek, 401–410. Ljubljana: Znanstvena založba Filozofske fakultete, 2018. https://doi.org/10.4312/9789610600961.
Arhar Holdt, Špela, Polona Gantar, Iztok Kosem, Eva Pori, Marko Robnik Šikonja in Simon Krek. "Thesaurus of Modern Slovene 2.0." V Electronic Lexicography in the 21st Century (eLex 2023), Proceedings of the eLex 2023 Conference, 27–29 June 2023, ur. Marek Medveď, Michal Měchura, Carole Tiberius, Iztok Kosem, Jelena Kallas, Miloš Jakubíček in Simon Krek, 366–381. Brno: Lexical Computing CZ, 2023. https://elex.link/elex2023/wp-content/uploads/82.pdf.
Bartosz, Ptasznik, Sascha Wolfer in Robert Lew. "A Learners’ Dictionary versus ChatGPT in Receptive and Productive Lexical Tasks." International Journal of Lexicography 37, št. 3 (2024): 322–336. https://doi.org/10.1093/ijl/ecae011.
Čibej, Jaka, Luka Terčon, Simon Krek, Andraž Repar, Erik Novak, Polona Gantar, Iztok Kosem, Špela Arhar Holdt, Kaja Dobrovoljc, Amadea Berginc, Irena Hvala, Damijan Klement, Manja Kolenc, Ana Močnik, Tina Munda, David Pavlas, Anamari Pečan, Aleksandra Poljak, Davorin Sečnik, Jure Šešet, Jan Štumberger, Tina Toličič in Laura Trpin. Open Slovene WordNet OSWN 1.0. Slovenian language resource repository CLARIN.SI, 2023. http://hdl.handle.net/11356/1888.
de Schryver, Gilles-Maurice. Generative AI and Lexicography: The Current State of the Art Using ChatGPT. International Journal of Lexicography 36, št. 4 (2023): 355–387. https://doi.org/10.1093/ijl/ecad021.
de Schryver, Gilles-Maurice in David Joffe. The End of Lexicography, Welcome to the Machine: On How ChatGPT Can Already Take over All of the Dictionary Maker’s Tasks. 20th CODH Seminar, ROIS-DS Center for Open Data in the Humanities, Tokyo, Japan, 27. februar 2023. http://codh.rois.ac.jp/seminar/lexicography-chatgpt-20230227/.
Gantar, Polona. Leksikografski opis slovenščine v digitalnem okolju. 1. izd., elektronska izd. Ljubljana: Znanstvena založba Filozofske fakultete, 2015. Zbirka Sporazumevanje. https://doi.org/10.4312/9789612377922.
Gantar, Polona, Špela Arhar Holdt, Iztok Kosem in Simon Krek. "Sopomenke 2.0 in Kolokacije 2.0: Novi koraki za slovenske odzivne slovarje." Jezik in slovstvo 68, št. 4 (2023): 157–175. https://doi.org/10.4312/jis.68.4.157-175.
Gapsa, Magdalena, Špela Arhar Holdt in Iztok Kosem. "Kako dober je ChatGPT pri umeščanju sopomenk pod besedne pomene." V Jezikovne tehnologije in digitalna humanistika: Zbornik konference, 19.–20. september 2024, Ljubljana, Slovenija, ur. Špela Arhar Holdt in Tomaž Erjavec, 144–162. Ljubljana: Inštitut za novejšo zgodovino, 2024. https://zenodo.org/records/13912515.
Gapsa, Magdalena. "But why?? Evaluation of User-Suggested Synonyms in the Thesaurus of Modern Slovene." [Preprint], 2023. https://doi.org/10.21203/rs.3.rs-2775161/v1.
Jakubíček, Miloš in Michael Rundell. "The End of Lexicography? Can ChatGPT Outperform Current Tools for Post-Editing Lexicography?" V Electronic Lexicography in the 21st Century (eLex 2023): Proceedings of the eLex 2023 Conference, ur. Marek Medveď, Michal Měchura, Carole Tiberius, Iztok Kosem, Jelena Kallas, Miloš Jakubíček in Simon Krek, 518–533. Lexical Computing CZ, 2023. https://elex.link/elex2023/wp-content/uploads/102.pdf.
Kosem, Iztok, Simon Krek in Polona Gantar. "Semantic Data Should No Longer Exist in Isolation: The Digital Dictionary Database of Slovenian." V EURALEX XIX: Congress of the European Association for Lexicography, Lexicography for Inclusion, 7–9 September 2021, Virtual, Book of Abstracts, ur. Zoe Gavriilidou, Lydia Mitits in Spyros Kiosses, 81–83. Democritus University of Thrace, 2021. https://euralex.org/wp-content/uploads/2022/04/ABS2020.pdf.
Kosem, Iztok, Špela Arhar Holdt, Simon Krek, Polona Gantar, Eva Pori, Urška Kamenšek, Primož Ponikvar, Rebeka Roblek, Jure Šešet, Petra Zaranšek, Karolina Zgaga, Jaka Čibej, Bojan Klemenc, Cyprian Laskowski, Kaja Dobrovoljc, Vojko Gorjanc in Nikola Ljubešić. Kolokacijski slovar sodobne slovenščine. Ljubljana: Znanstvena založba Filozofske fakultete, 2018–. https://viri.cjvt.si/kolokacije/slv/#.
Kosem, Iztok, Husak, Miloš in McCarthy, Diana. "GDEX for Slovene." V Electronic Lexicography in the 21st Century: New Applications for New Users: Proceedings of eLex 2011, 10–12 November 2011, Bled, Slovenia, ur. Iztok Kosem in Karmen Kosem, 150–159. Ljubljana: Trojina, Institute for Applied Slovene Studies, 2011. http://www.trojina.si/elex2011/elex2011_proceedings.pdf.
Krek, Simon, Cyprian Laskowski in Marko Robnik-Šikonja. "From Translation Equivalents to Synonyms: Creation of a Slovene Thesaurus Using Word Co-occurrence Network Analysis." V Electronic Lexicography in the 21st Century. Proceedings of eLex 2017 Conference: Lexicography from Scratch, ur. Iztok Kosem, Carole Tiberius, Miloš Jakubíček, Jelena Kallas, Simon Krek in Vít Baisa, 93–109. Leiden: Dutch Language Institute, Lexical Computing CZ s.r.o., Trojina, 2017. https://elex.link/elex2017/wp-content/uploads/2017/09/paper05.pdf.
Krek, Simon, Cyprian Laskowski, Marko Robnik-Šikonja, Iztok Kosem, Špela Arhar Holdt, Polona Gantar, Jaka Čibej, Vojko Gorjanc, Bojan Klemenc in Kaja Dobrovoljc. Thesaurus of Modern Slovene 1.0. Repozitorij raziskovalne strukture CLARIN.SI, 2018. http://hdl.handle.net/11356/1166.
Krek, Simon, Cyprian Laskowski, Marko Robnik-Šikonja, Iztok Kosem, Špela Arhar Holdt, Polona Gantar, Jaka Čibej, Vojko Gorjanc, Bojan Klemenc, Kaja Dobrovoljc, Eva Pori, Rok Roblek in Klemen Zgaga. Thesaurus of Modern Slovene 2.0. Repozitorij raziskovalne strukture CLARIN.SI, 2023. http://hdl.handle.net/11356/1916.
McKean, Erin in Will Fitzgerald. "The ROI of AI in Lexicography." Lexicography 11, št. 1 (2024): 7–27. https://utppublishing.com/doi/abs/10.1558/lexi.27569.
Lew, Robert. "ChatGPT as a COBUILD Lexicographer." Humanities and Social Sciences Communications 10 (2023): Article 704. https://doi.org/10.1057/s41599-023-02119-6.
Marzi, Gabriele, Marco Balzano Marco in Davide Marchiori. "K-Alpha Calculator—Krippendorff's Alpha Calculator: A User-Friendly Tool for Computing Krippendorff's Alpha Inter-Rater Reliability Coefficient." MethodsX 12 (2024): 102545. https://doi.org/10.1016/j.mex.2023.102545.
OpenAI. ChatGPT (31. 5. 2024) [veliki jezikovni model]. 2024. https://chatgpt.com.
Rundell, Michael. "Automating the Creation of Dictionaries: Are We Nearly There?" V Proceedings of the 16th International Conference of the Asian Association for Lexicography: “Lexicography, Artificial Intelligence, and Dictionary Users”, 22–24 June 2023, Seoul, South Korea, 9–17. Yonsei University, 2023. https://www.asialex.org/pdf/Asialex-Proceedings-2023.pdf.
Tiberius, C., Kris Heylen, J. de Does, B. Vanroy, V. Vandeghinste in J. van Doeselaar. "LLMs and Evidence-based Lexicography." V Large Language Models and Lexicography, Book of Abstracts, 8th October 2024, Cavtat, Croatia, ur. Simon Krek, 44–48. 2024. Pridobljeno 25. januarja 2025. https://www.cjvt.si/wp-content/uploads/2024/10/LLM-Lex_2024_Book-of-Abstracts.pdf.
Prenosi
Objavljeno
Številka
Rubrika
Licenca
Avtorske pravice (c) 2025 Špela Arhar Holdt, Magdalena Gapsa, Polona Gantar, Iztok Kosem

To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.
Avtorji prispevkov, objavljenih v tej reviji, soglašajo z naslednjimi pogoji glede avtorskih pravic:
- Avtorji ohranijo avtorske pravice, reviji pa odobrijo pravico do prve objave. Delo se hkrati zaščiti z licenco za prosto uporabo avtorskih del (Creative Commons Attribution License), ki drugim osebam omogoča deljenje dela ob priznanju avtorstva in prve objave v tej reviji.
- Avtorji lahko sklenejo ločene dodatne pogodbene dogovore za neizključno distribucijo različice dela, objavljene v reviji, (npr. oddaja v institucionalni repozitorij ali objava v knjigi) z navedbo, da je bilo delo prvič objavljeno v tej reviji.
- Pred postopkom pošiljanja in med njim lahko avtorji delo objavijo v spletu (npr. v institucionalnih repozitorijih ali na svoji spletnih strani), k čemer jih tudi spodbujamo, saj lahko to prispeva k plodnim izmenjavam ter hitrejšemu in obsežnejšemu navajanju objavljenega dela (glej The Effect of Open Access).