<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
   <teiHeader>
      <fileDesc>
         <titleStmt>
            <title>Od kamnitega do spletnega portala: samodejno zaznavanje sprememb v rabi
               besed</title>
            <author><forename>Mojca</forename>
               <surname>Brglez</surname>
               <roleName>Asist.</roleName><affiliation>Filozofska fakulteta Univerze v
                  Ljubljani</affiliation><address>
                  <addrLine>Aškerčeva cesta 2</addrLine>
                  <addrLine>Ljubljana</addrLine>
               </address><affiliation>Institut »Jožef Stefan«</affiliation><address>
                  <addrLine>Jamova cesta 39</addrLine>
                  <addrLine>Ljubljana</addrLine>
               </address><email>mojca.brglez@ff.uni-lj.si</email>
            </author>
            <author><forename>Veronika</forename>
               <surname>Bajt</surname>
               <roleName>Dr.</roleName><roleName>znan. sod.</roleName><affiliation>Mirovni
                  inštitut</affiliation><address>
                  <addrLine>Metelkova 6</addrLine>
                  <addrLine> Ljubljana</addrLine>
               </address><email>veronika.bajt@mirovni-institut.si</email></author>
            <author><forename>Senja</forename>
               <surname>Pollak</surname>
               <roleName>Doc. dr.</roleName>
               <affiliation>Institut »Jožef Stefan«</affiliation><address>
                  <addrLine>Jamova cesta 39</addrLine>
                  <addrLine>Ljubljana</addrLine>
               </address><email>senja.pollak@ijs.si</email></author>
            <author><forename>Špela</forename>
               <surname>Rot</surname>
               <affiliation>Filozofska fakulteta Univerze v Ljubljani</affiliation><address>
                  <addrLine>Aškerčeva cesta 2</addrLine>
                  <addrLine> Ljubljana</addrLine>
               </address><email>spela.rot@gmail.com</email></author>
            <author><forename>Matej</forename>
               <surname>Martinc</surname>
               <roleName>Asist. dr.</roleName><affiliation>Institut »Jožef Stefan«</affiliation><address>
                  <addrLine>Jamova cesta 39</addrLine>
                  <addrLine>Ljubljana</addrLine>
               </address><email>matej.martinc@ijs.si</email></author>
         </titleStmt>
         <editionStmt>
            <edition><date>2025-10-29</date></edition>
         </editionStmt>
         <publicationStmt>
            <publisher>
               <orgName xml:lang="sl">Inštitut za novejšo zgodovino</orgName>
               <orgName xml:lang="en">Institute of Contemporary History</orgName>
               <address>
                  <addrLine>Privoz 11</addrLine>
                  <addrLine>SI-1000 Ljubljana</addrLine>
               </address>
            </publisher>
            <pubPlace>http://ojs.inz.si/pnz/article/view/4495</pubPlace>
            <date>2025</date>
            <availability status="free">
               <licence>http://creativecommons.org/licenses/by-nc-nd/4.0/</licence>
            </availability>
         </publicationStmt>
         <seriesStmt>
            <title xml:lang="sl">Prispevki za novejšo zgodovino</title>
            <title xml:lang="en">Contributions to Contemporary History</title>
            <biblScope unit="volume">65</biblScope>
            <biblScope unit="issue">3</biblScope>
            <idno type="ISSN">2463-7807</idno>
         </seriesStmt>
         <sourceDesc>
            <p>No source, born digital.</p>
         </sourceDesc>
      </fileDesc>
      <encodingDesc>
         <projectDesc xml:lang="en">
            <p>Contributions to Contemporary History is one of the central Slovenian scientific
               historiographic journals, dedicated to publishing articles from the field of
               contemporary history (the 19th and 20th century).</p>
            <p>The journal is published three times per year in Slovenian and in the following
               foreign languages: English, German, Serbian, Croatian, Bosnian, Italian, Slovak and
               Czech. The articles are all published with abstracts in English and Slovenian as well
               as summaries in English.</p>
         </projectDesc>
         <projectDesc xml:lang="sl">
            <p>Prispevki za novejšo zgodovino je ena osrednjih slovenskih znanstvenih
               zgodovinopisnih revij, ki objavlja teme s področja novejše zgodovine (19. in 20.
               stoletje).</p>
            <p>Revija izide trikrat letno v slovenskem jeziku in v naslednjih tujih jezikih:
               angleščina, nemščina, srbščina, hrvaščina, bosanščina, italijanščina, slovaščina in
               češčina. Članki izhajajo z izvlečki v angleščini in slovenščini ter povzetki v
               angleščini.</p>
         </projectDesc>
      </encodingDesc>
      <profileDesc>
         <langUsage>
            <language ident="sl"/>
            <language ident="en"/>
         </langUsage>
         <textClass>
            <keywords xml:lang="en">
               <term>word usage change detection</term>
               <term>semantics</term>
               <term>meaning shifts</term>
               <term>sociolinguistics</term>
            </keywords>
            <keywords xml:lang="sl">
               <term>zaznavanje sprememb v rabi besed</term>
               <term>semantika</term>
               <term>pomenski premiki</term>
               <term>sociolingvistika</term>
            </keywords>
         </textClass>
      </profileDesc>
      <revisionDesc>
         <listChange>
            <change><date>2026-03-20T09:37:51Z</date>
               <name>Mihael Ojsteršek</name>
               <desc>Pretvorba iz DOCX v TEI, dodatno označevanje</desc>
            </change>
         </listChange>
      </revisionDesc>
   </teiHeader>
   <text>
      <front>
         <docAuthor>Mojca Brglez<note place="foot" xml:id="ftn1" n="*"><hi rend="bold">Asist.,
                  Filozofska fakulteta Univerze v Ljubljani, Aškerčeva cesta 2, Ljubljana; Institut
                  »Jožef Stefan«, Jamova cesta 39, Ljubljana, mojca.brglez@ff.uni-lj.si; ORCID:
                  </hi><ref target="https://orcid.org/0000-0002-8806-0942"><hi rend="bold"
                     >0000-0002-8806-0942</hi></ref></note></docAuthor>
         <docAuthor>Veronika Bajt<note place="foot" xml:id="ftn2" n="♦">
               <hi rend="bold">Dr., znan. sod., Mirovni inštitut, Metelkova 6, Ljubljana,
                  veronika.bajt@mirovni-institut.si; ORCID: </hi><ref
                  target="https://orcid.org/0000-0002-6917-3255"><hi rend="bold"
                     >0000-0002-6917-3255</hi></ref></note></docAuthor>
         <docAuthor>Senja Pollak<note place="foot" xml:id="ftn3" n="°">
               <hi rend="bold">Doc. dr., Institut »Jožef Stefan«, Jamova cesta 39, Ljubljana,
                  </hi><ref target="mailto:senja.pollak@ijs.si"><hi rend="bold"
                     >senja.pollak@ijs.si</hi></ref><hi rend="bold">; ORCID: </hi><ref
                  target="https://orcid.org/0000-0002-4380-0863"><hi rend="bold"
                     >0000-0002-4380-0863</hi></ref></note></docAuthor>
         <docAuthor>Špela Rot<note place="foot" xml:id="ftn4" n="•">
               <hi rend="bold">Filozofska fakulteta Univerze v Ljubljani, Aškerčeva cesta 2,
                  Ljubljana</hi></note></docAuthor>
         <docAuthor>Matej Martinc<note place="foot" xml:id="ftn5" n="♠">
               <hi rend="bold">Asist. dr., Institut »Jožef Stefan«, Jamova cesta 39, Ljubljana,
                  </hi><ref target="mailto:matej.martinc@ijs.si"><hi rend="bold"
                     >matej.martinc@ijs.si</hi></ref><hi rend="bold">: ORCID: </hi><ref
                  target="https://orcid.org/0000-0002-7384-8112"><hi rend="bold"
                     >0000-0002-7384-8112</hi></ref></note></docAuthor>
         <docImprint>
            <idno type="cobissType">Cobiss tip: 1.01</idno>
            <idno type="DOI">https://doi.org/10.51663/pnz.65.3.07</idno>
         </docImprint>
         <div type="abstract" xml:lang="sl">
            <head>IZVLEČEK</head>
            <p style="text-align: justify;"><hi rend="italic">V prispevku prikažemo sistem za
                  zaznavanje sprememb v rabi besed v slovenščini, ki omogoča samodejno zaznavanje
                  pomenskih premikov v različnih časovnih obdobjih. Najprej predstavimo tehnično
                  zasnovo in zahteve sistema, metodologijo za odkrivanje sprememb in grafični
                  uporabniški vmesnik, ki omogoča uporabniku prijazno uporabo, nato pa
                  demonstriramo, kako je sistem mogoče implementirati na referenčnem korpusu
                  slovenščine Gigafida 2.0 in ga uporabiti za iskanje in analizo sprememb v rabi
                  besed v različnih časovnih obdobjih. Rezultate sistema evalviramo s pomočjo
                  kognitivno-jezikoslovne in leksikalne analize najbolj spremenjenih pridevnikov in
                  samostalnikov, kjer raziščemo in kategoriziramo pomene in rabe besed v zaznanih
                  gručah glede na njihovo semantično motiviranost in zastopanost v slovarju.
                  Nazadnje sistem uporabimo na primeru reprezentacije migracij v časovnih obdobjih z
                  ročno določenimi ločnicami, ki so signifikantno vplivale na odnos do migracije in
                  migrantov v Sloveniji, ter tako preverimo njegovo uporabnost za sociolingvistične
                  raziskave. Z jezikoslovnega vidika ugotavljamo, da sistem razločuje pomensko,
                  skladenjsko in drugače kontekstualno različne rabe, in pokažemo, da omogoča
                  zaznavo tako kratkoročnih kot dolgoročnih sprememb. Po drugi strani ugotavljamo,
                  da sistem jasno prikaže vpliv zunanjih dejavnikov v specifičnih časovnih obdobjih
                  na jezik in diskurz in je tako uporabno orodje za sociolingvistično
               analizo.</hi></p>
            <p style="text-align: justify;"><hi rend="italic">Ključne besede: zaznavanje sprememb v
                  rabi besed, semantika, pomenski premiki, sociolingvistika</hi></p>
         </div>
         <div type="abstract" xml:lang="en">
            <head>ABSTRACT</head>
            <head>A SYSTEM FOR WORD USAGE CHANGE DETECTION: ITS USE IN LINGUISTIC AND
               SOCIOLINGUISTIC STUDIES</head>
            <p style="text-align: justify;"><hi rend="italic">This paper presents a system for
                  detecting changes in Slovene word usage, enabling the automatic identification of
                  semantic and other shifts across different time periods. We first introduce the
                  system’s technical design and requirements, the methodology for detecting changes,
                  and the graphical user interface, which ensures a user-friendly experience. We
                  then demonstrate how the system can be implemented on the reference corpus of
                  Slovene, Gigafida 2.0, and used to search for and analyse changes in word usage
                  across various time periods. </hi><hi rend="italic">The system’s results are
                  evaluated through a cognitive-linguistic and lexical analysis of the most changed
                  adjectives and nouns, where we examine and categorise word meanings and usages
                  within the detected clusters based on their semantic motivation and representation
                  in dictionaries. Finally, we apply the system to a case study of migration
                  representation in different time periods with manually defined boundaries, which
                  have significantly influenced attitudes toward migration and migrants in Slovenia,
                  thereby testing its applicability for sociolinguistic research.</hi>
               <hi rend="italic">From a linguistic perspective, we observe that the system
                  distinguishes between semantic, syntactic, and other contextually distinct usages,
                  demonstrating its ability to detect both short-term and long-term changes.
                  Furthermore, we observe that the system clearly illustrates the impact of external
                  factors on language and discourse in specific time periods, making it a valuable
                  tool for sociolinguistic analysis.</hi></p>
            <p style="text-align: justify;"><hi rend="italic">Keywords: word usage change detection,
                  semantics, meaning shifts, sociolinguistics</hi></p>
         </div>
      </front>
      <body>
         <div>
            <head>Uvod</head>
            <p style="text-align: justify;">Jezik je dinamičen sistem, ki se z uporabo v družbenih
               interakcijah, spremembami kulturnih praks in razvojem tehnologije nenehno
                  spreminja.<note place="foot" xml:id="ftn6" n="1"> Jean Aitchison, <hi
                     rend="italic">Language change: Progress or decay? </hi>(Cambridge University
                  Press, 2001), 133–83.</note> Spremembe so lahko vidne na fonološki, skladenjski,
               leksikalni ali semantični ravni, torej zadevajo od sprememb v izgovorjavi do
               spremembe pomenov besed. Preučevanje semantičnih sprememb se je pričelo še pred
               pojavom sodobnega jezikoslovja v poznem 19. in zgodnjem 20. stoletju, področje pa vse
               od takrat napreduje.<note place="foot" xml:id="ftn7" n="2"> Nina Tahmasebi, Lars
                  Borin, Adam Jatowt et al., ur., <hi rend="italic">Computational approaches to
                     semantic change</hi> (Language Science Press, 2021), <ref
                     target="https://doi.org/10.5281/zenodo.5040241"
                     >https://doi.org/10.5281/zenodo.5040241</ref>.</note> Zaznavanje teh sprememb
               je pomembno za različne sinhrone in diahrone jezikoslovne raziskave, prispeva pa tudi
               k širši družboslovni analizi in omogoča vpogled v različne dejavnike sprememb.<note
                  place="foot" xml:id="ftn8" n="3"> Nabeel Gillani in Roger Levy, »Simple dynamic
                  word embeddings for mapping perceptions in the public sphere,« v: <hi
                     rend="italic">Proceedings of the third workshop on natural language processing
                     and computational social science</hi> (2019), 94–99, <ref
                     target="https://doi.org/10.18653/v1/W19-2111"
                     >https://doi.org/10.18653/v1/W19-2111</ref>. Polona Gantar, Špela Arhar Holdt
                  in Senja Pollak, »Leksikalne novosti v besedilih računalniško posredovane
                  komunikacije,« <hi rend="italic">Slavistična revija</hi> 66, št. 4 (2018):
                  459–72.</note> Z vidika kognitivnega jezikoslovja jezik poleg zunanjih odraža tudi
               notranje dejavnike, tj. procese zaznavanja in razumevanja sveta okrog nas.<note
                  place="foot" xml:id="ftn9" n="4"> George Lakoff in Johnson, Mark, <hi
                     rend="italic">Metaphors We Live By</hi> (University of Chicago Press,
                  1980).</note> Med kognitivnimi mehanizmi, ki botrujejo pomenskim prenosom, sta
               ključni metonimija, ki temelji na sorodnosti, in metafora, ki temelji na
                  podobnosti.<note place="foot" xml:id="ftn10" n="5"> Eve Sweetser, <hi
                     rend="italic">From Etymology to Pragmatics</hi>: <hi rend="italic">Metaphorical
                     and Cultural Aspects of Semantic Structure</hi> (Cambridge University Press,
                  1990).</note></p>
            <p style="text-align: justify;">Raziskave razvoja jezika se bodisi osredotočajo na
               dolgoročne spremembe pomena v diahronih korpusih ali pa na precej pogoste kratkoročne
               pojave, kot je na primer pojavitev besede v novem kontekstu. Pri slednjem ni nujno,
               da gre za spremembo ali razširitev pomena, saj pomen v kontekstu ustreza enemu od
               pomenov v slovarju.<note place="foot" xml:id="ftn11" n="6"> Syrielle Montariol, Matej
                  Martinc, Lidia Pivovarova et al., »Scalable and interpretable semantic change
                  detection,« v: <hi rend="italic">Proceedings of the 2021 Conference of the North
                     American Chapter of the Association for Computational Linguistics: Human
                     Language Technologies</hi> (Association for Computational Linguistis, <hi
                     rend="italic">2021</hi>), 4642–52<hi rend="italic">.</hi></note> Ko v
               pričujočem članku govorimo o »spremembah v rabi besed«, se nanašamo na vse vrste
               sprememb – kratkoročne ali dolgoročne, ki poleg jasnih pomenskih premikov vključujejo
               tudi spremembe kontekstov rabe besed.</p>
            <p style="text-align: justify;">Samodejno zaznavanje sprememb v rabi besed je zelo
               aktivno raziskovalno področje. Medtem ko so bili prvi sistemi za samodejno zaznavanje
               semantičnih sprememb razviti pred več kot desetletjem,<note place="foot"
                  xml:id="ftn12" n="7"> Martin Hilpert in Stefan Th. Gries, »Assessing frequency
                  changes in multistage diachronic corpora: Applications for historical corpus
                  linguistics and the study of language acquisition,« v: <hi rend="italic">Literary
                     and Linguistic Computing </hi>24, št. 4 (2009): 385–401, <ref
                     target="https://doi.org/10.1093/llc/fqn012"
                     >https://doi.org/10.1093/llc/fqn012</ref>. Patrick Juola, »The time course of
                  language change,« <hi rend="italic">Computers and the Humanities </hi>37, št. 1
                  (2003): 77–96, <ref target="https://doi.org/%2010.1023/A:1021839220474"
                     >https://doi.org/ 10.1023/A:1021839220474</ref>.</note> so raziskave v zadnjem
               času dobile dodaten zagon z idejo o uporabi besednih vložitev. Te so
               visokodimenzionalni matematični vektorji, ki predstavljajo besede po načelu
               distribucijske semantike: pomen besed je odvisen od njihove uporabe v kontekstu
               oziroma sopojavljanja z drugimi besedami.<note place="foot" xml:id="ftn13" n="8">
                  Zellig S. Harris, »Distributional Structure,« <hi rend="italic">WORD</hi> 10<hi
                     rend="italic">, </hi>št. 2-3 (1954): 146–62.</note> Najsodobnejši sistemi za
               zaznavanje sprememb uporabljajo različne vrste besednih vložitev, za sistematično
               primerjavo različnih metod pa je bilo v zadnjih letih organiziranih tudi več
               tekmovanj in delavnic.<note place="foot" xml:id="ftn14" n="9"> Med drugimi je bila v
                  letu 2020 organizirana delavnica <hi rend="italic">SemEval-2020 Task 1:
                     Unsupervised lexical semantic change detection</hi> za zaznavanje sprememb v
                  rabi besed za angleščino, nemščino, švedščino in latinščino, v letu 2022 pa <hi
                     rend="italic">LSCDiscovery: A shared task on semantic change discovery and
                     detection in Spanish</hi> za španščino.</note> Delavnice so sicer večinoma
               namenjene zaznavanju sprememb v jezikih z veliko viri in govorci, kot so angleščina,
               ruščina, nemščina, italijanščina in španščina, jezikom z manj viri in govorci, med
               katerimi je tudi slovenščina, pa se doslej ni posvečalo veliko pozornosti.</p>
            <p style="text-align: justify;">Pričujoči članek temelji na konferenčnem prispevku, ki
               so ga pripravili Martinc in sod.,<note place="foot" xml:id="ftn15" n="10"> Matej
                  Martinc, Veronika Bajt, Špela Rot et al., »Sistem za zaznavanje sprememb v rabi
                  besed in njegova uporaba za sociolingvistično analizo,« v: <hi rend="italic"
                     >Zbornik konference Jezikovne tehnologije in digitalna humanistika 2024
                  </hi>(Inštitut za novejšo zgodovino, 2024), 298–318, <ref
                     target="https://doi.org/10.5281/zenodo.13936410"
                     >https://doi.org/10.5281/zenodo.13936410</ref>.</note> v katerem sta
               predstavljena izdelava prvega javno dostopnega sistema za zaznavanje sprememb v rabi
               posameznih besed za slovenščino in uporabniku prijazen spletni vmesnik.<note
                  place="foot" xml:id="ftn16" n="11"> Uporabniški vmesnik je javno dostopen na
                  spletnem naslovu <ref target="http://kt-nlp-demo.ijs.si:8080"
                     >http://kt-nlp-demo.ijs.si:8080</ref>.</note> Medtem ko omenjeni konferenčni
               članek zgolj na kratko demonstrira, kako je sistem mogoče uporabiti za jezikoslovne
               analize, v tem prispevku poleg predstavitve celotnega cevovoda ponudimo tudi
               podrobnejšo evalvacijo rezultatov. Sistem ovrednotimo predvsem z vidika njegove
               uporabnosti za razpoznavanje pomenskih premikov, pri čemer iščemo razširitve in/ali
               zožitve osnovnega pomena, ki so običajno metaforično ali metonimično motivirane.
               Poleg tega prikažemo uporabnost sistema za sociolingvistične analize z analizo
               izbrane leksike s področja migracij, kar omogoča vpogled v odnos lokalnega
               prebivalstva do priseljevanja v različnih obdobjih in naslavljanje širših
               družbenopolitičnih posledic polarizirajočih javnih razprav o migracijah.</p>
         </div>
         <div>
            <head>Sorodne raziskave</head>
            <p style="text-align: justify;">V zadnjem času področje avtomatskega zaznavanja sprememb
               v rabi besed postaja vse pomembnejše, saj je uporabno ne le v jezikoslovju, na primer
               v diahronih korpusih za raziskave zgodovinskega razvoja jezika<note place="foot"
                  xml:id="ftn17" n="12"> Yuting Wei, Meiling Li, Yangfu Zhu, Yuanxing Xu, Yuqing Li
                  in Bin Wu, »A diachronic language model for long-time span classical Chinese,« <hi
                     rend="italic">Information Processing &amp; Management</hi> 62, št 1 (2025),
                  103925, <ref target="https://doi.org/10.1016/j.ipm.2024.103925"
                     >https://doi.org/10.1016/j.ipm.2024.103925</ref>.</note> ali specifičnih
               semantičnih premikov, kot je metafora,<note place="foot" xml:id="ftn18" n="13"> Marco
                  Del Tredici, Malvina Nissim in Andrea Zaninello, »Tracing metaphors in time
                  through self-distance in vector spaces,« v: <hi rend="italic">Proceedings of the
                     Third Italian Conference on Computational Linguistics CLiC-It 2016</hi>,
                  Accademia University Press, 2016, 117–22,
                  https://doi.org/10.4000/books.aaccademia.1760.</note> temveč tudi v sinhronih
               korpusih pri različnih socioloških in kulturoloških raziskavah. Med temi lahko
               omenimo na primer zaznavanje kratkoročnih sprememb v diskurzu, ki jih povzročijo
               krizni dogodki, kot je pojav neologizmov ob epidemiji virusa covid-19,<note
                  place="foot" xml:id="ftn19" n="14"> Quirin Würschinger in Barbara McGillivray,
                  »Semantic change and socio-semantic variation: the case of COVID-related
                  neologisms on Reddit,« <hi rend="italic">Linguistics Vanguard</hi> (2024), <ref
                     target="https://doi.org/10.1515/lingvan-2023-0106"
                     >https://doi.org/10.1515/lingvan-2023-0106</ref>.</note> ali pa zaznavanje
               ideološko pogojenih razlik v diskurzu.<note place="foot" xml:id="ftn20" n="15">
                  Isabelle Gribomont, »From Diachronic to Contextual Lexical Semantic Change:
                  Introducing Semantic Difference Keywords (SDKs) for Discourse Studies,« v: <hi
                     rend="italic">Proceedings of the 4th Workshop on Computational Approaches to
                     Historical Language Change</hi>, Association for Computational Linguistics,
                  2023, 153–60. Matej Martinc, Nina Perger, Andraž, Pelicon, Matej Ulčar, Andreja
                  Vezovni in Senja Pollak, »EMBEDDIA hackathon report: Automatic sentiment and
                  viewpoint analysis of Slovenian news corpus on the topic of LGBTIQ+,« v: <hi
                     rend="italic">Proceedings of the EACL Hackashop on news media content analysis
                     and automated report generation</hi> (2021), 121–26.</note></p>
            <p style="text-align: justify;">Prvi sistemi za samodejno zaznavanje sprememb v rabi so
               bili razviti pred več kot desetletjem. Temeljili so na metodah, ki vzorčijo in
               analizirajo predvsem pogostost besed v različnih časovnih obdobjih.<note place="foot"
                  xml:id="ftn21" n="16"> Hilpert in Gries, »Assessing frequency changes.« Juola,
                  »The time course.«</note> S takimi metodami lahko v diahronih korpusih, ki
               zajemajo različna obdobja, zgolj na podlagi spremembe v številu pojavitev odkrivamo
               neologizme ali nove pomene besed, na primer pojav besede <hi rend="italic"
                  >medmrežje</hi> ob nove tehnologije konec 20. stoletja, pa tudi upad nekaterih
               jezikovnih oblik, kot je deležnik preteklega časa (<hi rend="italic">videvši</hi>,
                  <hi rend="italic">pozabivši</hi>). Podroben opis metod, ki temeljijo na
               pogostosti, je mogoče najti na primer v preglednem članku Tahmasebi, Borin in
                  Jatowt.<note place="foot" xml:id="ftn22" n="17"> Nina Tahmasebi, Lars Borin in
                  Adam Jatowt, »Survey of computational approaches to lexical semantic change
                  detection,« v: Tahmasebi et al., ur., <hi rend="italic">Computational approaches
                     to semantic change</hi>, Language Science Press, 2021, 1–91, <ref
                     target="https://doi.org/10.5281/zenodo.5040302"
                     >https://doi.org/10.5281/zenodo.5040302</ref>.</note> Ti pristopi se danes le
               redko uporabljajo, saj so se s pojavom besednih vložitev razvile mnogo učinkovitejše
               metode. Vložitve so eden od načinov, s katerimi lahko informacije v jeziku
               matematično predstavimo in katerih izgradnja temelji na načelu distribucijske
               semantike: pomen besed je odvisen od njihove uporabe v kontekstu oziroma
               sopojavljanja z drugimi besedami.<note place="foot" xml:id="ftn23" n="18"> Harris,
                  »Distributional Structure.«</note> Besedne vložitve so reprezentacije posamičnih
               besed v vektorskem prostoru z veliko dimenzijami, običajno od 100 do 1000. Ustvarimo
               jih s pomočjo jezikovnih modelov, ki se učijo napovedovati sosednje ali manjkajoče
               besede na veliki količini besedil. Za razliko od prejšnjih metod, ki so temeljile le
               na pogostosti pojavitev, besedne vložitve vsebujejo tudi skladenjske in pomenske
                  informacije.<note place="foot" xml:id="ftn24" n="19"> Tomas Mikolov, Ilya
                  Sutskever, Kai Chen et al., »Distributed representations of words and phrases and
                  their compositionality,« v: <hi rend="italic">Advances in neural information
                     processing systems </hi>26 (2013): 3111–19.</note> V ustvarjenem vektorskem
               prostoru imajo pomensko in skladenjsko podobne besede tudi podobne vložitve, z
               ustvarjenimi vektorji pa lahko izvajamo različne računske operacije, kot je
               »računanje« analogij.<note place="foot" xml:id="ftn25" n="20"> Eden bolj znanih
                  primerov izračuna semantične analogije je <hi rend="italic">moški – kralj + ženska
                     = x,</hi> pri čemer je rezultatu <hi rend="italic">x</hi> najbližje vložitev
                  besede <hi rend="italic">kraljica</hi>.</note></p>
            <p style="text-align: justify;">Sodobni sistemi za samodejno zaznavanje sprememb v rabi
               besed temeljijo na izgradnji vložitev za vsako posamično časovno obdobje (rezino
               korpusa) posebej, pri čemer so te lahko ustvarjene na dva načina. Pri prvem nastanejo
               t. i. <hi rend="italic">statične vložitve</hi>, saj se za vsako besedo ustvari le ena
               vložitev, ki je nekakšno povprečje vseh njenih rab v učnem korpusu. Novejši tip
               vložitev, ki jih pridobimo na primer z jezikovnimi modeli tipa BERT,<note
                  place="foot" xml:id="ftn26" n="21">Jacob Devlin, Ming-Wei Chang, Kenton Lee et
                  al., »BERT: Pre-training of deep bidirectional transformers for language
                  understanding,« v: <hi rend="italic">Proceedings of the 2019 conference of the
                     North American chapter of the Association for computational linguistics: Human
                     language technologies, Volume 1 (Long and Short Papers) </hi>(ACL, 2019):
                  4171–86.</note> pa so t. i. <hi rend="italic">dinamične</hi> ali <hi rend="italic"
                  >kontekstualne vložitve</hi>: za besedo dobimo drugačno vložitev glede na
               specifično sobesedilo (npr. poved), v katerem je uporabljena. To omogoča razločevanje
               različnih pomenov in rab besed, denimo med besedo <hi rend="italic">golf</hi>,
               uporabljeno v pomenu športne discipline, ali besedo <hi rend="italic">golf</hi>, s
               katero označujemo model avtomobila.</p>
            <p style="text-align: justify;">Pri metodah za samodejno zaznavanje sprememb v rabi, ki
               uporabljajo statične vložitve, so te vložitve običajno najprej naučene na vsaki
               časovni rezini korpusa posebej in zatem poravnane, da postanejo med seboj
               primerljive. V prispevku Kim in sod.<note place="foot" xml:id="ftn27" n="22"> Yoon
                  Kim, Yi-I Chiu, Kentaro Hanaki et al., »Temporal analysis of language through
                  neural language models,« v:<hi rend="italic"> Proceedings of the ACL 2014 Workshop
                     on language technologies and computational social science</hi> (2014): 61–65.
                  William L. Hamilton, Jure Leskovec in Dan Jurafsky, »Diachronic word embeddings
                  reveal statistical laws of semantic change,« v: <hi rend="italic">Proceedings of
                     the 54</hi><hi rend="italic superscript">th</hi><hi rend="italic"> annual
                     meeting of the Association for computational linguistic</hi>s (ACL, 2016):
                  1489–501.</note> je bila ta metoda uporabljena za zaznavanje angleških besed, ki
               so znatno spremenile rabo med letoma 1900 in 2009 (npr. besedi <hi rend="italic"
                  >gay</hi> in <hi rend="italic">cell</hi>). Ker je posamična beseda (oziroma vse
               njene rabe) znotraj časovne rezine predstavljena samo z eno vektorsko reprezentacijo,
               so metode, ki temeljijo na statičnih vložitvah, manj natančne, prav tako pa rezultate
               težje interpretiramo. Omejitev je mogoče odpraviti z uporabo kontekstualnih vložitev,
               ki omogočajo modeliranje različnih pomenov in rab. Vsi taki pristopi k zaznavanju
               sprememb v rabi vsebujejo tudi postopek agregacije, v katerem so kontekstualne
               vložitve posameznih pojavitev besed v določenem časovnem obdobju v korpusu združene v
               smiselne časovne reprezentacije. Za agregacijo se uporabljajo različne metode, od
               preprostega povprečenja<note place="foot" xml:id="ftn28" n="23"> Matej Martinc, Petra
                  Kralj Novak in Senja Pollak, »Leveraging contextual embeddings for detecting
                  diachronic semantic shift,« v: <hi rend="italic">Proceedings of the Twelfth
                     Language Resources and Evaluation Conference</hi> (EACL, 2020): 4811–19.</note>
               in primerjave parov vektorjev<note place="foot" xml:id="ftn29" n="24">Andrey Kutuzov
                  in Mario Giulianelli, »UiO-UvA at SemEval-2020 task 1: Contextualised embeddings
                  for lexical semantic change detection,« v: <hi rend="italic">Proceedings of the
                     fourteenth workshop on semantic evaluation</hi> (International Committee for
                  Computational Linguistics, 2020)<hi rend="italic">, </hi>126–34.</note> do
               združevanja v gruče.<note place="foot" xml:id="ftn30" n="25"> Montariol et al.,
                  »Scalable and interpretable.« Matej Martinc, Syrielle Montariol, Elaine Zosa et
                  al., »Capturing evolution in word usage: Just add more clusters?,« v: <hi
                     rend="italic">Companion proceedings of the web conference 2020</hi>
                  (Association for Computing Machinery, 2020), 343–49, <ref
                     target="https://doi.org/10.1145/3366424.3382186"
                     >https://doi.org/10.1145/3366424.3382186</ref>. Mario Giulianelli, Marco Del
                  Tredici in Raquel Fernández, »Analysing lexical semantic change with
                  contextualised word representation,« v: <hi rend="italic">Proceedings of the
                     58</hi><hi rend="italic superscript">th</hi><hi rend="italic"> Annual Meeting
                     of the Association for Computational Linguistics</hi> (ACL, 2020):
                  3960–73.</note> Pri zadnjem se predvideva, da posamezna gruča reprezentacij
               združuje eno rabo oziroma pomen dane besede. Najbolj priljubljena metoda za
               primerjavo gruč iz različnih časovnih obdobij, in s tem pridobitev kvantitativne
               ocene spremembe v rabi določene besede, je Jensen-Shannonova divergenca (JSD),<note
                  place="foot" xml:id="ftn31" n="26"> Jianhua Lin, »Divergence measures based on the
                  Shannon entropy,«<hi rend="italic"> IEEE Transactions on Information theory
                  </hi>37, št. 1 (1991): 145–51.</note> ki so jo uporabili na primer Giulianelli in
                  sod.<note place="foot" xml:id="ftn32" n="27"> Giulianelli et al., »Analysing
                  lexical semantic change.«</note> ter Martinc in sod.<note place="foot"
                  xml:id="ftn33" n="28"> Martinc et al., »Capturing evolution in word usage.«
               </note> Pri tej primerjamo distribucije različnih gruč (ki naj bi ustrezale pomenom
               in rabam) v različnih časovnih obdobjih in tako ugotovimo, ali se je distribucija
               pomenov/rab v dveh ali več obdobjih spremenila. To metodo so Montariol in sod.<note
                  place="foot" xml:id="ftn34" n="29"> Montariol et al., »Scalable and
                  interpretable.« </note> uporabili za identifikacijo kratkoročnih (mesečnih)
               sprememb v rabi angleških besed med pandemijo COVID. Tako na primer beseda <hi
                  rend="italic">strain</hi>, ki se je v prvih dveh mesecih pandemije večinsko
               uporabljala v kontekstu »različic koronavirusa« (angl. <hi rend="italic">coronavirus
                  strain</hi>), v naslednjih mesecih pandemije pridobi novo večinsko rabo v
               kontekstu »obremenitve zdravstvenega sistema« (angl. <hi rend="italic">strain on the
                  health system</hi>).</p>
            <p style="text-align: justify;">Raziskave sprememb v rabi besed v slovenščini so redke.
               Med tistimi, ki na splošno analizirajo in kategorizirajo različne pomene in pomenske
               premike, se v slovenščini pojavljajo tako teoretski kot empirični pristopi, predvsem
               z vidika leksikologije in leksikografije. Med prvimi lahko omenimo dela Ade Vidovič
               Muha in Jerice Snoj,<note place="foot" xml:id="ftn35" n="30"> Ada Vidovič Muha<hi
                     rend="italic">, Slovensko leksikalno pomenoslovje: govorica slovarja</hi>
                  (Znanstveni inštitut Filozofske fakultete, 2000). Jerica Snoj, »Slovarska
                  večpomenskost in <hi rend="italic">Slovensko leksikalno pomenoslovje</hi>,« <hi
                     rend="italic">Slavistična Revija</hi> 51, št. 4 (2003): 387–409.</note> ki
               preučujeta večpomenskost leksemov. Med tipi večpomenskosti ločujeta pomensko
               vsebovanost (pod- in nadpomenskost) ter pomenske prenose, ki vključujejo tri vrste:
               metaforo, metonimijo in sinekdoho. Med raziskavami, ki bodisi zaznavajo in/ali
               analizirajo pomenske premike na podlagi dejanske rabe, lahko omenimo dve študiji.
               Gantar, Arhar Holdt in Pollak<note place="foot" xml:id="ftn36" n="31"> Gantar et al.,
                  »Leksikalne novosti.« </note> se ukvarjajo z odkrivanjem nove leksike in pomenov
               predvsem s pomočjo luščenja kolokacij iz korpusa Janes,<note place="foot"
                  xml:id="ftn37" n="32"> Tomaž Erjavec, Nikola Ljubešić in Darja Fišer, »Korpus
                  slovenskih spletnih uporabniških vsebin Janes,« v: Darja Fišer, ur., <hi
                     rend="italic">Viri, orodja in metode za analizo spletne slovenščine</hi>
                  (Ljubljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani, 2018),
                  16–43.</note> ki vsebuje računalniško posredovana besedila. Znotraj istega
               korpusa, vendar z omejitvijo na tvite, raziskavo izvedeta tudi Fišer in
                  Ljubešić.<note place="foot" xml:id="ftn38" n="33"> Darja Fišer in Nikola Ljubešić,
                  »Tviti kot leksikografski vir za analizo pomenskih premikov v slovenščini,« v:
                  Darja Fišer, ur., <hi rend="italic">Viri, orodja in metode za analizo spletne
                     slovenščine</hi> (Ljubljana: Znanstvena založba Filozofske fakultete, 2018),
                  198–226.</note> Natančneje, s pomočjo besednih skic analizirata 200 besed, pri
               katerih so bile zaznane spremembe v vektorski reprezentaciji v primerjavi z
               referenčnim korpusom standardne slovenščine. Raziskava je narejena s pomočjo
               statičnih vektorskih vložitev in vsebuje velik delež napak (45 odstotkov), vendar
               predstavlja zanimivo kategorizacijo sprememb. Poleg novih pomenov so v analizo namreč
               vključene tudi manj očitne razlike v rabi, analiza pa razlikuje med manjšimi in
               večjimi premiki. Pri tem naj bi bili manjši premiki vezani na spremembe v
               distribuciji (že uveljavljenih) pomenov in omejenost na določene vzorce ali pomene,
               do večjih premikov pa pride zaradi aktualnih dogodkov, razlik v registru ali razlik v
               mediju. Raziskava se od pričujoče razlikuje v metodologiji in v tem, da primerja
               žanrsko in jezikovno zelo različna besedila, medtem ko se naš sistem osredotoča na
               zaznavanje sprememb skozi čas.</p>
            <p style="text-align: justify;">Med raziskavami, ki uporabljajo sodobne metode za
               samodejno zaznavanje sprememb v slovenščini, je relevantna predvsem pred kratkim
               izvedena študija Pranjića in sod.<note place="foot" xml:id="ftn39" n="34"> Marko
                  Pranjić, Kaja Dobrovoljc, Senja Pollak et al., »Semantic change detection for
                  Slovene language: a novel dataset and an approach based on optimal transport,« <hi
                     rend="italic"> arXiv:2402.16596</hi> (arXiv preprint, 2024), <ref
                     target="https://doi.org/10.48550/arXiv.2402.16596"
                     >https://doi.org/10.48550/arXiv.2402.16596</ref>.</note> V raziskavi je bila
               izdelana prva testna množica za testiranje različnih slovenskih modelov za zaznavanje
               sprememb v rabi besed. Ročno označevanje je bilo izvedeno na podlagi kvantitativne,
               stopenjske ocene podobnosti pomenov besede v paru povedi. V študiji je predstavljen
               tudi nov model za zaznavanje semantičnih premikov s pomočjo optimalnega transporta,
               med drugim pa so preizkusili tudi metodologijo, ki jo opisujemo v tej študiji.
               Nazadnje naj omenimo še raziskavo Martinca in sod.<note place="foot" xml:id="ftn40"
                  n="35"> Matej Martinc, Nina Perger in Senja Pollak, »Viewpoint detection on LGBT+
                  reporting using contextual embeddings and qualitative thematic analysis: The use
                  case on the word deep,« <hi rend="italic">Bulletin of Sociological
                     Methodology/Bulletin de Méthodologie Sociologique</hi> (2025):
                  07591063251317085.</note>, kjer je bil sistem za zaznavanje sprememb v rabi
               uporabljen za analizo gledišč različnih slovenskih medijev. V raziskavi se
               osredotočajo na razlike v poročanju med osrednjimi in konservativnimi mediji o
               tematikah, povezanih s skupnostjo LGBTIQ. Glavna ugotovitev raziskave je, da skupini
               medijev najbolj drugače uporabljata besedo <hi rend="italic">globok</hi>. Ta se v
               osrednjih medijih večinoma uporablja v konvencionalnem pomenu, medtem ko se na
               konservativnih novičarskih portalih pretežno uporablja v kontekstu zveze »globoka
               država«.</p>
         </div>
         <div>
            <head>Opis sistema za zaznavanje sprememb</head>
            <div>
               <head>Podatkovne in računske zahteve</head>
               <p style="text-align: justify;">Za predlagani sistem za zaznavanje sprememb v rabi v
                  prvi vrsti potrebujemo korpus, ki vsebuje besedila iz različnih časovnih obdobij
                  in ga je mogoče razdeliti na časovne rezine. Dolžina posameznih časovnih obdobij
                  in razmejitve med obdobji so poljubne, v praksi pa so pogojene z raziskovalnim
                  vprašanjem in količino podatkov, ki je na voljo. V idealnem primeru naj bi vsaka
                  časovna rezina korpusa vsebovala vsaj pet milijonov besed. To omogoča sestavo
                  obsežnega besedišča, ki mu lahko določimo spremembo v rabi skozi čas. Vsaka
                  beseda, za katero želimo izmeriti spremembe v rabi, se mora za veljavnost
                  rezultatov v vsaki časovni rezini korpusa pojaviti vsaj 20-krat, v idealnem
                  primeru vsaj 100-krat. Manj kot 20 pojavitev določene besede namreč ne omogoča
                  izdelave dovolj kakovostne distribucije rab besede za posamezno obdobje.</p>
               <p style="text-align: justify;">Eden od pomembnih kriterijev za izbor metode je tudi
                  skalabilnost. Večina metod, ki temeljijo na kontekstualnih vložitvah, je
                  neprimernih zaradi ogromnih potreb po delovnem spominu (RAM), saj je treba v
                  spomin shraniti vektorsko reprezentacijo za vsako pojavitev besede v korpusu.
                  Izbrana metoda po drugi strani s pomočjo posebnega mehanizma predhodne agregacije
                  vektorskih reprezentacij na podlagi kosinusne podobnosti omogoča, da se za vsako
                  besedo v določeni časovni rezini korpusa shrani do največ 200 besednih vložitev,
                  kar omogoča rabo metode na velikih korpusih in na celotnem besedišču korpusa.<note
                     place="foot" xml:id="ftn41" n="36"> Montariol et al., »Scalable and
                     interpretable.« </note></p>
               <p style="text-align: justify;">Največji korpus, na katerem je bil preizkušen sistem,
                  je vseboval približno 100 milijonov besed na časovno rezino in besedišče,
                  sestavljeno iz približno 8000 lem,<note place="foot" xml:id="ftn42" n="37">
                     Ibidem.</note> a teoretično zgornje meje za velikost korpusa ni. Vendar pa je
                  treba upoštevati nekatere praktične omejitve, saj se z velikostjo besedišča in
                  številom časovnih obdobij povečajo tudi zahteve po diskovnem spominu.</p>
            </div>
            <div>
               <head>Cevovod za zaznavanje sprememb v rabi</head>
               <p style="text-align: justify;">Sistem za zaznavanje sprememb v rabi besed je
                  sestavljen iz več zaporednih korakov, združenih v tako imenovani »cevovod«.
                  Najprej potekajo predprocesiranje korpusa, adaptacija jezikovnega modela na
                  domenski korpus, razdelitev korpusa na časovne rezine in luščenje kontekstualnih
                  vložitev iz jezikovnega modela. Sledijo gručenje kontekstualnih vložitev, izdelava
                  distribucij gruč glede na časovno obdobje in merjenje sprememb v rabi med
                  časovnimi obdobji. Vsakega od teh korakov pojasnimo spodaj.</p>
               <list rend="bulleted">
                  <item><hi rend="bold">Predprocesiranje korpusa:</hi> V prvem koraku korpus
                     tokeniziramo (razdelimo na pojavnice) in lematiziramo (spremenimo pojavnice v
                     leme) s pomočjo orodij za predprocesiranje; v našem primeru smo uporabili
                     orodje za jezikovno obdelavo slovenščine CLASSLA-Stanza.<note place="foot"
                        xml:id="ftn43" n="38"> Nikola Ljubešić, Luka Terčon in Katja Dobrovoljc,
                        »CLASSLA-Stanza: The Next Step for Linguistic Processing of South Slavic
                        Languages,« v: Špela Arhar Holdt in Tomaž Erjavec, ur., <hi rend="italic"
                           >Zbornik konference za jezikovne tehnologije in digitalno humanistiko
                           (JT-DH-2024) </hi>(Ljubljana: Inštitut za novejšo zgodovino, 2024),
                        251–74, <ref target="https://doi.org/10.5281/zenodo.13936406"
                           >https://doi.org/10.5281/zenodo.13936406</ref>.</note></item>
                  <item><hi rend="bold">Domenska adaptacija modela:</hi> Nevronski jezikovni model
                     prilagodimo preučevani domeni, tako da ga pet epoh učimo na celotnem korpusu.
                     Učenje poteka na nenadzorovan način, tj. na nalogi napovedovanja naključno
                     skritih besed v besedilu.</item>
                  <item><hi rend="bold">Razdelitev korpusa na časovne rezine:</hi> Korpus razdelimo
                     na časovne rezine, ki se ločeno vnesejo v model v serijah (angl. <hi
                        rend="italic">batch</hi>) po 32 besedilnih sekvenc naenkrat. Besedilne
                     sekvence omejimo na dolžino 256 žetonov.<note place="foot" xml:id="ftn44"
                        n="39"> Gre za podbesedne enote (angl. <hi rend="italic">subword
                        token</hi>), ki ne ustrezajo nujno pojavnicam ali besedam, saj je lahko ena
                        pojavnica razdeljena na več žetonov.</note></item>
                  <item><hi rend="bold">Ekstrakcija kontekstualnih vložitev:</hi> Za vsako sekvenco
                     oziroma pojavnice v sekvenci ustvarimo reprezentacijo, tako da vzamemo in
                     seštejemo zadnje štiri izhodne plasti kodirnika nevronske mreže. Tako za vsako
                     pojavnico dobimo 768-dimenzionalno kontekstualno vložitev.<note place="foot"
                        xml:id="ftn45" n="40"> Kadar pojavnico sestavlja več žetonov, njeno
                        reprezentacijo izračunamo iz povprečja vložitev žetonov, ki jo
                        sestavljajo.</note> Za vsako lemo v pomnilniku hranimo seznam kontekstualnih
                     vložitev, ki predstavljajo njene različne rabe v posamičnem obdobju. Da bi
                     izboljšali skalabilnost sistema, število hranjenih vložitev omejimo na 200. Ob
                     izluščenju nove vložitve iz besedilne sekvence se ta bodisi doda na seznam
                     bodisi združi z eno od že pridobljenih vložitev. Slednje se zgodi, če <hi
                        rend="italic">a)</hi> je nova vložitev preveč podobna eni od hranjenih
                     vložitev (kosinusna podobnost je večja ali enaka 0,99) ali<hi rend="italic">
                        b)</hi> če seznam že vsebuje vnaprej določeno največje število vložitev
                     (200). Če pride do združitve, se nova vložitev združi z vložitvijo na seznamu,
                     ki je najbližja po kosinusni razdalji. Na ta način za vsako lemo v besedišču
                     pridobimo do 200 kontekstualnih vložitev, ki predstavljajo posamezno (ali
                     združeno) pojavnico s to lemo v kontekstu.</item>
                  <item><hi rend="bold">Gručenje kontekstualnih vložitev:</hi> Za ugotavljanje
                     različnih rab posamezne leme v določenem časovnem obdobju s pomočjo algoritma
                        <hi rend="italic">k-means</hi> izvedemo gručenje kontekstualnih vložitev
                     leme, ki naj bi predstavljale specifično rabo. Združevanje v gruče za dano lemo
                     izvedemo na množici vložitev iz vseh časovnih obdobij skupaj. Število gruč, ki
                     jih pridobimo z algoritmom <hi rend="italic">k-means</hi>, določimo z
                     vrednostjo <hi rend="italic">k </hi>=<hi rend="italic"> </hi>5. Večina besed
                     ima namreč manj kot pet pogostih rab, kar pomeni, da v večini primerov
                     zadostuje pet gruč za identifikacijo vseh pomenov. Če je <hi rend="italic"
                        >k</hi> večji, so nekatere gruče narejene ne samo na podlagi semantičnih
                     razlik (ki naj bi vodile v največje razlike med besednimi vložitvami), temveč
                     tudi na podlagi oblikoskladenjskih in drugih razlik. Po zgoraj opisanem
                     postopku gručenja zato izvedemo dodatno združevanje ali odstranjevanje. Po dve
                     gruči združimo, če sta si zelo podobni, odstranimo pa tiste, v katerih je manj
                     kot deset pojavitev leme, saj to kaže na precej obrobno rabo.</item>
                  <item><hi rend="bold">Izdelava distribucije različnih rab:</hi> Za vsako lemo v
                     vsakem časovnem obdobju iz zgornjega koraka pridobimo množico gruč, ki
                     predstavljajo različne rabe besede. Distribucijo rab v določenem obdobju
                     pridobimo tako, da število pojavitev leme v vsaki gruči delimo s skupnim
                     številom pojavitev leme v danem časovnem obdobju.</item>
                  <item><hi rend="bold">Merjenje sprememb v rabi:</hi> Distribucije rab, ki jih za
                     določeno lemo pridobimo za vsako časovno obdobje, primerjamo med sabo s pomočjo
                     Jensen-Shannonove divergence (JSD)<note place="foot" xml:id="ftn46" n="41">
                        María L. Menéndez, Julio A. Pardo, Leandro Pardo in María C. Pardo, »The
                        Jensen-Shannon divergence,« <hi rend="italic">Journal of the Franklin
                           Institute </hi>334, št. 2 (1997): 307–18, <ref
                           target="https://doi.org/10.1016/S0016-0032(96)00063-4"
                           >https://doi.org/10.1016/S0016-0032(96)00063-4</ref>.</note> za merjenje
                     razlik med verjetnostnimi distribucijami. S pomočjo mere JSD lahko vsem besedam
                     v besedišču korpusa izmerimo spremembe v distribuciji rabe med zaporednimi
                     obdobji, jih razporedimo po velikosti izmerjene spremembe in tako poiščemo
                     tiste besede, katerih raba se je med različnimi časovnimi obdobji najbolj
                     spremenila.</item>
               </list>
            </div>
            <div>
               <head>Interpretacija rezultatov sistema</head>
               <p style="text-align: justify;">Sistem nam obenem omogoča, da s pomočjo metode za
                  interpretacijo hitro razumemo, kako se raba posamezne besede med časovnimi obdobji
                  spreminja. To dosežemo z uporabo mere TF-IDF (angl. <hi rend="italic">term
                     frequency-inverse document frequency</hi>). Za vsako rabo posamezne leme imamo
                  na voljo kontekst, tj. poved, v kateri se določena lema pojavi v obliki neke
                  pojavnice. Povedi, ki vsebujejo posamezne rabe besede, ki pripadajo isti gruči,
                  najprej združimo v t. i. »dokument«, nato pa za vsak tak dokument izluščimo
                  najbolj razločevalne unigrame, bigrame in trigrame, torej nize ene, dveh ali treh
                  besed, ki dokumente med seboj najbolje razločijo.<note place="foot" xml:id="ftn47"
                     n="42"> Primeri takih razločevalnih nizov so vidni na Sliki 2, prvo gručo tako
                     označujeta mdr. unigram <hi rend="italic">okno </hi>ter bigram <hi
                        rend="italic">klikniti jeziček</hi>.</note> Te pridobimo s pomočjo algoritma
                  TF-IDF, pri čemer kot korpus obravnavamo skupek vseh »dokumentov«, tj. množico
                  vseh povedi, v katerih se posamezna lema pojavi. Iz korpusa izključimo
                  nepolnopomenske besede (angl. <hi rend="italic">stopwords</hi>)<note place="foot"
                     xml:id="ftn48" n="43"> Uporabljata se tudi izraza »pomensko prazne« ali
                     »blokirane« besede, ki običajno vključujejo nepolnopomenske besedne vrste
                     in/ali zelo pogoste besede. V predstavljenem eksperimentu smo uporabili seznam
                     1071 besed, izluščenih iz korpusa Kres, torej korpusa standardne slovenščine.
                     Na seznam so uvrščeni predlogi, vezniki, členki in zaimki. Seznam vsebuje
                     različnice, ne samo lem.</note> in besede, ki se pojavljajo v več kot 80
                  odstotkih gruč. S tem zagotovimo, da so izbrani ključni izrazi za vsako gručo čim
                  bolj specifični in jih tako kar najbolje ločijo. Na koncu dobimo seznam do sedmih
                  ključnih izrazov za vsako gručo, ki nudijo vpogled v posamezno rabo besede.</p>
            </div>
            <div>
               <head>Uporabniški vmesnik</head>
               <p style="text-align: justify;">Do rezultatov sistema je mogoče dostopati prek
                  spletnega uporabniškega vmesnika, ki omogoča hitro interpretacijo in analizo
                  sprememb v rabi.<note place="foot" xml:id="ftn49" n="44"> Vmesniki so prosto
                     dostopni na naslovu <ref target="http://kt-nlp-demo.ijs.si:8080"
                        >http://kt-nlp-demo.ijs.si:8080</ref>.</note> Sestavljen je iz dveh ločenih
                  komponent. Prva ponuja globalni pogled na celoten korpus oziroma vsebovana obdobja
                  v obliki tabele (Slika 1), kjer najdemo vse besede, ki se v korpusu pojavijo
                  najmanj 20-krat, skupaj z njihovo izmerjeno spremembo v rabi med dvema obdobjema,
                  skupni seštevek izmerjenih sprememb in število pojavitev v posamičnem obdobju.
                  Besede so privzeto razvrščene glede na skupni seštevek izmerjenih sprememb v rabi
                  med prvim in zadnjim časovnim obdobjem, vendar tabela omogoča razvrščanje po
                  poljubnem stolpcu.</p>
               <figure>
                  <head>Slika 1: Prva komponenta uporabniškega vmesnika za globalni prikaz in
                     iskanje po korpusu</head>
                  <graphic url="image1.png"/>
                  <lb/>
                  <note n="">Vir: lastno delo</note>
               </figure>
               <p style="text-align: justify;">Do druge komponente uporabniškega vmesnika pridemo
                  tako, da kliknemo na posamezno besedo v tabeli. Ta komponenta nudi podrobnejši
                  prikaz in kontekst sprememb v rabi za posamezno besedo po časovnih obdobjih (Slika
                  2). Komponenta vizualizira posamična časovna obdobja v stolpcih tako, da z
                  različnimi barvami predstavi distribucijo rab besede v posamičnem obdobju. V
                  legendi slike nam vmesnik nudi tudi hitro interpretacijo gruč s ključnimi besedami
                  in besednimi zvezami, specifičnimi za posamično gručo (predstavljeno v prejšnjem
                  poglavju <hi rend="italic">Interpretacija rezultatov sistema</hi>). S klikom na
                  posamezno rabo (tj. barvo, ki predstavlja posamezno gručo) na sliki se nam spodaj
                  izpiše seznam kontekstov (tj. povedi), ki sodijo v to gručo.</p>
               <p style="text-align: justify;">Uporabniški vmesnik je zasnovan tako, da lahko
                  uporabnik z bolj splošnih informacij (na korpusni ravni), ki jih prikazuje prva
                  komponenta, hitro (s pomočjo klika na posamezno besedo) prehaja na podrobnejše
                  informacije (na besedni ravni), ki jih prikazuje druga komponenta, kar omogoča
                  hiter vpogled v spremembe v rabi besede in podpira nadaljnjo analizo teh sprememb.
                  V naslednjem poglavju podrobneje prikažemo, kako je sistem mogoče uporabljati v
                  tem sosledju, in evalviramo rezultat sistema na dva načina. Pri prvem sistem
                  uporabimo za odkrivanje in analizo pomenskih premikov, pri drugem pa za
                  sociolingvistično analizo, kjer vzporejamo spremembe v jezikovni rabi s
                  specifičnimi spremembami v družbi.</p>
               <p style="text-align: justify;">#datoteka Slika2.jpg</p>
               <figure>
                  <head>Slika 2: Primer druge komponente uporabniškega vmesnika, podrobnejši prikaz
                     za besedo <hi rend="italic">jeziček</hi></head>
                  <graphic url="image2.png"/>
                  <lb/>
                  <note n="">Vir: lastno delo</note>
               </figure>
            </div>
         </div>
         <div>
            <head>Implementacija sistema za slovenščino</head>
            <p style="text-align: justify;">Za slovenščino smo nevronski model SloBERTa,<note
                  place="foot" xml:id="ftn50" n="45"> Matej Ulčar in Marko Robnik Šikonja,
                  »SloBERTa: Slovene monolingual large pretrained masked language model,« v: <hi
                     rend="italic">Zbornik 24. mednarodne multikonference Informacijska družba IS
                     2021, zvezek C </hi>(Ljubljana: Institut »Jožef Stefan«, 2021), 17–20.</note>
               ki smo ga uporabili za ekstrakcijo kontekstualnih besednih vložitev, naučili na delu
               korpusa Gigafida 2.0.<note place="foot" xml:id="ftn51" n="46"> Simon Krek, Špela
                  Arhar Holdt, Tomaž Erjavec et al., »Gigafida 2.0: the reference corpus of written
                  standard Slovene,« v: <hi rend="italic">Proceedings of the 12</hi><hi
                     rend="italic superscript">th</hi><hi rend="italic"> Language Resources and
                     Evaluation Conference</hi> (ELRA, 2020): 3340–45.</note> Gigafida je referenčni
               korpus standardne pisane slovenščine in vsebuje besedila iz časopisov (47,8 odstotka
               besedil), revij (16,5 odstotka), internetnih vsebin (28,0 odstotka),<note
                  place="foot" xml:id="ftn52" n="47"> Internetna besedila vsebujejo tudi novice iz
                  novičarskih portalov, ki so po vsebini zelo podobne časopisnim besedilom.</note>
               stvarnih besedil (3,8 odstotka), leposlovja (3,5 odstotka) in drugih zvrsti.</p>
            <p style="text-align: justify;">#datoteka: Tabela.xlsx, list 1: “Tabela 1”</p>

            <figure>
               <head>Tabela 1: Število dokumentov, besed in virov po letih v treh korpusih za
                  merjenje sprememb v rabi besed</head>
               <graphic url="image3.png"/>
               <lb/>
               <note n="">Vir: lastno delo</note>
            </figure>
            <p style="text-align: justify;">Da bi lahko analizirali različna obdobja in vrste
               sprememb v rabi, smo iz besedil, ki jih zajema celotna Gigafida 2.0, sestavili tri
               korpuse. Prva korpusna različica<note place="foot" xml:id="ftn53" n="48"> Sistem na
                  podlagi dveh podkorpusov je na voljo na (<hi rend="italic">E8-NLP</hi>) <ref
                     target="http://kt-nlp-demo.ijs.si:8080/semanticshifttable/2"
                     >http://kt-nlp-demo.ijs.si:8080/semanticshifttable/2</ref>.</note> omogoča
               merjenje dolgoročnih sprememb v rabi med dvema obdobjema. Tu prvo obdobje pokriva
               osem let med 1990 in 1997 in vsebuje najstarejša besedila v Gigafidi 2.0. Za nekoliko
               daljši, osemletni razpon smo se odločili predvsem zato, da smo pridobili dovoljšno
               količino besedil za učenje modela. Drugo obdobje vsebuje besedila iz leta 2018, kar
               je zadnje leto, zajeto v Gigafidi 2.0. V tem korpusu nas zanimajo predvsem dolgoročne
               spremembe v rabi besed, ki so nastale v časovnem obdobju, daljšem od 20 let. Drugo
               različico korpusa<note place="foot" xml:id="ftn54" n="49"> Sistem na podlagi dveh
                  letnih podkorpusov je dostopen na (<hi rend="italic">E8-NLP</hi>) <ref
                     target="http://kt-nlp-demo.ijs.si:8080/semanticshifttable/3"
                     >http://kt-nlp-demo.ijs.si:8080/semanticshifttable/3</ref>.</note> sestavljajo
               besedila iz zgolj dveh enoletnih obdobij, nastala v letih 2017 in 2018. V tem korpusu
               želimo meriti kratkoročne spremembe v rabi besed, ki so nastale v časovnem obdobju
               enega leta. Tretji korpus<note place="foot" xml:id="ftn55" n="50"> Sistem na podlagi
                  petih podkorpusov je dostopen na (<hi rend="italic">E8-NLP</hi>) <ref
                     target="http://kt-nlp-demo.ijs.si:8080/semanticshifttable/1"
                     >http://kt-nlp-demo.ijs.si:8080/semanticshifttable/1</ref>.</note> je za
               razliko od prvih dveh razdeljen na pet obdobij, in sicer 1990–1997, 2002, 2007, 2013,
               2018. S tem korpusom, ki pokriva največ virov in žanrov, želimo meriti spremembe v
               rabi besed med več zaporednimi obdobji in tako bolje razumeti celotno dinamiko
               spreminjanja rabe besed, ki ne poteka vedno linearno in v eni smeri. Velikosti
               posamičnih korpusov glede na število zajetih besedil, besed in virov predstavljamo v
               Tabeli 1.</p>
         </div>
         <div>
            <head>Uporaba sistema za analizo pomenskih premikov in sprememb v rabi</head>
            <p style="text-align: justify;">V poglavju analiziramo spremembe v rabi besed v prvi in
               tretji različici korpusa, tj. korpusa za merjenje dolgoročnih sprememb in korpusa za
               merjenje sprememb v več zaporednih obdobjih.</p>
            <div>
               <head>Dolgoročne spremembe v rabi</head>
               <p style="text-align: justify;">Kot smo že opisali, je korpus za merjenje dolgoročnih
                  sprememb sestavljen na eni strani iz besedil, nastalih v obdobju 1990–1997, in na
                  drugi iz besedil, nastalih v letu 2018. Med prvimi 50 besedami z največ
                  spremembami glede na mero<hi rend="italic"> JSD K5 All </hi>močno prevladujejo
                  pridevniki (29), sledijo samostalniki (16), medtem ko so glagoli (2) in prislovi
                  (2) manj pogosti. V analizi se glede na pogostost posvetimo prvim trem pridevnikom
                     (<hi rend="italic">diagonalen, stebrn, jonski</hi>) in prvim trem samostalnikom
                     (<hi rend="italic">podprogram, portal, izbijanje</hi>) na seznamu.</p>
               <p style="text-align: justify;">Glede na mero JSD je v drugem obdobju najbolj
                  drugačna raba pridevnika <hi rend="italic">diagonalen</hi>. V obdobju devetdesetih
                  se pojavljata izključno dve gruči pomenov/rab (Slika 3)<hi rend="italic">.
                  </hi>Analiza povedi v gručah pokaže, da obe gruči vsebujeta mešane rabe besede,
                  tako dobesedne (»diagonalna razpoka«, »diagonalna črta«), metonimične (»diagonalni
                  korak«, »diagonalni bralec«) kot metaforične (»diagonalno zavezništvo«,
                  »diagonalna kumulacija«). V letu 2018 vse te rabe praktično izginejo, prevladuje
                  raba besede v športnih kontekstih. Ta pomen/raba je v sistemu sicer predstavljena
                  v treh različnih gručah, vendar pa gre tako glede na izredno podobne ključne
                  besede kot tudi glede na povedi v teh gručah za zelo podobno rabo. V povedih se
                  namreč raba manifestira v zgolj nekaj besednih zvezah, in sicer se beseda <hi
                     rend="italic">diagonalen </hi>pojavlja kot prilastek samostalnikov<hi
                     rend="italic"> strel, udarec, bekhend</hi>, <hi rend="italic">forehand</hi>,
                     <hi rend="italic">podaja, polvolej, predložek</hi>.</p>
               <figure>
                  <head>Slika 3: Distribucije rab besede <hi rend="italic">diagonalen</hi> v obdobju
                     1990–97 in letu 2018</head>
                  <graphic url="image4.png"/>
                  <lb/>
                  <note n="">Vir: lastno delo</note>
               </figure>
               <p style="text-align: justify;">Druga najbolj spremenjena beseda je pridevnik <hi
                     rend="italic">stebrn</hi>. Sistem prikaže, da se je v obdobju do 1997 beseda
                  pojavljala v treh gručah v vijolični, zeleni in modri barvi (Slika 4). Te so
                  okarakterizirane s ključniki, ki med drugim vsebujejo besede <hi rend="italic"
                     >miza, podnožje, stoletje, zaključek, vitek, stranica, povezati </hi>pa <hi
                     rend="italic">stena, predpostavka, osrednji </hi>ter <hi rend="italic">lopa,
                     plečnikov, masiven, odprt, dediščina.</hi> Pregled povedi prve in tretje gruče
                  nakazuje rabo besede predvsem v dobesednem pomenu, tj. nanašajoč se na steber kot
                  gradbeni element. Primeri takih sintagem so »stebrno podnožje« (= podnožje iz
                  stebrov), »stebrni okvir« (= okvir iz stebrov), »stebrni obod« (= obod iz
                  stebrov), »stebrna dvorana« (= dvorana s stebri). V drugi gruči rab/pomenov se
                  poleg dobesednih pojavijo tudi metonimične rabe, kot je »stebrni red« (stil
                  stebrov), in metaforične rabe, kot so »stebrna spremljava« (poosebitev),
                  »(tro-)stebrni sistem pokojnin«, »stebrni mit (kulturne industrije)« ali »stebrni
                  plašč«. V letu 2018 se raba popolnoma spremeni. Tu močno prevladujeta gruči, ki se
                  nanašata na pojav t. i. <hi rend="italic">stebrnega udara, </hi>nesreče v rudniku,
                  pri kateri pride do zrušitve (varnostnega) stebra. Gre za termin, pri katerem
                  lahko prepoznamo metaforično motiviranost, saj ne gre za <hi rend="italic">steber
                  </hi>kot gradbeni element, temveč za <hi rend="italic">hribino</hi>, puščeno pri
                  izkopu rudnika, ki je prvemu podobna po svoji podporni funkciji. Glede na
                  kontekste rabe v povedih ugotavljamo, da jih sistem v dve različni gruči
                  najverjetneje razvršča glede na skladenjske lastnosti: medtem ko se v rdeči gruči
                  zveza v veliki večini pojavlja zgolj v imenovalniku, se v oranžni gruči zveza
                  uporablja le v neimenovalniških sklonih.</p>
               <figure>
                  <head>Slika 4: Distribucije rab besede <hi rend="italic">stebrn</hi> v obdobju
                     1990–97 in letu 2018</head>
                  <graphic url="image5.png"/>
                  <lb/>
                  <note n="">Vir: lastno delo</note>
               </figure>
               <p style="text-align: justify;">Tretja beseda po vrsti je pridevnik <hi rend="italic"
                     >jonski</hi>. V obdobju 1990–1997 se pojavlja v mešanih rabah in kontekstih, ki
                  se nanašajo na Jonce. Povečini gre za metonimično rabo (»jonski tempelj«, »jonska
                  mesta«, »jonska šola«), pojavlja se tudi čisto dobesedna raba (»jonski Grki«,
                  »jonski pomorščaki«). V letu 2018 močno prevladuje zgolj ena vrsta rabe/pomena,
                  kjer se pridevnik ne nanaša na Jonce, temveč na geografsko regijo, pokrajino. Tu
                  gre za rabo besede v zvezah »jadransko jonska (makro)regija«, »jadransko jonska
                  pobuda«, »jadransko jonski koridor«, »jadransko jonska strategija«, ki se v veliki
                  meri pojavljajo v novičarskem žanru in političnem kontekstu. Pojav in porast teh
                  rab je mogoče povezati s specifičnim dogodkom oziroma dogajanjem med obdobjema, in
                  sicer predvsem z oblikovanjem »jadransko-jonske makroregijske strategije« leta
                  2014 kot združenja držav članic znotraj Evropske unije ter drugih držav v
                  geografski regiji.<note place="foot" xml:id="ftn56" n="51"> Evropska komisija, »EU
                     Strategy for the Adriatic and Ionian Region,« <ref
                        target="https://ec.europa.eu/regional_policy/policy/cooperation/macro-regional-strategies/adriatic-ionian_en"
                        >https://ec.europa.eu/regional_policy/policy/cooperation/macro-regional-strategies/adriatic-ionian_en</ref>,
                     dostop 15. 4. 2025.</note></p>
               <figure>
                  <head>Slika 5: Distribucije rab besede <hi rend="italic">podprogram </hi>v obdobju
                     1990–97 in letu 2018</head>
                  <graphic url="image6.png"/>
                  <lb/>
                  <note n="">Vir: lastno delo</note>
               </figure>
               <p style="text-align: justify;">Prvi samostalnik na seznamu je beseda <hi
                     rend="italic">podprogram</hi>. Beseda je precej pogostejša v obdobju
                  devetdesetih let, kjer naj bi se pojavljala v štirih različnih rabah (Slika 5). Te
                  štiri gruče so opredeljene s podobnimi ključniki, med drugim <hi rend="italic"
                     >parameter, klic, spremenljivka, funkcija, tip, procedura; then, procedura,
                     writeIn, while, else. </hi>Kot dokazujejo tudi konteksti rabe (povedi), se
                  beseda v teh gručah nanaša na računalniški pomen, ki je obeležen v slovarju:
                  'program v okviru določenega programa, ki se lahko večkrat uporabi v istem ali v
                  drugem programu'. Raba v letu 2018 kaže na pojav in veliko prevlado drugačnega
                  pomena besede, ki ga predstavlja gruča s ključniki <hi rend="italic">projekt,
                     evropski, podprogram kultura, slovenski, organizacija, evro, sodelovanje</hi>.
                  Pomena ni mogoče najti v slovarju neposredno pod leksemom <hi rend="italic"
                     >podprogram</hi>, temveč pod prvim pomenom pomenskega korena besede oziroma pod
                  leksemom <hi rend="italic">program</hi>: 'skupek nalog, del, ki se določijo za
                     uresničitev'.<note place="foot" xml:id="ftn57" n="52">
                     <hi rend="italic">Slovar slovenskega knjižnega jezika</hi>, druga, dopolnjena
                     in deloma prenovljena izdaja, pridobljeno 1. 2. 2025, www.fran.si. </note>
                  Primer kaže v prvem obdobju zožitev pomena na specifični računalniški pomen korena
                     <hi rend="italic">program</hi>, ki je prav tako edini slovarski pomen, ki
                  sovpada s pojavom interneta, prvim prevodom operacijskega sistema Windows v
                  slovenščino in razvojem drugih informacijsko-komunikacijskih tehnologij v
                  devetdesetih letih.</p>
               <p style="text-align: justify;">Zanimivo je, da je povsem nasproten trend viden pri
                  samostalniku <hi rend="italic">portal</hi> na šestem mestu v tabeli. Tu je v
                  obdobju do 1997 mogoče zaznati rabo besede v treh gručah, opredeljenih med drugim
                  s ključniki <hi rend="italic">gotski portal, okno, ohranjen, avtocesta biti;
                     renesančen portal, kamnit portal, pročelje. </hi>Le nekaj primerov rabe je za
                  gručo s ključniki <hi rend="italic">spleten, portal, portal lahko, podatek, medij,
                     podjetje, slovenski portal, informacija. </hi>Po drugi strani ta in v letu 2018
                  novonastala gruča s ključniki <hi rend="italic">poročati portal, spleten portal,
                     hrvaški portal, portal siol, navajati portal, pisati portal, novičarski portal
                  </hi>močno prevladujeta v drugem obdobju, kjer bolj dobesedna raba iz domene
                  arhitekture, gradbeništva praktično izgine. Zanimivo je, da je arhitekturni pomen
                  'arhitektonsko poudarjen vhod v stavbo'<note place="foot" xml:id="ftn58" n="53">
                     <hi rend="italic">Slovar slovenskega knjižnega jezika</hi>, pridobljeno 1. 2.
                     2025, www.fran.si. </note> v prvi različici SSKJ še edini pomen, medtem ko se v
                  drugi različici (SSKJ2) že pojavi novi. Pri tem gre za metaforično razširitev
                  etimološko starejšega pomena, ki je v novejši različici slovarja definiran kot
                  'spletna stran, ki na pregleden način združuje dostop do različnih informacij in
                     storitev'.<note place="foot" xml:id="ftn59" n="54">
                     <hi rend="italic">Slovar slovenskega knjižnega jezika</hi>, druga, dopolnjena
                     in deloma prenovljena izdaja, pridobljeno 1. 2. 2025, www.fran.si. </note> V
                  novi različici je novi pomen (glede na pogostost rabe, zaznane s tem sistemom,
                  povsem upravičeno) že postavljen na prvo mesto.</p>
               <p style="text-align: justify;">Naslednji primer kaže nekoliko manj očitne spremembe
                  v rabi oziroma rabo besede <hi rend="italic">izbijanje </hi>v zelo podobnih
                  pomenih in kontekstih. Slovar besedo razlaga zgolj z definicijo »glagolnik od
                     izbijati«,<note place="foot" xml:id="ftn60" n="55"> Ibidem.</note> medtem ko
                  sistem razločuje štiri gruče rabe. V obdobju 1990–1997 je najpogostejša nevezljiva
                  raba v pomenu 'balinanje', in sicer bodisi samostojno bodisi z levim prilastkom
                     <hi rend="italic">hitrostno</hi>, <hi rend="italic">precizno</hi>, <hi
                     rend="italic">natančno</hi>. V istem obdobju je prisotna, četudi mnogo manj
                  pogosta, raba besede z desnim prilastkom v zvezah »izbijanje žoge«, »izbijanje
                  balina«, »izbijanje ploščka«. V drugem obdobju, tj. v letu 2018, raba v smislu
                  'balinanja' popolnoma izgine. Poleg že omenjene rabe z desno vezljivostjo sistem v
                  tem obdobju zazna še dve gruči, kjer z analizo primerov ugotovimo, da je beseda
                     <hi rend="italic">izbijanje</hi> tu večinoma negativno modificirana: »neuspešno
                  izbijanje«, »poskus izbijanja (žoge)«, »po slabem izbijanju«. Sistem v tem primeru
                  rabo razločuje na podlagi resnično subtilnih razlik, ki jih ni mogoče ugotoviti
                  brez vpogleda v kontekst rabe.</p>
            </div>
            <div>
               <head>Spremembe v zaporednih obdobjih</head>
               <p style="text-align: justify;">Primer uporabniškega vmesnika za vhodni korpus,
                  sestavljen iz petih zaporednih časovnih obdobij, smo že prikazali na Sliki 1.
                  Besede so privzeto razvrščene po meri <hi rend="italic">JSD K5 All</hi>, ki meri
                  razliko med distribucijama v rabi besede med prvim in zadnjim obdobjem v korpusu
                  (angl. beseda »All« označuje, da gre za spremembo v rabi besede od prvega do
                  zadnjega obdobja).<note place="foot" xml:id="ftn61" n="56"> Četudi korpus za
                     merjenje sprememb v zaporednih obdobjih zajema isti dve skrajni obdobji in
                     nabor besedil kot korpus za dolgoročno merjenje sprememb, lahko zaradi zajema
                     vseh besedil in obdobij naenkrat pride do drugačnega gručenja primerov in
                     posledično distribucij.</note></p>
               <p style="text-align: justify;">Glede na ta kriterij se je, tako kot v prejšnjem
                  poglavju, najbolj spremenila distribucija rab besede <hi rend="italic"
                     >diagonalen</hi>. S pomočjo vrednosti v drugih stolpcih, ki prikazujejo
                  spremembe med zaporednimi obdobji, opazimo, da je k spremembi na dolgi rok najbolj
                  vplival prehod med obdobjema 2007 in 2013 (vrednost JSD je približno 0,38).
                  Podobno kot v primerjavi rabe v obdobjih 1990–97 in 2018 iz prejšnjega poglavja
                  gre pri tej zaznani spremembi predvsem za zožitev konteksta. Iz splošne rabe v
                  zvezah »diagonalni korak«, »diagonalna črta«, »diagonalna razdalja«, kjer beseda
                  modificira različne samostalnike, se raba v letu 2013 prevesi v praktično
                  izključno (nogometni) športni kontekst, ki ga nakazujejo zveze »diagonalni strel«,
                  »diagonalni predložek«, »diagonalna podaja«.</p>
               <p style="text-align: justify;">Drugi pridevnik, ki ga obravnavamo, je beseda <hi
                     rend="italic">pogovoren</hi>, katere največjo spremembo je sistem zaznal s
                  prehodom med obdobjema 1990–97 in 2002. Podobno kot pri besedi <hi rend="italic"
                     >podprogram</hi> iz prejšnjega poglavja lahko s pomočjo prikaza na Sliki 6 v
                  prvem obdobju opazimo veliko prevlado gruče (več kot 80 odstotkov), ki predstavlja
                  rabo v računalniškem kontekstu s ključnimi izrazi <hi rend="italic">klikniti,
                     gumb, pogovorno okno, slika</hi>. Po drugi strani se v naslednjem obdobju, tj.
                  v letu 2002, raba besede ponovno posploši, saj je skoraj enakomerno razdeljena med
                  vsemi petimi zaznanimi gručami. Pojavlja se v različnih zvezah, kot so »pogovorni
                  jezik«, »pogovorna oddaja«, »pogovorni šov«, »pogovorna slovenščina«, »pogovorno
                  okno«.</p>
               <figure>
                  <head>Slika 6: Distribucije rab besede <hi rend="italic">pogovoren </hi>v petih
                     obdobjih. Največja sprememba je vidna v prvih dveh stolpcih, tj. obdobjih 1997
                     in 2002.</head>
                  <graphic url="image7.png"/>
                  <lb/>
                  <note n="">Vir: lastno delo</note>
               </figure>
               <p style="text-align: justify;">Še en pridevnik na seznamu je beseda <hi
                     rend="italic">težavnosten.</hi> Sistem največjo spremembo v rabi zazna med
                  obdobjema 2007 in 2013. Pri tem je najvidnejši upad dveh gruč, ki ju zaznamujejo
                  na primer <hi rend="italic">težavnostna stopnja, godba, vzpon, zahteven,
                     proga</hi> in <hi rend="italic">težavnostna stopnja, težavnostna skupina, vaja,
                     težavnostni izpit.</hi> Iz primerov rabe ugotovimo, da v obeh prevladuje
                  predvsem zveza »težavnostna stopnja«, pojavi se še ob besedah <hi rend="italic"
                     >skupina</hi>, <hi rend="italic">razred</hi>, <hi rend="italic">sezona</hi>,
                     <hi rend="italic">kategorija</hi>, <hi rend="italic">nivo</hi>. Fraze so
                  umeščene v raznovrstne kontekste, denimo športni (»kolesarski izleti različnih
                  težavnostnih stopenj«), umetniški (»godbe v prvi težavnostni stopnji«),
                  zdravstveni (»težavnostna stopnja jecljanja«), šolski, igričarski idr. V sledečem
                  obdobju pa se poveča raba v gruči, ki jo zaznamujejo <hi rend="italic">težavnostno
                     plezanje, težavnostni pokal, plezalka, sezona, Janja Garnbret</hi>. Povedi
                  gruče potrjujejo, da se pridevnik tu pojavlja izključno v kontekstu »težavnostnega
                  plezanja«, tj. je prišlo v letu 2018 do izrazite zožitve rabe. Predvidevamo, da je
                  prevlada gruče posledica predvsem medijskega poročanja o uspehih specifične
                  slovenske plezalke, ki je pozornost prvič pritegnila z nastopom na svetovnem
                  prvenstvu leta 2016.<note place="foot" xml:id="ftn62" n="57"> »Janja Garnbret pri
                     17 splezala na vrh sveta,« <hi rend="italic">MMC RTV-SLO, </hi>nazadnje
                     spremenjeno 17. 9. 2016, <ref
                        target="https://www.rtvslo.si/sport/preostali-sporti/janja-garnbret-pri-17-splezala-na-vrh-sveta/403013"
                        >https://www.rtvslo.si/sport/preostali-sporti/janja-garnbret-pri-17-splezala-na-vrh-sveta/403013</ref>.</note></p>
               <p style="text-align: justify;">Prvi samostalnik med najbolj spremenjenimi besedami
                  je <hi rend="italic">evro</hi> na tretjem mestu v tabeli. Zanimivo je, da je
                  največja sprememba po meri JSD zaznana med obdobjema 1990–97 in 2002 (in ne na
                  primer na pragu leta 2007, ko je Slovenija uvedla valuto). V obdobju devetdesetih
                  let se izmenjujeta dve gruči, opredeljeni s ključniki <hi rend="italic">območje
                     evra, indeks, eurostoxx, uvedba evra, tečaj evra, evropska centralna banka
                  </hi>ter <hi rend="italic">evropska borza, cena nafte, neenotno, valutni trg.
                  </hi>Ključni izrazi in primeri rabe kažejo, da se beseda <hi rend="italic"
                     >evro</hi> v teh gručah uporablja v bolj generičnem, abstraktnem kontekstu
                  pomena 'denarna enota'. Konteksti vključujejo napovedi vzpostavljanja »evro
                  območja« in načrte vpeljave nove valute. V letu 2002, ko valuta dejansko že
                  zamenja lokalne valute, se pojavi konkretnejša raba besede v bolj specifičnih
                  kontekstih (»500 evrov, »100 evrov«, »milijon evrov«).</p>
               <p style="text-align: justify;">Drugo mesto med najbolj spremenjenimi samostalniki,
                  kot pri dolgoročnih spremembah, tudi v tem razseku korpusa zaseda beseda <hi
                     rend="italic">portal. </hi>Glede na različnost distribucij se je največja
                  sprememba v rabi zgodila med obdobjema 1997 in 2002, kjer je opaziti najvidnejši
                  upad v konkretni rabi, tj. v pomenu gradbenega elementa. V prvem obdobju namreč ta
                  raba predstavlja veliko večino (73 odstotkov) primerov, v letu 2002 pa že pade na
                  manj kot 18 odstotkov. Vse večji upad rabe po posamičnih obdobjih lahko spremljamo
                  na Sliki 7.</p>
               <figure>
                  <head>Slika 7: Distribucija rab besede <hi rend="italic">portal </hi>v petih
                     zaporednih obdobjih. Viden je izrazit upad dobesedne rabe (modra gruča) po letu
                     1997.</head>
                  <graphic url="image8.png"/>
                  <lb/>
                  <note n="">Vir: lastno delo</note>
               </figure>
               <p style="text-align: justify;">Tretji samostalnik, ki odraža največ sprememb v
                  zaporednih obdobjih glede na skupni seštevek, je <hi rend="italic">razcep
                  </hi>(Slika 8). Največ prispeva primerjava obdobij 2007 in 2013. V prvih treh
                  obdobjih je raba skoraj enakomerno razporejena med tri prevladujoče gruče, in
                  sicer vijolično s ključnimi izrazi <hi rend="italic">razcep stranke, nevtron,
                     politični razcep, notranji razcep, razcep jedra, </hi>modro z izrazi <hi
                     rend="italic">razcep stranke, politični razcep, povzročiti razcep, vladen,
                     telo, slovenski razcep </hi>in zeleno z izrazi <hi rend="italic">razcep ceste,
                     razcep levo, obvoznica, zaprt razcep. </hi>Četudi ključni izrazi v prvih dveh
                  gručah nakazujejo rabo le v političnem in fizikalnem kontekstu, primeri uporabe
                  pokažejo zelo raznovrstno metaforično rabo: »notranji razcep« (osebe), »razcep na
                  levo ali desno«, »verski razcep«, »razcep med demokrati«, »razcep med človekom in
                  svetom«, »generacijski razcep«, »razcep med umom in telesom«, »razcep na dve
                  identiteti«. Modra gruča vsebuje tudi nekaj primerov, kjer so razvidne bolj
                  fizikalne in konkretne rabe: »razcep jeder«, »jedrni razcep«. Razlika med prvo in
                  drugo gručo je videti zgolj skladenjske narave, v primerih rabe iz modre gruče se
                     <hi rend="italic">razcep</hi> pojavlja le v imenovalniku. Tretja oziroma zelena
                  gruča zaznamuje rabo v slovarskem pomenu 'vsaka od cest, prog, ki nastane z
                  razcepitvijo ceste, proge'.<note place="foot" xml:id="ftn63" n="58">
                     <hi rend="italic">Slovar slovenskega knjižnega jezika</hi>, druga, dopolnjena
                     in deloma prenovljena izdaja, pridobljeno 1. 2. 2025, <ref
                        target="file:///C:\Miha\2025\PNZ\2025\3\1_produkcija\7_Brglez\www.fran.si"
                        >www.fran.si</ref>.</note> V zadnjih dveh obdobjih, tj. 2013 in 2018, pa se
                  te rabe skoraj popolnoma umaknejo, v korpusu prevladujeta rdeča in oranžna gruča.
                  Konteksti rabe vsebujejo enake ali vsebinsko zelo podobne izraze <hi rend="italic"
                     >cesta, ljubljana, prometno, priključek, obvoznica, promet, zastoj. </hi>Po
                  ključnih besedah se tematika rabe ujema z zeleno gručo. Iz primerjave povedi teh
                  treh »cestnih« gruč pa ugotavljamo, da sistem ni razločil pomenskih, temveč
                  žanrske in stilistične razlike. Za zeleno je namreč značilna bolj pripovedna,
                  mestoma subjektivna raba, za oranžno in rdečo pa obvestilna raba s suhoparnim,
                  objektivnim slogom.</p>
               <figure>
                  <head>Slika 8: Distribucije rab besede razcep v petih zaporednih obdobjih.
                     Največja sprememba je vidna pri prehodu iz 2007 v 2013.</head>
                  <graphic url="image9.png"/>
                  <lb/>
                  <note n="">Vir: lastno delo</note>
               </figure>
            </div>
            <div>
               <head>Analiza reprezentacije migracij</head>
               <p style="text-align: justify;">V prejšnjih poglavjih smo pokazali, da lahko sistem
                  uporabimo za analizo sprememb v rabi besed v različnih obdobjih. Meje med obdobji
                  so bile določene glede na razpoložljive podatke, korpus Gigafida 2.0 smo razdelili
                  na dve in pet obdobij, da smo preverili, kako uspešen je sistem pri zaznavanju
                  dolgoročnih sprememb in sprememb v več zaporednih obdobjih.</p>
               <p style="text-align: justify;">V tem poglavju nas po drugi strani zanima, kako so
                  specifični dogodki, teroristični napad v ZDA 11. septembra 2001 in obdobje
                  »begunske krize« oziroma »dolgega poletja migracij« (2015–2016), vplivali na
                  reprezentacijo fenomena migracij v slovenski družbi. V ta namen smo korpus
                  Gigafida razdelili na pet jasno zamejenih obdobij:<note place="foot"
                     xml:id="ftn64" n="59"> Sistem za analizo sprememb v rabi besed med temi petimi
                     obdobji je dostopen na (<hi rend="italic">E8-NLP</hi>) <ref
                        target="http://kt-nlp-demo.ijs.si:8080/semanticshifttable/6"
                        >http://kt-nlp-demo.ijs.si:8080/semanticshifttable/6</ref>.</note></p>
               <list rend="bulleted">
                  <item>predobdobje (1995–97);</item>
                  <item>čas terorističnega napada (2001–02) v ZDA 11. septembra 2001, ki mu sledi
                     načeloma</item>
                  <item>nevtralno obdobje (2010–11);</item>
                  <item>obdobje množičnih migracij v Evropi po zahodnobalkanski poti, najpogosteje
                     poimenovan »begunska kriza« (2015–16), in</item>
                  <item>poobdobje (2017–18).</item>
               </list>
               <p style="text-align: justify;">Sestava podkorpusov je navedena v Tabeli 2.</p>
               <figure>
                  <head>Tabela 2: Velikost korpusa za analizo reprezentacije migracij</head>
                  <graphic url="image10.png"/>
                  <lb/>
                  <note n="">Vir: lastno delo</note>
               </figure>
               <p style="text-align: justify;">Med besedami, ki so spremenile rabo med temi petimi
                  obdobji, obravnavamo dva specifična primera, <hi rend="italic">burka</hi> in <hi
                     rend="italic">pritok</hi>.</p>
               <p style="text-align: justify;">Besedi <hi rend="italic">burka </hi>in <hi
                     rend="italic">pritok</hi> smo za analizo izbrali glede na povezanost s tematiko
                  migracij. Med višje uvrščenimi besedami glede na spremembo rabe je bila vrsta
                  besed, ki odražajo splošnejšo spremembo rabe (npr. severnomorski, rafiniran,
                  evro), nas pa je zanimala specifika jezika v zvezi s pojavom migracij. Slika 9
                  ponazori spremembo v rabi besede <hi rend="italic">burka</hi>. V obdobju pred
                  napadi v ZDA 11. septembra 2001 je razumevanje besede povezano predvsem s pomenoma
                  'norčavo vedenje ali govorjenje' ter 'dramsko delo s šaljivo, včasih grobo
                  vsebino, komiko'.<note place="foot" xml:id="ftn65" n="60">
                     <hi rend="italic">Slovar slovenskega knjižnega jezika, </hi>druga, dopolnjena
                     in deloma prenovljena izdaja, pridobljeno 1. 2. 2025, www.fran.si. </note> Raba
                  besede v pomenu muslimanskega ženskega oblačila v petih obravnavanih obdobjih
                  narašča in je najpogostejša v zadnjem obdobju (2017–2018). Treba je poudariti, da
                  gre tu v resnici za dve izvorno različni besedi: eno je burka iz družine <hi
                     rend="italic">burkež, burkati</hi> ipd., druga je <hi rend="italic">burqa</hi>
                  – žensko muslimansko oblačilo. Tu torej povečana raba besede burka v določenem
                  časovnem obdobju ni odraz pomenskega premika, pač pa posledica prevzema besedne
                  oblike (burqua) iz tujega jezika, ki sovpada (homograf) z v jeziku že obstoječo
                  besedo. Vstop besede <hi rend="italic">burqa </hi>v prostor prej obstoječe besede
                     <hi rend="italic">burka </hi>je v tem primeru sociolingvistično pogojen,
                  dejstvo, da sistem zaznava ta prevzem prostora, pa pokaže, da je sistem mogoče
                  uporabiti tudi za sociološko analizo.</p>
               <figure>
                  <head>Slika 9: Sprememba v rabi besede <hi rend="italic">burka</hi></head>
                  <graphic url="image11.png">
                     <desc>A screenshot of a computer AI-generated content may be incorrect.</desc>
                  </graphic>
                  <note n="">Vir: lastno delo</note>
               </figure>
               <p style="text-align: justify;">Uporaba besede <hi rend="italic">burka </hi>v smislu
                  ženskega oblačila začne naraščati takoj po zrušenju dvojčkov WTC v ZDA in postane
                  prevladujoča v času razprave o prepovedi nošenja burke oziroma nikaba v javnosti,
                  ki je tudi v Sloveniji potekala predvsem v smislu, ali naj se na ravni države to
                  zakonsko prepove (kot denimo velja v Franciji vse od leta 2011). Ta vidik je bil
                  pričakovano najbolj izpostavljen v obdobju po napadu na ZDA, ki mu je sledila
                  napoved t. i. vojne proti terorizmu (angl. <hi rend="italic">the war on
                     terror</hi>), ter v času t. i. begunske krize, ko je ozemlje Slovenije kot ene
                  od držav na zahodnobalkanski migracijski poti v obdobju 2015–2016 prečkalo 400.000
                  beguncev, za katere se je predvidevalo, da so muslimanske veroizpovedi. Prvotni
                  humanitarni vladni odziv je zamenjala kriminalizacija migracij. Po podatkih
                  Eurobarometra je odstotek anketirancev, ki so navajali priseljevanje kot ključno
                  vprašanje, s katerim se sooča EU, s 25 odstotkov leta 2014 narastel na skoraj 40
                  odstotkov v letu 2015, priseljevanje ljudi iz držav zunaj EU pa je vzbujalo
                  negativne občutke kar pri 56 odstotkih vprašanih.<note place="foot" xml:id="ftn66"
                     n="61"> Evropska komisija, »Standard Eurobarometer 83 – Spring 2015,«
                     pridobljeno 25. 2. 2024, <ref
                        target="https://europa.eu/eurobarometer/surveys/detail/2099"
                        >https://europa.eu/eurobarometer/surveys/detail/2099</ref>.</note> V
                  Sloveniji se je širil protibegunski in protipriseljenski sovražni govor, v javnem
                  diskurzu pa je tema migracij postajala vse bolj žgoča in polarizirajoča.<note
                     place="foot" xml:id="ftn67" n="62"> Za več gl. Veronika Bajt in Ajda Šulc,
                     »Medijsko ustvarjanje protibegunskega sovražnega govora v komentarjih na
                        Facebooku,«<hi rend="italic"> Javnost: The Public</hi> 31, sup 1 (2024):
                     48–66. Boris Vezjak, »Radical Hate Speech: The Fascination with Hitler and
                     Fascism on the Slovenian Webosphere,« <hi rend="italic">Šolsko polje</hi> 29,
                     št. 5-6 (2018): 133–51. Maruša Pušnik, »Dinamika novičarskega diskurza
                     populizma in ekstremizma: moralne zgodbe o beguncih,«<hi rend="italic"> Dve
                        domovini</hi> 45 (2017): 137–52.</note> Najobsežnejša pa je uporaba besede
                  burka v smislu ženskega oblačila v obdobju po ključnih dveh časovnih točkah v
                  poobdobju, kar sovpada z globalnim porastom razprave o migracijah kot problemu,
                  predvsem zaradi domnevne nezdružljivosti islama z zahodno oziroma evropsko (in
                  slovensko) kulturo.<note place="foot" xml:id="ftn68" n="63"> Arun Kundnani,<hi
                        rend="italic"> The muslims are coming: Islamophobia, extremism, and the
                        domestic war on terror</hi> (Verso, 2015).</note> V zadnjem obdobju tako pri
                  rabi besede prevladuje vidik spola, razprava pa se osredotoči na muslimansko
                     žensko.<note place="foot" xml:id="ftn69" n="64"> Sara R. Farris, <hi
                        rend="italic">In the name of women's rights: The rise of
                        femonationalism</hi> (Duke University Press, 2017), <ref
                        target="http://www.jstor.org/stable/j.ctv11sn2fp"
                        >http://www.jstor.org/stable/j.ctv11sn2fp</ref>.</note></p>
               <figure>
                  <head>Slika 10: Sprememba v rabi besede <hi rend="italic">pritok</hi></head>
                  <graphic url="image12.png"/>
                  <lb/>
                  <note n="">Vir: lastno delo</note>
               </figure>
               <p style="text-align: justify;">Zanimiva je tudi sprememba v rabi besede <hi
                     rend="italic">pritok</hi> (Slika 10). Od prevladujoče povezave <hi
                     rend="italic">pritoka </hi>z vodo (»pritok reke«) v drugi polovici devetdesetih
                  let, ki kaže dobesedno rabo v osnovnem pomenu besede, se v drugem (in tudi
                  tretjem) obdobju kaže metaforični pomen z navezavo na denar, banke in devize (npr.
                  »pritok kapitala«). Očiten porast v rabi v povezavi z migracijami je videti v
                  obdobju »begunske krize« z rabo besede v zvezah »pritok
                  migrantov/beguncev/prebežnikov«. V tem obdobju je sprememba v rabi povezana s
                  političnim dogajanjem v Evropi, kjer v ospredje preide problematika omejevanja in
                  upravljanja migracij ter preprečevanje vstopa beguncem, kar potrjujejo vse
                  obstoječe raziskave medijskega poročanja (gl. npr. Pajnik 2017<note place="foot"
                     xml:id="ftn70" n="65"> Mojca Pajnik, »Medijsko-politični paralelizem:
                     Legitimizacija migracijske politike na primeru komentarja v časopisu <hi
                        rend="italic">Delo</hi>,«<hi rend="italic"> Dve domovini </hi>45 (2017):
                     169–84.</note>). Nezaupanje do muslimanskih beguncev, ki naj bi kot neustavljiv
                  »val« ali »reka« (tj. pritok) pritiskali na EU, je razširjeno po vsej Evropi in se
                  povezuje z marginalizacijo muslimanskih priseljencev. Protibegunski diskurz v
                  analiziranem obdobju se torej zaradi prevlade ali domnev o prevladi »izvora«
                  prišlekov iz islamskih držav prepleta s predobstoječimi predsodki do islama in
                  endemičnimi protimuslimanskimi stališči. V poobdobju tega več ni, se pa spet
                  okrepi povezava z vodo in rekami.</p>
            </div>
         </div>
         <div>
            <head>Zaključek in nadaljnje delo</head>
            <p style="text-align: justify;">V članku smo predstavili prvi spletni sistem za
               zaznavanje sprememb v rabi besed v slovenščini. Pri tem smo podrobneje osvetlili
               njegovo tehnično zasnovo, metodo za zaznavanje besed in enostavno dostopen
               uporabniški vmesnik. Ta v enem koraku omogoča hiter pregled največjih sprememb v rabi
               na ravni celotnega korpusa, v drugem koraku pa podrobnejšo analizo na ravni posamezne
               besede.</p>
            <p style="text-align: justify;">Sistem smo nato uporabili in evalvirali s pomočjo
               jezikoslovne in sociolingvistične analize. V prvi smo podrobneje interpretirali
               rezultate sistema z vpogledom v pridevnike in samostalnike, katerih raba naj bi se
               najbolj spremenila. Pri tem smo gruče analizirali na ravni ključnih izrazov in
               dejanskih primerov rabe, ki jih prikaže sistem. Tako gruče kot dejanske rabe smo
               skušali kategorizirati v različne kategorije pomena in pomenskih premikov
               (dobesedni/osnovni, metaforični, metonimični) in tudi vzporejati s slovarskimi
               pomeni, obeleženimi v Slovarju slovenskega knjižnega jezika. Analiza je pokazala, da
               je sistem uporaben za odkrivanje različnih rab v širšem smislu, vendar pa same gruče
               večinoma ne ustrezajo zgolj semantiki, tj. pomenski plati posamičnih besed. Sistem v
               veliko primerih prikaže več gruč pogostih rab, kot jih dejansko obstaja, torej več,
               kot je pomenov v slovarju ali v rabi. Problem izhaja iz narave vektorskih vložitev,
               ki poleg semantične plati besed ujamejo tudi skladenjske in morfološke lastnosti
               besed pa tudi druge globalne vzorce, ki jih je mogoče zaznati v širšem kontekstu (v
               jeziku ponavljajoči se vzorci, kot so na primer stereotipi). Zaradi tega sistem v
               veliko primerih ustvari več gruč, ki pokrivajo semantično enako rabo oziroma isti
               leksikalni pomen besede, v različne gruče pa je ta pomensko enaka raba uvrščena
               zaradi nepomenskih razlik, kot je morfologija, skladnja, slog ali dolžina povedi ipd.
               Velja tudi obratno, tj. da ena gruča združuje sicer različne pomene s površinsko
               podobno rabo besede. Večje število gruč, kot je dejanskih rab, izhaja tudi iz metode
               gručenja, pri kateri je število gruč vnaprej določeno.</p>
            <p style="text-align: justify;">Druga omejitev sistema izhaja iz uporabljenih podatkov.
               O stanju slovenskega (standardnega) jezika in rabi sodimo glede na njegovo
               reprezentacijo v korpusu Gigafida. Četudi naj bi bil kot referenčni korpus
               slovenščine karseda reprezentativen in uravnotežen vir, je povsem mogoče, da na
               (navidezne) spremembe v rabi določenih besed vplivajo predvsem razlike v sestavi
               virov posameznih časovnih podkorpusov. Pri interpretaciji rezultatov, ki jih poda
               sistem, velja ohraniti previdnost, saj morda že sam korpus ne prikazuje ustrezne
               jezikovni realnosti.</p>
            <p style="text-align: justify;">V prihodnje načrtujemo uporabo sistema na novejših
               besedilnih korpusih v slovenščini, ki vsebujejo podatke o rabi besed po letu 2018. V
               načrtu so tudi raziskave sprememb v rabi besed za specifične primere in dogodke (npr.
               kako je na evolucijo raznovrstnih konceptov, nova poimenovanja in pomenske prenose
               vplivala pandemija covida, ki je glede na raziskave imela odločilen vpliv na
               evolucijo medijskega poročanja<note place="foot" xml:id="ftn71" n="66"> Montariol et
                  al., »Scalable and interpretable.«</note>). Prav tako bomo preizkusili nove metode
               za zaznavanje in interpretacijo sprememb v rabi besed in s tem poskušali izboljšati
               delovanje sistema, na primer z uporabo drugega algoritma za gručenje ali bolj
               informirane metrike za merjenje sprememb v distribuciji rab. Nenazadnje pa se bomo
               osredotočili tudi na metode za odkrivanje skupine besed in konceptov, ki izražajo
               podobne spremembe v rabi – denimo iskanje besed, ki kažejo razširitve pomena
               specifično prek metafor, ali odkrivanje konceptov in semantičnih polj, ki kažejo
               največjo raznolikost pomenov.</p>
         </div>
         <div>
            <head>Zahvala</head>
            <p>Delo je bilo izvedeno v okviru projekta RSDO (<hi rend="italic">Razvoj slovenščine v
                  digitalnem okolju</hi>), ki sta ga financirala Ministrstvo za kulturo Republike
               Slovenije in Evropski sklad za regionalni razvoj, ter v okviru programov in projektov
               Javne agencije za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
               (ARIS): <hi rend="italic">Sovražni govor v sodobnih konceptualizacijah nacionalizma,
                  rasizma, spola in migracij</hi> (J5-3102), <hi rend="italic">Tehnike vektorskih
                  vložitev za medijske aplikacije</hi> (L2-50070), <hi rend="italic">Veliki
                  jezikovni modeli za digitalno humanistiko</hi> (GC-0002), <hi rend="italic"
                  >Računalniško podprta večjezična analiza novičarskega diskurza s kontekstualnimi
                  besednimi vložitvami</hi> (J6-2581), <hi rend="italic">Tehnologije znanja</hi>
               (P2-0103), <hi rend="italic">Slovenski jezik - bazične, kontrastivne in aplikativne
                  raziskave</hi> (P6-0215) in <hi rend="italic">Enakost in človekove pravice v dobi
                  globalnega vladovanja</hi> (P5-0413).</p>
         </div>
      </body>
      <back>
         <div type="bibliogr">
            <head>Vira in literatura</head>
            <listBibl>
               <head>Literatura</head>
               <bibl>Aitchison, Jean. <hi rend="italic">Language change: Progress or decay?.
                  </hi>Cambridge University Press, 2001.</bibl>
               <bibl>Bajt, Veronika in Ajda Šulc. »Medijsko ustvarjanje protibegunskega sovražnega
                  govora v komentarjih na Facebooku.« <hi rend="italic">Javnost - The Public</hi>
                  31, sup 1 (2024): 48–66. <ref
                     target="https://doi.org/10.1080/13183222.2024.2443868"
                     >https://doi.org/10.1080/13183222.2024.2443868</ref>.</bibl>
               <bibl>Del Tredici, Marco, Malvina Nissim in Andrea Zaninello. »Tracing metaphors in
                  time through self-distance in vector spaces.« V: <hi rend="italic">Proceedings of
                     the Third Italian Conference on Computational Linguistics CLiC-It 2016</hi>,
                  117–22. Accademia University Press, 2016. <ref
                     target="https://doi.org/10.4000/books.aaccademia.1760"
                     >https://doi.org/10.4000/books.aaccademia.1760</ref>.</bibl>
               <bibl>Devlin, Jacob, Ming-Wei Chang, Kenton Lee in Kristina Toutanova. »BERT:
                  Pre-training of deep bidirectional transformers for language understanding.« V:
                     <hi rend="italic">Proceedings of the 2019 conference of the North American
                     chapter of the Association for computational linguistics: Human language
                     technologies, volume 1 (long and short papers)</hi>. Association for
                  Computational Linguistics, 2019, 4171–86. <ref
                     target="https://doi.org/10.18653/v1/N19-1423"
                     >https://doi.org/10.18653/v1/N19-1423</ref>. </bibl>
               <bibl>Erjavec, Tomaž, Nikola Ljubešić in Darja Fišer. »Korpus slovenskih spletnih
                  uporabniških vsebin Janes.« V: <hi rend="italic">Viri, orodja in metode za analizo
                     spletne slovenščine</hi>, ur. Darja Fišer, 16–43. Ljubljana: Znanstvena založba
                  Filozofske fakultete Univerze v Ljubljani, 2018.</bibl>
               <bibl>Farris, Sara R. <hi rend="italic">In the name of women’s rights: The rise of
                     femonationalism. </hi>Duke University Press, 2017. <ref
                     target="http://www.jstor.org/stable/j.ctv11sn2fp"
                     >http://www.jstor.org/stable/j.ctv11sn2fp</ref>. </bibl>
               <bibl>Fišer, Darja in Nikola Ljubešić. »Tviti kot leksikografski vir za analizo
                  pomenskih premikov v slovenščini.« V: <hi rend="italic">Viri, orodja in metode za
                     analizo spletne slovenščine</hi>, ur. Darja Fišer, 198-226. Ljubljana:
                  Znanstvena založba Filozofske fakultete Univerze v Ljubljani, 2018.</bibl>
               <bibl>Gantar, Polona, Špela Arhar Holdt in Senja Pollak. »Leksikalne novosti v
                  besedilih računalniško posredovane komunikacije.« <hi rend="italic">Slavistična
                     revija</hi> 66, št. 4 (2018): 459–72.</bibl>
               <bibl>Gillani, Nabeel in Roger Levy. »Simple dynamic word embeddings for mapping
                  perceptions in the public sphere.« V: <hi rend="italic">Proceedings of the third
                     workshop on natural language processing and computational social science</hi>,
                  2019, 94–99. </bibl>
               <bibl>Giulianelli, Mario, Marco Del Tredici in Raquel. Fernández. »Analysing lexical
                  semantic change with contextualised word representations.« V: <hi rend="italic"
                     >Proceedings of the 58</hi><hi rend="italic superscript">th</hi><hi
                     rend="italic"> annual meeting of the Association for computational
                     linguistics,</hi> 3960–73. Association for Computational Linguistics, 2020.
                     <ref target="https://www.aclweb.org/anthology/2020.acl-main.365"
                     >https://www.aclweb.org/anthology/2020.acl-main.365</ref>.</bibl>
               <bibl>Gribomont, Isabelle. »From Diachronic to Contextual Lexical Semantic Change:
                  Introducing Semantic Difference Keywords (SDKs) for Discourse Studies.« V: <hi
                     rend="italic">Proceedings of the 4th Workshop on Computational Approaches to
                     Historical Language Change</hi>, 153–60. Association for Computational
                  Linguistics, 2023.</bibl>
               <bibl>Hamilton, William L., Jure Leskovec in Dan Jurafsky. »Diachronic word
                  embeddings reveal statistical laws of semantic change.« V: <hi rend="italic"
                     >Proceedings of the 54</hi><hi rend="italic superscript">th</hi><hi
                     rend="italic"> annual meeting of the Association for computational linguistics,
                  </hi>1489–501. Association for computational linguistics, 2016. <ref
                     target="http://doi.org/10.18653/v1/P16-1141"
                     >http://doi.org/10.18653/v1/P16-1141</ref>.</bibl>
               <bibl>Harris, Zellig S. »Distributional Structure.« <hi rend="italic">WORD</hi> 10,
                  št. 2–3 (1954): 146–62.</bibl>
               <bibl>Hilpert, Martin in Stefan Th. Gries. »Assessing frequency changes in multistage
                  diachronic corpora: Applications for historical corpus linguistics and the study
                  of language acquisition.« <hi rend="italic">Literary and Linguistic Computing
                  </hi>24, št. 4 (2008): 385–401.</bibl>
               <bibl>Juola, Patrick. »The time course of language change.« <hi rend="italic"
                     >Computers and the Humanities</hi> 37, št. 1 (2003): 77–96.</bibl>
               <bibl>Kim, Yoon, Yi-I Chiu, Kentaro Hanaki, Darshan Hegde in Slav Petrov. »Temporal
                  analysis of language through neural language models.« V: <hi rend="italic"
                     >Proceedings of the ACL 2014 workshop on language technologies and
                     computational social science</hi> (2014): 61–65. <ref
                     target="http://doi.org/10.3115/v1/W14-2517"
                     >http://doi.org/10.3115/v1/W14-2517</ref>. </bibl>
               <bibl>Krek, Simon, Špela Arhar Holdt, Tomaž Erjavec, Jaka Čibej, Andraž Repar, Polona
                  Gantar idr. »Gigafida 2.0: the reference corpus of written standard Slovene.« V:
                     <hi rend="italic">Proceedings of the 12</hi><hi rend="italic superscript"
                     >th</hi><hi rend="italic"> Language resources and evaluation conferenc</hi>e,
                  3340–45. ELRA, 2020.</bibl>
               <bibl>Kundnani, Arun. <hi rend="italic">The muslims are coming: Islamophobia,
                     extremism, and the domestic war on terror</hi>. Verso, 2015.</bibl>
               <bibl>Kutuzov, Andrey in Mario Giulianelli. »UiO-UvA at SemEval-2020 task 1:
                  Contextualised embeddings for lexical semantic change detection.« V: <hi
                     rend="italic">Proceedings of the fourteenth workshop on semantic
                     evaluation,</hi> 126–34. International Committee for Computational Linguistics,
                  2020. <ref target="https://www.aclweb.org/anthology/2020.semeval-1.14"
                     >https://www.aclweb.org/anthology/2020.semeval-1.14</ref>. </bibl>
               <bibl>Lakoff, George in Mark Johnson. <hi rend="italic">Metaphors We Live By</hi>.
                  University of Chicago Press, 1980.</bibl>
               <bibl>Lin, Jianhua. »Divergence measures based on the Shannon entropy.« <hi
                     rend="italic">IEEE Transactions on Information theory</hi> 37, št. 1 (1991):
                  145–51.</bibl>
               <bibl>Ljubešić, Nikola, Luka Terčon in Kaja Dobrovoljc. »CLASSLA-Stanza: The Next
                  Step for Linguistic Processing of South Slavic Languages.« V: <hi rend="italic"
                     >Zbornik konference za jezikovne tehnologije in digitalno humanistiko
                     (JT-DH-2024)</hi>, ur. Špela Arhar Holdt in Tomaž Erjavec. 251–74. Ljubljana:
                  Inštitut za novejšo zgodovino, 2024. <ref
                     target="https://doi.org/10.5281/zenodo.13936406"
                     >https://doi.org/10.5281/zenodo.13936406</ref>.</bibl>
               <bibl>Martinc, Matej, Veronika Bajt, Špela Rot in Senja Pollak. »Sistem za zaznavanje
                  sprememb v rabi besed in njegova uporaba za sociolingvistično analizo.« V: <hi
                     rend="italic">Zbornik konference Jezikovne tehnologije in digitalna humanistika
                     2024</hi>, 298–318. Ljubljana: Inštitut za novejšo zgodovino, 2024. <ref
                     target="https://doi.org/10.5281/zenodo.13936410"
                     >https://doi.org/10.5281/zenodo.13936410</ref>.</bibl>
               <bibl>Martinc, Matej, Petra Kralj Novak in Senja Pollak. »Leveraging contextual
                  embeddings for detecting diachronic semantic shift.« V:<hi rend="italic">
                     Proceedings of the twelfth language resources and evaluation conference,</hi>
                  4811–19. ELRA, 2020. <ref target="https://aclanthology.org/2020.lrec-1.592"
                     >https://aclanthology.org/2020.lrec-1.592</ref>. </bibl>
               <bibl>Martinc, Matej, Syrielle Montariol, Elaine Zosa in Lidia Pivovarova. »Capturing
                  evolution in word usage: Just add more clusters?.« V: <hi rend="italic">Companion
                     proceedings of the web conference 2020,</hi> 343–49. Association for Computing
                  Machinery, 2020. <ref target="https://doi.org/10.1145/3366424.3382186"
                     >https://doi.org/10.1145/3366424.3382186</ref>.</bibl>
               <bibl>Martinc, Matej, Nina Perger, Andraž Pelicon, Matej Ulčar, Andreja Vezovnik in
                  Senja Pollak. »EMBEDDIA hackathon report: Automatic sentiment and viewpoint
                  analysis of Slovenian news corpus on the topic of LGBTIQ+.« V: <hi rend="italic"
                     >Proceedings of the EACL Hackashop on news media content analysis and automated
                     report generation,</hi> 121–26. 2021.</bibl>
               <bibl>Martinc, Matej, Nina Perger in Senja. Pollak. »Viewpoint detection on LGBT+
                  reporting using contextual embeddings and qualitative thematic analysis: The use
                  case on the word <hi rend="italic">deep</hi>.« <hi rend="italic">Bulletin of
                     Sociological Methodology/Bulletin de Méthodologie Sociologique </hi>165–166,
                  št. 1–2 (2025): 154–85. <ref target="https://doi.org/10.1177/07591063251317085"
                     > </ref><ref target="https://doi.org/10.1177/07591063251317085"
                     >https://doi.org/10.1177/07591063251317085</ref>. </bibl>
               <bibl>Menéndez, María L., Julio A. Pardo, Leandro Pardo in María C. Pardo. »The
                  Jensen-Shannon divergence.« <hi rend="italic">Journal of the Franklin
                     Institute</hi> 334, št. 2 (1997): 307–18, <ref
                     target="https://doi.org/10.1016/S0016-0032(96)00063-4"
                     >https://doi.org/10.1016/S0016-0032(96)00063-4</ref>.</bibl>
               <bibl>Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S. Corrado in Jeff Dean.
                  »Distributed representations of words and phrases and their compositionality.« <hi
                     rend="italic">Advances in neural information processing systems </hi>26
                  (2013).</bibl>
               <bibl>Montariol, Syrielle, Matej Martinc in Lidia Pivovarova. »Scalable and
                  interpretable semantic change detection.« V: <hi rend="italic">Proceedings of the
                     2021 conference of the north american chapter of the association for
                     computational linguistics human language technologies, </hi>4642–52. ACL,
                  2021.</bibl>
               <bibl>Pajnik, Mojca. »Medijsko-politični paralelizem. legitimizacija migracijske
                  politike na primeru komentarja v časopisu Delo.« <hi rend="italic">Dve domovini /
                     Two Homelands</hi> 45 (2017): 169–84.</bibl>
               <bibl>Pranjić, Marko, Kaja Dobrovoljc, Senja Pollak in Matej Martinc. »Semantic
                  change detection for slovene language: a novel dataset and an approach based on
                  optimal transport.« <hi rend="italic">arXiv:2402.16596 </hi>(arXiv preprint,
                  2024). <ref target="https://doi.org/10.48550/arXiv.2402.16596"
                     >https://doi.org/10.48550/arXiv.2402.16596</ref>.</bibl>
               <bibl>Pušnik, Maruša. »Dinamika novičarskega diskurza populizma in ekstremizma:
                  moralne zgodbe o beguncih.«<hi rend="italic"> Dve domovini / Two Homelands</hi> 45
                  (2017): 137–52.</bibl>
               <bibl>Schlechtweg, Dominik, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky in
                  Nina Tahmasebi. »SemEval-2020 task 1: Unsupervised lexical semantic change
                  detection.« V: <hi rend="italic">Proceedings of the fourteenth workshop on
                     semantic evaluation. </hi>International Committee for Computational
                  Linguistics, 2020, 1–23. <ref
                     target="https://www.aclweb.org/anthology/2020.semeval-1.1"
                     >https://www.aclweb.org/anthology/2020.semeval-1.1</ref>.</bibl>
               <bibl>Snoj, Jerica. »Slovarska večpomenskost in Slovensko leksikalno pomenoslovje.«
                     <hi rend="italic">Slavistična Revija</hi> 51, št. 4 (2003): 387–409.</bibl>
               <bibl>Sweetser, Eve. <hi rend="italic">From Etymology to Pragmatics: Metaphorical and
                     Cultural Aspects of Semantic Structure</hi>. Cambridge University Press, 1990. </bibl>
               <bibl>Tahmasebi, Nina, Lars Borin in Adam Jatowt. »Survey of computational approaches
                  to lexical semantic change detection.« V: Nina Tahmasebi, Lars Borin, Adam Jatowt,
                  Yang Xu in Simon Hengchen, ur.<hi rend="italic"> Computational approaches to
                     semantic change</hi>. Language Science Press, 2021, 1–91. <ref
                     target="https://doi.org/10.5281/zenodo.5040302"
                     >https://doi.org/10.5281/zenodo.5040302</ref>.</bibl>
               <bibl>Tahmasebi, Nina, Lars Borin, Adam Jatowt, Yang Xu in Simon Hengchen, ur.<hi
                     rend="italic"> Computational approaches to semantic change</hi>. Language
                  Science Press, 2021. <ref target="https://doi.org/10.5281/zenodo.5040241"
                     >https://doi.org/10.5281/zenodo.5040241</ref>. </bibl>
               <bibl>Tang, Xuri. »A state-of-the-art of semantic change computation,« <hi
                     rend="italic">Natural Language Engineering</hi> 24, št. 5 (2018):
                  649–76.</bibl>
               <bibl>Ulčar, Matej in Marko Robnik Šikonja. »SloBERTa: Slovene monolingual large
                  pretrained masked language model.« V:<hi rend="italic"> Zbornik 24. mednarodne
                     multikonference Informacijska družba 2021, zvezek C</hi>, 17-20. Ljubljana:
                  Institut »Jožef Stefan«, 2021.</bibl>
               <bibl>Vezjak, Boris. »Radical Hate Speech: The Fascination with Hitler and Fascism on
                  the Slovenian Webosphere.« <hi rend="italic">Šolsko polje</hi> 29, št. 5–6 (2018):
                  133–51.</bibl>
               <bibl>Wei, Yuting, Meiling Li, Yangfu Zhu, Yuanxing Xu, Yuqing Li in Bin Wu. »A
                  diachronic language model for long-time span classical Chinese.« <hi rend="italic"
                     >Information Processing &amp; Management</hi> 62, št. 1 (2025), 103925. <ref
                     target="https://doi.org/10.1016/j.ipm.2024.103925"
                     >https://doi.org/10.1016/j.ipm.2024.103925</ref>.</bibl>
               <bibl>Vidovič Muha, Ada<hi rend="italic">. Slovensko leksikalno pomenoslovje:
                     govorica slovarja</hi>. Ljubljana: Znanstveni inštitut Filozofske fakultete,
                  2000.</bibl>
               <bibl>Würschinger, Quirin in Barbara McGillivray. »Semantic change and socio-semantic
                  variation: the case of COVID-related neologisms on Reddit.« <hi rend="italic"
                     >Linguistics Vanguard</hi>, 2024. <ref
                     target="https://doi.org/10.1515/lingvan-2023-0106"
                     >https://doi.org/10.1515/lingvan-2023-0106</ref>.</bibl>
               <bibl>Zamora-Reina, F. D., F. Bravo-Marquez in D. Schlechtweg. »LSCDiscovery: A
                  shared task on semantic change discovery and detection in Spanish.« V:<hi
                     rend="italic"> Proceedings of the 3</hi><hi rend="italic superscript"
                     >rd</hi><hi rend="italic"> Workshop on Computational Approaches to Historical
                     Language Change,</hi> 149–64. Association for Computational Linguistics,
                  2022.</bibl>
            </listBibl>
            <listBibl>
               <head>Spletni viri</head>
               <bibl>Evropska komisija. »Standard Eurobarometer 83 - Spring 2015.« Pridobljeno 24.
                  2. 2024. <ref target="https://europa.eu/eurobarometer/surveys/detail/2099"
                     >ttps://europa.eu/eurobarometer/surveys/detail/2099</ref>. </bibl>
               <bibl>Evropska komisija. »EU Strategy for the Adriatic and Ionian Region.«
                  Pridobljeno 15. 4. 2025. <ref
                     target="https://ec.europa.eu/regional_policy/policy/cooperation/macro-regional-strategies/adriatic-ionian_en"
                     >https://ec.europa.eu/regional_policy/policy/cooperation/macro-regional-strategies/adriatic-ionian_en</ref>.</bibl>
               <bibl><hi rend="italic">MMC RTV-SLO</hi>. »Janja Garnbret pri 17 splezala na vrh
                     sveta<hi rend="italic">.</hi>« Nazadnje spremenjeno 17. september 2016. <ref
                     target="https://www.rtvslo.si/sport/preostali-sporti/janja-garnbret-pri-17-splezala-na-vrh-sveta/403013"
                     >https://www.rtvslo.si/sport/preostali-sporti/janja-garnbret-pri-17-splezala-na-vrh-sveta/403013</ref>.</bibl>
               <bibl><hi rend="italic">Slovar slovenskega knjižnega jezika</hi>. Druga, dopolnjena
                  in deloma prenovljena izdaja. Pridobljeno 1. 2. 2025. <ref
                     target="http://www.fran.si">www.fran.si</ref>.</bibl>
               <bibl><hi rend="italic">Slovar slovenskega knjižnega jezika</hi>. Pridobljeno 1. 2.
                  2025. <ref target="http://www.fran.si">www.fran.si</ref>.</bibl>
            </listBibl>
         </div>
         <div type="summary">
            <docAuthor>Mojca Brglez</docAuthor>
            <docAuthor>Veronika Bajt</docAuthor>
            <docAuthor>Senja Pollak</docAuthor>
            <docAuthor>Špela Rot</docAuthor>
            <docAuthor>Matej Martinc</docAuthor>
            <head>A SYSTEM FOR WORD USAGE CHANGE DETECTION: ITS USE IN LINGUISTIC AND
               SOCIOLINGUISTIC STUDIES</head>
            <head>SUMMARY</head>
            <p style="text-align: justify;">In this article, we present the first online system for
               detecting changes in Slovene word usage. We provide an in-depth overview of its
               technical design, the method for detecting words, and its user-friendly interface.
               The system provides a quick and concise general overview of the most significant
               usage changes across the entire corpus, while also allowing for a more detailed
               analysis at the level of individual words.</p>
            <p style="text-align: justify;">We demonstrate the application of the system on a
               Slovene reference corpus, delimited into different combinations of temporal slices,
               and evaluate the system through its use for linguistic and sociolinguistic analysis.
               In the linguistic analysis, we closely examine the results of the system, focusing on
               the most altered adjectives and nouns. We analyse clusters at the level of key terms
               and real usage examples. Both the clusters and actual usage patterns are categorised
               into various semantic and usage-shift categories (basic/literal/ordinary,
               metaphorical, metonymic, broadening, narrowing) and compared with dictionary
               definitions. Our analysis concludes that the system is effective in detecting various
               usage patterns in a broad sense. However, the clusters generated do not always
               correspond strictly to semantic aspects, i.e., the senses of individual words. In
               many cases, the system identifies more clusters than actually exist in real use –
               more than the number of meanings recorded in dictionaries or observable in
               discourse.</p>
            <p style="text-align: justify;">On the one hand, this issue arises from the nature of
               vector embeddings, which capture not only the semantic aspects of words but also
               their syntactic and morphological properties, as well as other global patterns
               detectable in a broader linguistic context (e.g., recurring patterns in language,
               such as stereotypes). As a result, the system often generates multiple clusters that,
               in fact, represent the same semantic usage or lexical meaning. Conversely, some
               clusters combine distinct meanings due to their surface-level similarity in usage.
               Furthermore, the system sometimes classifies meaning-equivalent usages into different
               clusters based on non-semantic factors, such as morphology, syntax, style, or simply
               sentence length. On the other hand, the tendency to generate more clusters than would
               be observed in actual usage is also influenced by the clustering method itself, as
               the number of clusters is predetermined. A second limitation of the system stems from
               the dataset itself. Our insights into the state of the Slovenian (standard) language
               and its usage are based on its representation in the Gigafida corpus. Although this
               corpus is designed to be as representative and balanced a resource as possible for
               Slovenian, it is entirely possible that (apparent) changes in word usage are
               primarily influenced by differences in the composition of sources across different
               time-based subcorpora. Therefore, when interpreting the system’s results, caution is
               advised, as the corpus itself may not accurately reflect linguistic reality.</p>
         </div>
      </back>
   </text>
</TEI>
