<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
   <teiHeader>
      <fileDesc>
         <titleStmt>
            <title>Računalniška analiza slovenskih zgodovinskih časopisov (1771–1914): jezikovni,
               tematski in državotvorni uvidi</title>
            <author>
               <forename>Ajda</forename>
               <surname>Pretnar</surname>
               <surname>Žagar</surname>
               <roleName>Dr.</roleName>
               <roleName>asistent z doktoratom</roleName>
               <affiliation>Inštitut za novejšo zgodovino</affiliation>
               <address>
                  <addrLine>Privoz 11</addrLine>
                  <addrLine>SI-1000 Ljubljana</addrLine>
               </address>
               <email>ajda.pretnar@inz.si</email>
            </author>
         </titleStmt>
         <editionStmt>
            <edition><date>2025-10-27</date></edition>
         </editionStmt>
         <publicationStmt>
            <publisher>
               <orgName xml:lang="sl">Inštitut za novejšo zgodovino</orgName>
               <orgName xml:lang="en">Institute of Contemporary History</orgName>
               <address>
                  <addrLine>Privoz 11</addrLine>
                  <addrLine>SI-1000 Ljubljana</addrLine>
               </address>
            </publisher>
            <pubPlace>http://ojs.inz.si/pnz/article/view/</pubPlace>
            <date>2025</date>
            <availability status="free">
               <licence>http://creativecommons.org/licenses/by-nc-nd/4.0/</licence>
            </availability>
         </publicationStmt>
         <seriesStmt>
            <title xml:lang="sl">Prispevki za novejšo zgodovino</title>
            <title xml:lang="en">Contributions to Contemporary History</title>
            <biblScope unit="volume">65</biblScope>
            <biblScope unit="issue">3</biblScope>
            <idno type="ISSN">2463-7807</idno>
         </seriesStmt>
         <sourceDesc>
            <p>No source, born digital.</p>
         </sourceDesc>
      </fileDesc>
      <encodingDesc>
         <projectDesc xml:lang="en">
            <p>Contributions to Contemporary History is one of the central Slovenian scientific
               historiographic journals, dedicated to publishing articles from the field of
               contemporary history (the 19th and 20th century).</p>
            <p>The journal is published three times per year in Slovenian and in the following
               foreign languages: English, German, Serbian, Croatian, Bosnian, Italian, Slovak and
               Czech. The articles are all published with abstracts in English and Slovenian as well
               as summaries in English.</p>
         </projectDesc>
         <projectDesc xml:lang="sl">
            <p>Prispevki za novejšo zgodovino je ena osrednjih slovenskih znanstvenih
               zgodovinopisnih revij, ki objavlja teme s področja novejše zgodovine (19. in 20.
               stoletje).</p>
            <p>Revija izide trikrat letno v slovenskem jeziku in v naslednjih tujih jezikih:
               angleščina, nemščina, srbščina, hrvaščina, bosanščina, italijanščina, slovaščina in
               češčina. Članki izhajajo z izvlečki v angleščini in slovenščini ter povzetki v
               angleščini.</p>
         </projectDesc>
      </encodingDesc>
      <profileDesc>
         <langUsage>
            <language ident="sl"/>
            <language ident="en"/>
         </langUsage>
         <textClass>
            <keywords xml:lang="en">
               <term>zgodovinski časopisi</term>
               <term>analiza ključnih besed</term>
               <term>napake OCR</term>
               <term>korpusno jezikoslovje</term>
            </keywords>
            <keywords xml:lang="sl">
               <term>historical periodicals</term>
               <term>keyword analysis</term>
               <term>OCR errors</term>
               <term>corpus linguistics</term>
            </keywords>
         </textClass>
      </profileDesc>
      <revisionDesc>
         <listChange>
            <change><date>2026-01-13T10:43:44Z</date>
               <name>Mihael Ojsteršek</name>
               <desc>Pretvorba iz DOCX v TEI, dodatno označevanje</desc>
            </change>
         </listChange>
      </revisionDesc>
   </teiHeader>
   <text>
      <front>
         <docAuthor>Ajda Pretnar Žagar<note place="foot" xml:id="ftn1" n="*"><hi rend="bold">Dr.,
                  asistent z doktoratom, Inštitut za novejšo zgodovino, Privoz 11, SI-1000
                  Ljubljana, <ref target="mailto:ajda.pretnar@inz.si">ajda.pretnar@inz.si</ref>,
                  ORCID: <ref target="https://orcid.org/0000-0002-5927-4538"
                     >0000-0002-5927-4538</ref></hi></note>
         </docAuthor>
         <docImprint>
            <idno type="cobissType">Cobiss tip: 1.01</idno>
            <idno type="DOI">https://doi.org/10.51663/pnz.65.3.02</idno>
         </docImprint>
         <div type="abstract" xml:lang="sl">
            <head>IZVLEČEK</head>
            <p style="text-align: justify;"><hi rend="italic">Prispevek predstavlja
                  računalniško-jezikoslovno analizo sPeriodike, zgodovinskega korpusa slovenskih
                  periodičnih publikacij, izdanih med letoma 1771 in 1914. Z analizo ključnih besed
                  ter diahrono analizo smo raziskali jezikovne, tematske in zgodovinske razsežnosti
                  desetih najvidnejših časopisov v korpusu. Ugotovitve razkrivajo osrednjo vlogo teh
                  časopisov pri oblikovanju slovenskega narodnega prebujanja v obdobju po letu 1848,
                  hkrati pa poudarjajo raznolike tematske usmeritve posameznih periodičnih
                  publikacij, kot so kmetijstvo, pedagogika, književnost in oglaševanje. Poleg tega
                  raziskava obravnava izzive, ki jih prinaša slaba kakovost optičnega prepoznavanja
                  znakov (OCR) pri digitalizaciji zgodovinskih besedil, ter njihove posledice za
                  jezikovno in vsebinsko analizo. Združevanje računalniških metod z zgodovinskim
                  raziskovanjem v tej študiji ponuja vpogled v razvoj slovenskega jezika, vlogo
                  medijev pri oblikovanju narodne identitete in možnosti za izboljšanje besedilnih
                  virov, temelječih na OCR.</hi></p>
            <p style="text-align: justify;"><hi rend="italic">Ključne besede: zgodovinski časopisi,
                  analiza ključnih besed, napake OCR, korpusno jezikoslovje</hi></p>
         </div>
         <div type="abstract" xml:lang="en">
            <head>ABSTRACT</head>
            <head>COMPUTATIONAL ANALYSIS OF SLOVENIAN HISTORICAL NEWSPAPERS (1771–1914): LINGUISTIC,
               THEMATIC, AND NATION-BUILDING INSIGHTS</head>
            <p style="text-align: justify;"><hi rend="italic">This paper presents a computational
                  linguistic analysis of sPeriodika, a historical corpus of Slovenian periodicals
                  published between 1771 and 1914. Using keyword analysis and diachronic analysis,
                  we explore the linguistic, thematic, and historical dimensions of ten prominent
                  newspapers in the corpus. Our findings reveal the centrality of these newspapers
                  in shaping Slovenian nation-building during the post-1848 period, while also
                  highlighting the diverse thematic orientations of individual periodicals,
                  including agriculture, pedagogy, literature, and advertising. Moreover, the study
                  examines the challenges posed by low-quality Optical Character Recognition (OCR)
                  in historical text digitisation and its implications for linguistic and content
                  analysis. By combining computational methods with historical inquiry, this
                  research provides insights into the evolution of the Slovenian language, the
                  media’s role in nation-building, and the potential for improving OCR-based textual
                  resources.</hi></p>
            <p style="text-align: justify;"><hi rend="italic">Keywords: historical periodicals,
                  keyword analysis, OCR errors, corpus linguistics</hi></p>
         </div>
      </front>
      <body>
         <div>
            <head>Uvod</head>
            <p style="text-align: justify;">V zadnjem desetletju smo priča porastu raziskav
               zgodovinskih časopisov.<note place="foot" xml:id="ftn2" n="1">Maud Ehrmann et al.,
                  »Computational Approaches to Digitised Historical Newspapers,« <hi rend="italic"
                     >Dagstuhl Reports</hi> 12, št. 7 (2023): 112–79, pridobljeno 5. 2. 2025.</note>
               Rast je posledica vse večjega priznanja zgodovinskih časopisov kot dragocenih
               primarnih virov, ki ponujajo vpogled v pretekle družbe, kulture in dogodke. Raziskave
               pokrivajo širok spekter aplikacij, od digitalizacije zgodovinskih časopisov in
               ustvarjanja obsežnih visokokakovostnih digitalnih korpusov do naprednih računalniških
               pristopov za analizo jezikovnih sprememb, sentimenta in diskurza v zgodovinskih
               kontekstih.</p>
            <p style="text-align: justify;">Hkrati se sodobne metodologije vse bolj prilagajajo
               specifičnim izzivom zgodovinskih časopisov, kot so degradirana besedila,
               nekonsistenten zapis besed in večjezične zbirke. Ti pristopi preoblikujejo obdelavo
               zgodovinskih časopisov v interdisciplinarno področje, ki povezuje digitalno
               humanistiko, računalništvo in arhivske študije.</p>
            <p style="text-align: justify;">sPeriodika<note place="foot" xml:id="ftn3" n="2">Filip
                  Dobranić et al., <hi rend="italic">Corpus of Slovenian Periodicals (1771–1914)
                     sPeriodika 1.0</hi>, 2023, <ref target="http://hdl.handle.net/11356/1881"
                     >http://hdl.handle.net/11356/1881</ref>.</note> je nedavno objavljen korpus
               zgodovinskih slovenskih periodičnih publikacij iz obdobja 1771–1914. Korpus je
               obsežen in temelji na digitaliziranih časopisih iz digitalne knjižnice dLib, ki jo
               upravlja Narodna in univerzitetna knjižnica Slovenije. Vsebuje nekatere
               najpomembnejše časopise tistega časa, ki so prispevali k večji pismenosti in
               narodnemu prebujanju v Sloveniji.<note place="foot" xml:id="ftn4" n="3">Marijan
                  Dović, »Literatura in mediji v Jurčičevem času,« <hi rend="italic">Slavistična
                     revija</hi> 54, št. 4 (2006): 543–57.</note><hi rend="superscript">,</hi>
               <note place="foot" xml:id="ftn5" n="4">Smilja Amon, »Vloga slovenskega časopisja v
                  združevanju in ločevanju slovenske javnosti od 1797–1945,« <hi rend="italic"
                     >Javnost </hi>15 (2008): S9–S24.</note></p>
            <p style="text-align: justify;">Prispevek je korpusno-jezikoslovna študija korpusa
               sPeriodika in predstavlja dopolnitev ter prevod prispevka na konferenci JTDH.<note
                  place="foot" xml:id="ftn6" n="5">Ajda Pretnar Žagar, »A corpus linguistic
                  characterization of speriodika,« v: <hi rend="italic">Proceedings of the
                     conference on language technologies and digital humanities</hi> (Ljubljana:
                  Inštitut za novejšo zgodovino 2024), 384–406.</note> Razširitev zajema dodatno
               poglavje o zgodovinskem razvoju jezika z analizo arhaičnih besed (razdelek 3.3),
               analiza napak OCR pa je razširjena v samostojno poglavje. Izbrali smo deset časopisov
               z največjim številom izdaj in izvedli osnoven kvantitativni pregled vsebine. Kakovost
               optične prepoznave znakov (OCR) v korpusu je nizka, a primerljiva s podobnimi
               zgodovinskimi digitaliziranimi časopisi,<note place="foot" xml:id="ftn7" n="6">Kimmo
                  Kettunen in Tuula Pääkkönen, »Measuring Lexical Quality of a Historical Finnish
                  Newspaper Collection – Analysis of Garbled OCR Data with Basic Language Technology
                  Tools and Means,« v: <hi rend="italic">Proceedings of the Tenth International
                     Conference on Language Resources and Evaluation (LREC'16)</hi> (Portorož: ELRA,
                  2016), 956–61.</note> zato nas je zanimalo, ali lahko kljub temu izluščimo
               značilnosti časopisov s pomočjo analize ključnih besed, pogostosti besed in
               konkordanc. V rezultatih podamo splošen kvantitativni opis časopisov, vpogled v
               zgodovinski razvoj slovenskega jezika in pregled napak OCR. Z raziskavo poudarimo
               pomen označenih zgodovinskih izdaj za slovensko raziskovalno skupnost, saj bi brez
               digitalno dostopnega in označenega korpusa tak pregled težko izvedli.</p>
         </div>
         <div>
            <head>Sorodna dela</head>
            <p style="text-align: justify;">Zgodovinski časopisi se pogosto uporabljajo v digitalni
               humanistiki, predvsem zaradi sodobnih prizadevanj za digitalizacijo, dostopnih
               vmesnikov za raziskovanje vsebine<note place="foot" xml:id="ftn8" n="7">Maud Ehrmann
                  et al., »Historical Newspaper User Interfaces: A Review,« v: <hi rend="italic"
                     >85th IFLA General Conference and Assembly (IFLA)</hi> (Zenodo, 2019).</note>
               in odprtih repozitorijev. Raziskave zajemajo širok spekter, od diahronih in
               primerjalnih analiz do diskurzivnih študij, pri čemer je analiza premika konceptov
               ena izmed najvidnejših metod. Primerjalne študije se osredotočajo na primerjave med
                  državami<note place="foot" xml:id="ftn9" n="8">Adán Mayer et al., »Underlying
                  sentiments in 1867: A study of news flows on the execution of Emperor Maximilian I
                  of Mexico in digitized newspaper corpora,« <hi rend="italic">Digital Humanities
                     Quarterly</hi> 16, št. 4 (2022).</note> ali raziskovanje regionalnih
                  razlik.<note place="foot" xml:id="ftn10" n="9">Jaihyun Park in Ryan Cordell, »A
                  quantitative discourse analysis of Asian workers in the US historical newspapers,«
                  v: <hi rend="italic">Proceedings of the Joint 3rd International Conference on
                     Natural Language Processing for Digital Humanities and 8th International
                     Workshop on Computational Linguistics for Uralic Languages</hi> (Tokio:
                  Association for Computational Linguistics, 2023), 7–15.</note> Diahrone študije
               pogosto raziskujejo premike konceptov,<note place="foot" xml:id="ftn11" n="10">Japp
                  Verheul et al., »Using word vector models to trace conceptual change over time and
                  space in historical newspapers 1840–1914,« <hi rend="italic">Digital Humanities
                     Quarterly</hi> 16, št. 2 (2022).</note><hi rend="superscript">,</hi>
               <note place="foot" xml:id="ftn12" n="11">Jani Marjanen et al., »The Expansion of
                  Isms, 1820–1917: Data-Driven Analysis of Political Language in Digitized Newspaper
                  Collections,« <hi rend="italic">Journal of Data Mining &amp; Digital
                     Humanities</hi> 2020, <ref target="https://doi.org/10.46298/jdmdh.6159"
                     >https://doi.org/10.46298/jdmdh.6159</ref>.</note><hi rend="superscript">,</hi>
               <note place="foot" xml:id="ftn13" n="12">Lidia Pivovarova et al., »Word Clustering
                  for Historical Newspapers Analysis,« v: <hi rend="italic">Proceedings of the
                     Workshop on Language Technology for Digital Historical Archives</hi> (Varna:
                  INCOMA Ltd., 2019), 3–10.</note> semantične spremembe<note place="foot"
                  xml:id="ftn14" n="13">Nilo Pedrazzini in Barbara McGillivray, »Machines in the
                  media: semantic change in the lexicon of mechanization in 19th-century British
                  newspapers,« v: <hi rend="italic">Proceedings of the 2nd International Workshop on
                     Natural Language Processing for Digital Humanities</hi> (Tajpej: Association
                  for Computational Linguistics, 2022), 85–95.</note> ali spremembe tematik skozi
                  čas.<note place="foot" xml:id="ftn15" n="14">Jani Marjanen et al., »Topic
                  Modelling Discourse Dynamics in Historical Newspapers,« v: <hi rend="italic"
                     >Digital Humanities in the Nordic Countries 2020</hi> (CEUR-WS.org, 2021),
                  63–77.</note> Druga veja raziskav vključuje vsebinsko usmerjen pristop, ki se
               osredotoča na nastanek javnih diskurzov<note place="foot" xml:id="ftn16" n="15">Jani
                  Marjanen et al., »A National Public Sphere? Analyzing the Language, Location, and
                  Form of Newspapers in Finland, 1771–1917,« <hi rend="italic">Journal of European
                     Periodical Studies</hi> 4, št. 1 (2019).</note> ali državotvorno
                  besedišče.<note place="foot" xml:id="ftn17" n="16">Jonathan Schoots, »Analyzing
                  political formation through historical isiXhosa text analysis: Using frequency
                  analysis to examine emerging African nationalism in South Africa,« v: <hi
                     rend="italic">Proceedings of the Fourth Workshop on Resources for African
                     Indigenous Languages (RAIL 2023)</hi> (Dubrovnik: Association for Computational
                  Linguistics, 2023), 65–75, <ref target="https://doi.org/10.18653/v1/2023.rail-1.8"
                     >https://doi.org/10.18653/v1/2023.rail-1.8</ref>.</note><hi rend="superscript"
                  >,</hi>
               <note place="foot" xml:id="ftn18" n="17">Simon Hengchen et al., »A Data-Driven
                  Approach to Studying Changing Vocabularies in Historical Newspaper Collections,«
                     <hi rend="italic">Digital Scholarship in the Humanities</hi> 36, dodatek 2
                  (2021): ii109-ii126, <ref target="https://doi.org/10.1093/llc/fqab032"
                     >https://doi.org/10.1093/llc/fqab032</ref>.</note> Nekatere raziskave se
               osredotočajo tudi na večjezičnost,<note place="foot" xml:id="ftn19" n="18">Marjanen,
                  »A National Public Sphere?«</note><hi rend="superscript">,</hi>
               <note place="foot" xml:id="ftn20" n="19">Mayer, »Underlying sentiments in
                  1867.«</note> ki je značilna za zgodovinske časopise in otežuje primerjalno
               analizo.</p>
            <p style="text-align: justify;">Izven digitalne humanistike so slovenski zgodovinski
               časopisi priljubljena tema raziskav. Večina teh se osredotoča na procese narodnega
               prebujanja, zlasti po marčni revoluciji leta 1848.<note place="foot" xml:id="ftn21"
                  n="20">
                  <hi rend="footnote_reference"><seg rend="baseline">Obdobje pred marčno revolucijo
                        leta 1848 se običajno imenuje predmarčno obdobje. V članku obdobje po
                        revoluciji imenujemo pomarčno.</seg></hi></note><hi rend="superscript"
                  >,</hi>
               <note place="foot" xml:id="ftn22" n="21">Nataša Stergar, »Narodnostno vprašanje v
                  predmarčnih letnikih Bleiweisovih Novic,« <hi rend="italic">Kronika</hi> 25, št. 3
                  (1977).</note> Najobsežnejšo študijo je izvedla Smilja Amon,<note place="foot"
                  xml:id="ftn23" n="22">Amon, »Vloga slovenskega časopisja v združevanju in
                  ločevanju slovenske javnosti.«</note> ki predstavlja pregled slovenskega
               novinarstva. <hi rend="italic">Ljubljanski zvon</hi> iz leta 1885 ponuja podroben
               pregled časopisov tistega časa,<note place="foot" xml:id="ftn24" n="23">Anonymous,
                  »Slovenski časopisi leta 1885,« <hi rend="italic">Ljubljanski zvon</hi> 5, 1885,
                  631–35.</note> pri čemer navaja 34 časopisov v slovenščini, skupaj z opisi,
               uredniki, izdajatelji in cenami. Druge raziskave se večinoma osredotočajo na <hi
                  rend="italic">Kmetijske in rokodelske novice</hi>,<note place="foot"
                  xml:id="ftn25" n="24">Stane Mihelič, »Kmetijska družba in ustanovitev 'Novic',«
                     <hi rend="italic">Slavistična revija</hi> 1, št. 1/2 (1948).</note> ki so
               postavile temelje slovenskemu novinarstvu.<note place="foot" xml:id="ftn26" n="25">
                  Prva slovenska periodična publikacija so bile <hi rend="italic">Lublanske
                     novize</hi> Valentina Vodnika leta 1797, a niso izhajale dolgo.</note>
               Jezikovne analize so prav tako pogoste, le malo raziskav pa se posveča vsebinski
               analizi in primerjavam. Ena takih je analiza Štepca<note place="foot" xml:id="ftn27"
                  n="26">Marko Štepec, »Zločin v slovenskem časopisju v 80. letih 19. stoletja,« <hi
                     rend="italic">Kronika</hi> 35, št. 1/2 (1987): 30–38.</note> (1987), ki
               obravnava poročanje o zločinih v <hi rend="italic">Slovencu</hi> in <hi rend="italic"
                  >Slovenskem narodu</hi>. Štepec ugotavlja, da konservativni <hi rend="italic"
                  >Slovenec</hi> prepušča poročanje o zločinih liberalnemu <hi rend="italic"
                  >Slovenskemu narodu</hi>, saj to vidi kot nekatoliško in nepotrebno. Druge
               raziskave obravnavajo jezikovno vprašanje v <hi rend="italic">Slovenskem
                  pravniku</hi>,<note place="foot" xml:id="ftn28" n="27">Tone Zorn, »Odmevnost
                  jezikovnega vprašanja v listu Slovenski pravnik v letih 1871–1918,« <hi
                     rend="italic">Kronika</hi> 35, št. 3 (1987): 146–55.</note> novice o
                  Istri,<note place="foot" xml:id="ftn29" n="28">Branko Marušič, »Izbor vesti o
                  Istri v slovenskem časopisju do leta 1880,« <hi rend="italic">Annales</hi> 17, št.
                  1 (2007): 65–82.</note> modo v ženskih časopisih<note place="foot" xml:id="ftn30"
                  n="29">Maja Ilich, »Nekaj o modi v slovenskem časopisju na prelomu stoletja
                  (1895–1915),« <hi rend="italic">Zgodovina za vse</hi> 6, št. 2 (1999):
                  98–108.</note> in socialnodemokratsko periodiko.<note place="foot" xml:id="ftn31"
                  n="30">Dušan Kermavner, »Drugi slovenski socialnodemokratski listi,« <hi
                     rend="italic">Kronika</hi> 10 (1962): 80–89.</note></p>
         </div>
         <div>
            <head>sPeriodika</head>
            <p style="text-align: justify;">sPeriodika<note place="foot" xml:id="ftn32" n="31">
                  Dobranić et al., <hi rend="italic">Corpus of Slovenian Periodicals (1771–1914)
                     sPeriodika 1.0.</hi></note> je korpus slovenskih zgodovinskih časopisov,
               izdanih med letoma 1771 in 1914. Korpus je ustvaril Dobranić s sodelavci,<note
                  place="foot" xml:id="ftn33" n="32">Filip Dobranić et al., »A Lightweight Approach
                  to a Giga-Corpus of Historical Periodicals: The Story of a Slovenian Historical
                  Newspaper Collection,« v: <hi rend="italic">Proceedings of the 2024 Joint
                     International Conference on Computational Linguistics, Language Resources and
                     Evaluation (LREC-COLING 2024)</hi> (Italija: ELRA in ICCL, 2024).</note>
               temelji pa na optično prepoznanih zapisih, ki so jih v različnih obdobjih z
               različnimi tehnologijami ustvarili v Narodni in univerzitetni knjižnici Slovenije,
               pri čemer so avtorji izvedli dodatno čiščenje in predobdelavo. Korpus je na voljo v
               repozitoriju CLARIN.SI<note place="foot" xml:id="ftn34" n="33">
                  <hi rend="italic">CLARIN.SI</hi>, <ref target="http://hdl.handle.net/11356/1881"
                     >http://hdl.handle.net/11356/1881</ref>.</note> in v konkordančniku NoSketch
                  Engine.<note place="foot" xml:id="ftn35" n="34">
                  <hi rend="italic">NoSketch Engine</hi>, <ref
                     target="https://www.clarin.si/ske/#dashboard?corpname=speriodika"
                     >https://www.clarin.si/ske/#dashboard?corpname=speriodika</ref>.</note></p>
            <div>
               <head>Opis</head>
               <p style="text-align: justify;">Korpus sPeriodika vsebuje 216 časopisov z različnim
                  številom izdaj (največ 28.406, najmanj 1). Skupno število izdaj je 148.457. Kot
                  prikazuje Slika 1, se je aktivnost izdajanja postopoma povečevala do prve svetovne
                  vojne, ko je večina časopisov prenehala izhajati. Zadnje desetletje vključuje
                  podatke samo do leta 1914, kar pojasnjuje upad frekvence.</p>
               <figure>
                  <head>Frekvenca izdaj (modri stolpci) in pojavnic (rdeči stolpci) po desetletjih v
                     sPeriotiki</head>
                  <graphic url="Slika1.png"/>
                  <lb/>
                  <note n="">Vir: avtorica iz podatkov NoSketchEngine</note>
               </figure>
               <p style="text-align: justify;">Zaradi dolgega repa v distribuciji izdaj po časopisih
                  smo se odločili analizirati deset časopisov z največ izdajami, kar predstavlja 78
                  odstotkov korpusa. Takšno merilo smo izbrali, da zajamemo časopise z največjim
                  nacionalnim dosegom in dovolj dolgim časovnim razponom. Tabela 1 prikazuje deset
                  izbranih časopisov s številom in deležem izdaj (zaokroženo na dve decimalni
                  mesti).</p>
               <p style="text-align: justify;">Naslovi časopisov nosijo pomenske poudarke, ki na
                  splošno določajo njihovo vsebino: <hi rend="italic">Kmetijske in rokodelske
                     novice</hi>, <hi rend="italic">Slovenski gospodar</hi>, <hi rend="italic"
                     >Učiteljski tovariš</hi>, <hi rend="italic">Slovenski narod</hi>, <hi
                     rend="italic">Dom in svet</hi>, <hi rend="italic">Slovenec</hi>, <hi
                     rend="italic">Edinost</hi>, <hi rend="italic">Ljubljanski zvon</hi>, <hi
                     rend="italic">Vertec</hi> in <hi rend="italic">Soča</hi>.</p>
            </div>
            <div>
               <head>Primerjava ključnih besed</head>
               <p style="text-align: justify;">Za obravnavane časopise smo s pomočjo orodja NoSketch
                  Engine izluščili ključne besede. Te smo primerjali s sPeriodiko, kar pomeni, da
                  smo izluščili leme, ki so v določenem časopisu močno zastopane in zato statistično
                  značilne. Lematizacija je bila izvedena s postopkom CLASSLA-Stanza, kot je
                  navedeno v izvirnem članku o sPeriodiki.<note place="foot" xml:id="ftn36" n="35">
                     Dobranić et al., »A Lightweight Approach to a Giga-Corpus of Historical
                     Periodicals.«</note> Ključnost (angl. <hi rend="italic">keyness</hi>) je v
                  NoSketch določena na osnovi <hi rend="italic">enostavne matematične
                     metode</hi><note place="foot" xml:id="ftn37" n="36">Adam Kilgarriff, »Simple
                     Maths for Keywords,« v: <hi rend="italic">Proceedings of Corpus
                        Linguistics</hi> 6 (Liverpool, VB: University of Liverpool, 2009).</note> s
                  parametrom glajenja N = 1 (privzeta nastavitev).</p>
               <table>
                  <head>Tabela 1: Časopisi z največjim številom izdaj v korpusu sPeriodika</head>
                  <row rend="bold">
                     <cell>Časopis</cell>
                     <cell>št. objav</cell>
                     <cell>% objav</cell>
                     <cell>št. pojavnic</cell>
                  </row>
                  <row>
                     <cell>Kmetijske in rokodelske novice (KRN)</cell>
                     <cell>28406</cell>
                     <cell>19</cell>
                     <cell>29,834,568</cell>
                  </row>
                  <row>
                     <cell>Slovenski gospodar (SG)</cell>
                     <cell>16009</cell>
                     <cell>11</cell>
                     <cell>22,602,374</cell>
                  </row>
                  <row>
                     <cell>Učiteljski tovariš (UT)</cell>
                     <cell>15674</cell>
                     <cell>11</cell>
                     <cell>24,337,225</cell>
                  </row>
                  <row>
                     <cell>Slovenski narod (SN)</cell>
                     <cell>14039</cell>
                     <cell>9</cell>
                     <cell>183,294,799</cell>
                  </row>
                  <row>
                     <cell>Dom in svet (DS)</cell>
                     <cell>11073</cell>
                     <cell>7</cell>
                     <cell>32,326,449</cell>
                  </row>
                  <row>
                     <cell>Slovenec (SVN)</cell>
                     <cell>10897</cell>
                     <cell>7</cell>
                     <cell>137,506,802</cell>
                  </row>
                  <row>
                     <cell>Edinost (ED)</cell>
                     <cell>8371</cell>
                     <cell>6</cell>
                     <cell>98,274,429</cell>
                  </row>
                  <row>
                     <cell>Ljubljanski zvon (LZ)</cell>
                     <cell>3923</cell>
                     <cell>3</cell>
                     <cell>15,590,800</cell>
                  </row>
                  <row>
                     <cell>Vertec (VT)</cell>
                     <cell>3515</cell>
                     <cell>2</cell>
                     <cell>3,170,465</cell>
                  </row>
                  <row>
                     <cell>Soča (SČ)</cell>
                     <cell>3367</cell>
                     <cell>2</cell>
                     <cell>38,879,707</cell>
                  </row>
                  <note n="">Vir: NoSketchEngine</note>
               </table>
               <figure>
                  <head>Slika 2: Leta izdajanja za deset izbranih časopisov</head>
                  <graphic url="Slika2.png"/>
                  <lb/>
                  <note n="">Vir: NoSketchEngine</note>
               </figure>
               <p style="text-align: justify;">Analizirali smo prvih sto ključnih besed in jih
                  predstavili v Tabeli 2. Očitne napake OCR smo izključili, saj želimo prikazati
                  osrednjo vsebino časopisa, ne naključnih napak. Poročamo tudi o odstotku napak OCR
                  (delež napak med 100 zadetki).</p>
               <div>
                  <head>Kmetijske in rokodelske novice</head>
                  <p style="text-align: justify;"><hi rend="italic">Kmetijske in rokodelske
                        novice</hi> so zveste svojemu imenu, saj obravnavajo kmetijske teme (<hi
                        rend="italic">kmetovavec, žlahen, žebec</hi><note place="foot"
                        xml:id="ftn38" n="37">Arhaično za žrebec.</note>) ter lokalne novice (<hi
                        rend="italic">Kranjska</hi>). Časopis je bil prvi polnopravni časnik v
                     slovenščini, zato vsebuje več arhaičnih besed (<hi rend="italic">onidan, en
                        malo</hi>) kot drugi časopisi. Preostale ključne besede sodijo v raznolike
                     kategorije, od rubrik v časopisu (<hi rend="italic">novičar</hi>) in financ
                        (<hi rend="italic">dnar</hi>) do novic o Rusiji (<hi rend="italic"
                        >rusovski</hi>) ter narodno-prosvetnih tem (<hi rend="italic"
                        >čitavnica</hi><note place="foot" xml:id="ftn39" n="38">Čitavnica je
                        pogostejša v zgodnjih izdajah KRN, kasneje pa jo nadomešča izraz
                        čitalnica.</note>). Analiza ključnih besed kaže širok spekter tem, ki jih je
                     časopis pokrival, ter njegovo dolgoletno osrednjo vlogo v kulturnem življenju
                        Slovencev.<note place="foot" xml:id="ftn40" n="39">Stergar, »Narodnostno
                        vprašanje v predmarčnih letnikih Bleiweisovih Novic.«</note></p>
               </div>
               <div>
                  <head>Slovenski gospodar</head>
                  <p style="text-align: justify;"><hi rend="italic">Slovenski gospodar</hi> je prvi
                     časopis na seznamu, ki ga močno zaznamujejo napake OCR (94 odstotkov<note
                        place="foot" xml:id="ftn41" n="40">Stopnja napake 94 odstotkov se nanaša na
                        rezultate analize ključnih besed in ne na celotno vsebino časopisa.</note>).
                     Pregled v konkordančniku pokaže, da je črka »n« pogosto prepisana kot »a« (<hi
                        rend="italic">sloveaski</hi> –&gt; slovenski, <hi rend="italic">aaš</hi>
                     –&gt; naš, <hi rend="italic">aemški</hi> –&gt; nemški), črka »v« pa kot »7«
                        (<hi rend="italic">pra7</hi>). Druge ključne besede razkrivajo, da je
                     pogosto napačna tudi zamenjava »č« za »6«. Omenja se tudi izraz Stajerc, ki je
                     napačna oblika besede Štajerc. Pojem lahko pomeni prebivalca Štajerske, vendar
                     se najpogosteje nanaša na časopis <hi rend="italic">Štajerc</hi>, ki je izhajal
                     med letoma 1900 in 1918. Ton je precej žaljiv, saj je bil <hi rend="italic"
                        >Slovenski gospodar</hi> katoliški in konservativen časopis, medtem ko je
                     bil <hi rend="italic">Štajerc</hi> napreden pronemški časnik (podrobneje opisan
                     v Jezernik<note place="foot" xml:id="ftn42" n="41">Božidar Jezernik. »Katoliška
                        duhovščina na prelomu devetnajstega in dvajsetega stoletja in proces
                        modernizacije na Slovenskem,« <hi rend="italic">Traditiones</hi> 51, št. 1
                        (2022): 103–45.</note>). Pomenske ključne besede se nanašajo na sejme (<hi
                        rend="italic">sermon</hi>), dogajanje (<hi rend="italic">izgoditi</hi>),
                     zlatnike (<hi rend="italic">fl</hi>), šolsko zvezo (<hi rend="italic"
                        >šulverein</hi>), ljudi (<hi rend="italic">poslanec dr. Franc Radaj</hi>;
                        <hi rend="italic">Franc Kosar</hi>), spoštovane (<hi rend="italic">vlč,
                        velečastiti</hi>) in <hi rend="italic">posilinemce</hi> (posmehljiv izraz za
                     pronemške Slovence).</p>
               </div>
               <div>
                  <head>Učiteljski tovariš</head>
                  <p style="text-align: justify;"><hi rend="italic">Učiteljski tovariš</hi> je zvest
                     svojemu imenu. Večina ključnih besed se nanaša na pedagogiko (<hi rend="italic"
                        >zavezin</hi><note place="foot" xml:id="ftn43" n="42">Zaveza se nanaša na
                        Zvezo avstrijskih jugoslovanskih učiteljskih društev.</note>
                     <hi rend="italic">konvikt,</hi><note place="foot" xml:id="ftn44" n="43">
                        Konvikt je izobraževalni zavod s celodnevno oskrbo, predvsem za
                        duhovnike.</note><hi rend="italic">učiteljstvo, učiteljski, lehrerbund,
                        pedagoški, koleginja, ljudski</hi>). V razpravah je opaziti politični vidik,
                     saj se pogosto omenja »<hi rend="italic">Slomškar</hi>«, kar se nanaša na
                     konkurenčno »Slomškovo zvezo«, zvezo katoliških učiteljev. Pri besedi »<hi
                        rend="italic">tovarišica</hi>« niti iz kolokacij ni jasno, ali ima političen
                     prizvok. Vendar pa sta obe sklicevanji na ženske kolegice (<hi rend="italic"
                        >tovarišica</hi> in <hi rend="italic">koleginja</hi>) v <hi rend="italic"
                        >Učiteljskem tovarišu</hi> močno zastopani, kar morda kaže na to, da je
                     časopis ženskam prisojal večjo stopnjo enakopravnosti. Pogostost omenjenih
                     besed je namreč v tem časopisu bistveno večja v primerjavi s splošnim korpusom,
                     vendar kolokacije ne razkrivajo posebnih razlik v kontekstu. Učiteljski tovariš
                     prav tako vsebuje veliko nemških izposojenk (<hi rend="italic">Lehrerbund,
                        Lehrer, Volkschule, Lehrerschaft, Gesuche, Vorgeschriebenen</hi>) in omembe
                     oseb (<hi rend="italic">Črnagoj, Jelenc, Maier, Strmšek, Režek, Požegar,
                        Gangl</hi>).</p>
               </div>
               <div>
                  <head>Slovenski narod</head>
                  <p style="text-align: justify;">Analiza ključnih besed časnika <hi rend="italic"
                        >Slovenski narod</hi> razkriva številne specifične rubrike. Časopis je redno
                     objavljal železniške vozne rede za avstrijske železnice (<hi rend="italic"
                        >amstetten, pontabel, selzthal</hi>), poročila z dunajske borze (<hi
                        rend="italic">prior oblig</hi>.), meteorološka poročila (smeri vetrov) in
                     specifične oglase (<hi rend="italic">Moll Seidlitz prašek, Revaliescere du
                        Barry, Berger Kotran milo</hi>). Nekatere besede se nanašajo na uvodni
                     odstavek časopisa, ki je vseboval navodila za pošiljanje prispevkov (<hi
                        rend="italic">izvoti</hi>,<note place="foot" xml:id="ftn45" n="44">Napačen
                        leksem besede »izvoliti«.</note>
                     <hi rend="italic">četiristopne</hi>). Opazili smo tudi nekatere za <hi
                        rend="italic">Slovenski narod</hi> značilne napake OCR, ki so morda
                     posledica izbire pisave (<hi rend="italic">tuđi, tuđ</hi>,<note place="foot"
                        xml:id="ftn46" n="45">V pomenu »tudi«.</note><hi rend="italic">ćel</hi><note
                        place="foot" xml:id="ftn47" n="46">V pomeni »celo« ali »čelo«.</note>).
                     Nekateri rezultati so morda posledica prekomernega popravljanja, saj Dobranić
                     in sodelavci<note place="foot" xml:id="ftn48" n="47"> Dobranić et al., »A
                        Lightweight Approach to a Giga-Corpus of Historical Periodicals.«</note>
                     omenjajo statistično osnovano združevanje razdeljenih besed (<hi rend="italic"
                        >Trammwaydrušt, Stražatoplice</hi>).</p>
               </div>
               <div>
                  <head>Dom in svet</head>
                  <p style="text-align: justify;"><hi rend="italic">Dom in svet</hi> (Ljubljana) je
                     močno literarno in umetniško usmerjen. Za časopis so značilna imena literarnih
                     junakov (<hi rend="italic">bodriški nadknez Gotšalk, Viljenica, Virida,
                        Maruška, Ančka</hi>) in avtorjev zgodb (<hi rend="italic">Podgoričan</hi>),
                     ki jih je časopis stalno objavljal. Velik del njihovih novic omenja umetniška
                     dela (<hi rend="italic">spominiki, bilina, pasionski</hi>) in publikacije
                     (besedilo o klinopisnih spomenikih, ki ga je napisal F. Sedej in je bilo
                     objavljeno v istem časopisu). Najpresenetljivejši je močan vpliv slovanskega
                     umetniškega sveta na časopis. <hi rend="italic">Dom in svet</hi> redno objavlja
                     biografije srednje-, vzhodno- in južnoslovanskih avtorjev ter seznam slovanskih
                     publikacij (zlasti ruskih, srbskih in hrvaških).</p>
               </div>
               <div>
                  <head>Slovenec</head>
                  <p style="text-align: justify;">Podobno kot <hi rend="italic">Slovenski narod</hi>
                     tudi analiza ključnih besed časnika <hi rend="italic">Slovenec </hi>razkriva
                     specifične rubrike, na primer poročila z dunajske borze (<hi rend="italic"
                        >vravnaven, salmov, dunavski, napoleondor, napoleond</hi>,<note place="foot"
                        xml:id="ftn49" n="48">Obe pojavnici predstavljata dobesedni prepis izraza za
                        francoski zlatnik »napoléon d'or«.</note>
                     <hi rend="italic">waldsteinov</hi>), meteorološka poročila in podlistek Pismo
                     Boltatovega Pepeta,<note place="foot" xml:id="ftn50" n="49">Psevdonim za Srečka
                        Magoliča.</note> napisan v narečju (<hi rend="italic">gespud, tku,
                     kokr</hi>). Med ključnimi besedami so tudi oglasi, na primer za Merkur Exchange
                     Limited Company (<hi rend="italic">kurzen</hi>), steklarske delavnice in
                     trgovino z oljnimi barvami. Nekaj ključnih besed se nanaša na jugovzhodno
                     Evropo (<hi rend="italic">Hrvaška, Madžarska, Bolgarija</hi>), kar delno
                     nakazuje politično usmeritev časopisa. Vendar smo glede na politično pomembnost
                     časnika v slovenskem prostoru pričakovali večji delež političnih besed. Mnogo
                     ključnih besed izhaja iz glave časopisa, kjer so bile podane praktične
                     informacije o naročilu in distribuciji časopisa. Vendar so tudi drugi časopisi,
                     kot so <hi rend="italic">Slovenski narod</hi>, <hi rend="italic">Slovenski
                        gospodar</hi>, <hi rend="italic">Edinost </hi>in <hi rend="italic"
                     >Soča</hi>, imeli obsežne glave. Visoka pogostost ključnih besed iz glave je
                     morda posledica jezikovnih značilnosti glave časopisa <hi rend="italic"
                        >Slovenec</hi>.</p>
               </div>
               <div>
                  <head>Edinost (Trst)</head>
                  <p style="text-align: justify;"><hi rend="italic">Edinost</hi> (Trst), vodilni
                     časopis tržaških Slovencev, vsebuje veliko besed, povezanih z oglasi. 68
                     odstotkov ključnih besed se nanaša na ulice ali kraje poslovanja (<hi
                        rend="italic">barriera, nuova, vecchia, piazza, galatti</hi>). Večinoma gre
                     za italijanska imena ulic, a so omenjeni tudi istrski kraji (<hi rend="italic"
                        >Pula, Rovinj</hi>). <hi rend="italic">Edinost </hi>je pokrivala istrsko
                     regijo do leta 1902, ko je bilo ustanovljeno Politično društvo Hrvatov in
                     Slovencev v Istri.<note place="foot" xml:id="ftn51" n="50">Darko Darovec, <hi
                           rend="italic">Pregled zgodovine Istre</hi> (Koper: Zgodovinsko društvo za
                        južno Primorsko, Založba Annales; Čentur: Inštitut IRRIS za raziskave,
                        razvoj in strategije družbe, kulture in okolja, 2023), 66.</note> Pri omembi
                     Primorske se večina pojavnic nanaša na vremensko napoved in podnaslov časopisa
                     (Glasilo političnega društva »Edinost« za Primorsko). Omenjeni so tudi denarni
                     izrazi (<hi rend="italic">nvč</hi> je okrajšava za »novčič«, kovanec v
                     vrednosti 1/100 zlatnika) in prostor za oglase (<hi rend="italic"
                        >inseratni</hi> označuje oddelek časopisa za oglase). Oglasi vključujejo
                     ponavljajoče se reklame za kavo (<hi rend="italic">kava Santos good
                        average</hi>), zdravstvene storitve (<hi rend="italic">izdiranje,
                        plombiranje, ambulatorij</hi>) in živila (<hi rend="italic">pekarna,
                        butejka</hi>). Podobno kot drugi časopisi tistega časa je <hi rend="italic"
                        >Edinost</hi> redno objavljala železniške vozne rede. Besedi »<hi
                        rend="italic">Medpostaja</hi>« in »<hi rend="italic">Pula</hi>« sta
                     največkrat uporabljeni v kontekstu železniških voznih redov, podobno kot v <hi
                        rend="italic">Slovenskem narodu</hi>, vendar osredotočeno na italijanske
                     železnice. Novice o železniških voznih redih kažejo, da je bil časopis zelo
                     praktičen; ponujal je oglaševalski prostor za lokalna podjetja in podajal
                     informacije o prevozu. Mnogi časopisi tistega časa so imeli podobne
                     vsebine.</p>
               </div>
               <div>
                  <head>Ljubljanski zvon</head>
                  <p style="text-align: justify;"><hi rend="italic">Ljubljanski zvon</hi> je bil
                     vodilna literarna revija pomarčne dobe. Večina desetih najpogostejših ključnih
                     besed se nanaša na literarne like (<hi rend="italic">Gojko, Samorad, Trenk,
                        Abadon, Zdenka</hi>). 29 odstotkov ključnih besed predstavljajo imena
                     literarnih likov, kar poudarja literarno naravo revije. Vendar vsebine niso
                     bile zgolj leposlovne. Omenjeni so denimo Slovniški razgovori, kjer je revija
                     objavljala nasvete o pravilnem slovenskem črkovanju in slovnici (<hi
                        rend="italic">sedanjik, sgl, Miklošič, dovršnik</hi>), in Štrekljeve
                     jezikoslovne mrvice, kjer je avtor razlagal slovnično sestavo, pomen in izvor
                     določenih besed (<hi rend="italic">subst</hi>). Veliko ključnih besed je
                     posledica napak OCR, natančneje 36 odstotkov. Težava s ključnimi besedami pri
                        <hi rend="italic">Ljubljanskem zvonu</hi> je nekoliko posebna. Podobno kot
                     pri <hi rend="italic">Slovenskem gospodarju</hi> so najpogostejše napačno
                     transkribirane besede. Te napake so tesno povezane z literarno naravo revije.
                        <hi rend="italic">Ljubljanski zvon</hi> je namreč edini analizirani časopis,
                     ki dosledno uporablja naglase na samoglasnikih. Naglasi v slovenščini niso
                     pogosti, vendar so bili v tej reviji verjetno uporabljeni za poudarjanje ritma
                     in pravilne izgovarjave besed, ta slogovna izbira pa povzroča težave modelu
                     OCR.</p>
               </div>
               <div>
                  <head>Vertec (1871)</head>
                  <p style="text-align: justify;"><hi rend="italic">Vertec</hi> (1871) vsebuje
                     veliko zgodb in je tako podoben <hi rend="italic">Domu in svetu</hi> ter <hi
                        rend="italic">Ljubljanskemu zvonu</hi>, saj ga zaznamujejo literarni liki
                        (<hi rend="italic">Marijca, Marijec,</hi><note place="foot" xml:id="ftn52"
                        n="51">Marijec je napačna oblika leme za besedo Marijca.</note>
                     <hi rend="italic">Katarinka, Ivanek</hi>). Delež omemb literarnih likov med
                     ključnimi besedami je 38-odstoten. V primerjavi z drugimi periodičnimi
                     publikacijami so imena pretežno pomanjševalnice, kar odraža usmeritev časopisa
                     na mlajše bralce. Vendar pa ime včasih ne označuje literarnih likov, temveč
                     resnične osebe. Časopis je namreč poimensko navajal avtorje pravilnih rešitev
                     ugank, skupaj z lokacijo. Druge ključne besede so idilične, povezane z družino
                     ali naravo (<hi rend="italic">dedek, sestrica, ptičica, čmrlj, lisica</hi>).
                     Stopnja napak OCR pri tem časopisu je precej visoka – 36-odstotna.</p>
               </div>
               <div>
                  <head>Soča</head>
                  <p style="text-align: justify;">Soča je objavila več prevodov, vključno z deli <hi
                        rend="italic">Trije mušketirji</hi> Alexandra Dumasa (<hi rend="italic"
                        >Athos, Porthos, Artagnan, Aramis</hi>), <hi rend="italic">Grof Monte
                        Cristo</hi> (<hi rend="italic">Villefort</hi>), <hi rend="italic">Quo
                        Vadis?</hi> (<hi rend="italic">Vinicij</hi>) in <hi rend="italic">Križarski
                        vitezi</hi> (<hi rend="italic">Zbišek</hi>) Henryka Sienkiewicza ter <hi
                        rend="italic">Foma Gordejev</hi> Maksima Gorkega. Ključne besede v skupnem
                     obsegu vključujejo 23 odstotkov imen likov. Časopis ima nekaj regionalnih
                     posebnosti, na primer besedo »<hi rend="italic">nunc</hi>«, ki v goriškem
                     narečju označuje starejšega znanca. Regionalni značaj se odraža tudi v omembah
                     lokalnih političnih osebnosti, kot sta Alojzij Pajer-Monriva, proitalijanski
                     odvetnik in politik, ter Ivan Berbuč, politik in sourednik <hi rend="italic"
                        >Soče</hi>. Zanimiva najdba je ključna beseda »<hi rend="italic"
                        >prismojenec</hi>«. »Prismojenec« je bil vzdevek za <hi rend="italic"
                        >Primorski list</hi>, konservativni časopis, ki je nasprotoval <hi
                        rend="italic">Soči</hi>, podobno kot je <hi rend="italic">Slovenski
                        gospodar</hi> nasprotoval <hi rend="italic">Štajercu.</hi> Kljub temu je
                     bila <hi rend="italic">Soča</hi> vsebinsko bolj podobna <hi rend="italic"
                        >Slovencu</hi>.<note place="foot" xml:id="ftn53" n="52">Branko Marušič, <hi
                           rend="italic">Pregled politične zgodovine Slovencev na Goriškem:
                           1848–1899</hi> (Nova Gorica: Goriški muzej, 2005), 326.</note> Časopis
                     vsebuje 53 odstotkov napak OCR, zaradi česar je eden najtežjih za analizo.
                     Tipična napaka OCR za ta časopis je opuščanje strešice (<hi rend="italic"
                        >uze</hi>,<note place="foot" xml:id="ftn54" n="53">Izvirno uže.</note>
                     <hi rend="italic">dezelni, drzaven, goriski</hi>). Poleg tega ima časopis nizko
                     kakovost slik dokumentov, kar še povečuje verjetnost napak OCR.</p>
               </div>
            </div>
            <div>
               <head>Zgodovinski razvoj jezika</head>
               <p style="text-align: justify;">Za dodatno analizo ključnih besed in preučitev
                  razvoja jezika v slovenskih časopisnih publikacijah v poznem 19. in zgodnjem 20.
                  stoletju smo izluščili frekvenčne podatke za izbrane besede iz prejšnjega
                  poglavja. S tem smo želeli točneje opredeliti specifike časopisov z ozirom na
                  razvoj slovenščine. Za primerjavo smo uporabili korpus sPeriodika (ne le deset
                  glavnih časopisov), da bi celovito identificirali trende rabe besed. Izbrane
                  besede so bile prepoznane arhaične besede iz analize ključnih besed: <hi
                     rend="italic">berž</hi> (brž), <hi rend="italic">denes</hi> (danes), <hi
                     rend="italic">sklenica</hi> (steklenica), <hi rend="italic">menenje</hi>
                  (mnenje), <hi rend="italic">rekši</hi> (rekoč), <hi rend="italic">smijati</hi>
                  (smejati), <hi rend="italic">zanimljiv</hi> (zanimiv), <hi rend="italic"
                     >žnjo/žnjim/žnjimi</hi> (z njo, z njim, z njimi) in <hi rend="italic"
                     >zvršetek</hi> (konec). Čeprav je bilo kandidatov več, smo izbrali tiste
                  pojavnice, ki so imele najvišje število pojavitev v svoji arhaični obliki. Večina
                  frekvenčnih podatkov je bila pridobljena z iskanjem po lemi, razen za <hi
                     rend="italic">žnjo/žnjim/žnjimi</hi>, kjer je bil uporabljen poizvedbeni jezik
                  CQL.</p>
               <p style="text-align: justify;">Frekvence smo pridobili neposredno iz okolja NoSketch
                  Engine. Frekvenčne podatke za časopise, katerih leta izhajanja vključujejo obseg
                  (npr. 1901–1914), smo enakomerno porazdelili med leta, medtem ko smo za tiste, ki
                  vključujejo sezono (npr. 1888/1889), podatke dodelili prvemu navedenemu letu (v
                  tem primeru 1888). Poenostavljena porazdelitev po letih povzroči nekaj netočnosti,
                  vendar je zaradi osredotočenosti na trende in ne na natančne številke taka
                  poenostavitev zadostna.</p>
               <p style="text-align: justify;">Rezultati so prikazani na stolpičnem diagramu (Slika
                  3). Grafe smo začeli z letom 1850, pri čemer smo podatke združili po desetletjih
                  za lažjo primerjavo med grafikoni.</p>
               <div>
                  <head>Menjava arhaičnih besed s sodobnimi</head>
                  <p style="text-align: justify;">Presenetljivo je, da je edina beseda, ki kaže
                     visoko frekvenco na začetku obdobja z nenadnim prevzemom sodobne oblike, <hi
                        rend="italic">berž</hi> (Slika 3A). <hi rend="italic">Berž</hi> so
                     najpogosteje uporabljali v časopisu <hi rend="italic">Kmetijske in rokodelske
                        novice</hi> (2215 pojavitev, relativna gostota<note place="foot"
                        xml:id="ftn55" n="54">Relativna gostota (<hi rend="italic">relative
                           density</hi>) primerja pogostost izbranega besedilnega tipa s pogostostjo
                        v celotnem korpusu.</note> 959,6), vendar pri relativni gostoti vodi <hi
                        rend="italic">Slovenska č(e)bela</hi> (3573,2). Raba besede <hi
                        rend="italic">berž</hi> je po koncu Bachovega absolutizma, ko so bile
                     dovoljene tudi druge periodične publikacije, postopoma upadala. To je razvidno
                     tudi iz rabe besede v <hi rend="italic">Kmetijskih in rokodelskih novicah</hi>
                     (Slika 4), kjer raba pada na podoben način.</p>
               </div>
               <div>
                  <head>Regionalne arhaične besede</head>
                  <p style="text-align: justify;">Beseda <hi rend="italic">denes</hi> se je
                     uporabljala pretežno v manjših časopisih (<hi rend="italic">Slovenski
                        tednik</hi>, <hi rend="italic">Naprej</hi>), medtem ko je bila oblika <hi
                        rend="italic">danes</hi> v rabi bistveno pogosteje. <hi rend="italic"
                        >Denes</hi> se je uporabljal približno do osemdesetih let 19. stoletja, ko
                     je začel prevladovati sodobni zapis <hi rend="italic">danes</hi>. Arhaična
                     oblika verjetno izhaja iz kajkavskega jezika, ki je močno vplival na
                     severovzhodni del današnje Slovenije,<note place="foot" xml:id="ftn56" n="55">
                        Breda Pogorelec, <hi rend="italic">Zgodovina slovenskega knjižnega
                           jezika</hi> (Ljubljana: Založba ZRC, 2011), 28.</note> kjer so izhajale
                     prve izdaje časopisa <hi rend="italic">Slovenski narod</hi>. <hi rend="italic"
                        >Menenje</hi> je bilo pogosto v regionalnih (južno)zahodnih časopisih (<hi
                        rend="italic">Gospodarski list</hi>, <hi rend="italic">Novičar</hi>, <hi
                        rend="italic">Edinost</hi>, <hi rend="italic">Slovenka</hi>). Prav tako
                     izrazit regionalni značaj kaže <hi rend="italic">zvršetek</hi>, z visoko
                     relativno frekvenco v podobnih časopisih. Vendar je splošna frekvenca arhaičnih
                     besed zelo nizka. Te besede so lahko posledica vpliva lokalnega narečja ali
                     italijanskega jezika.</p>
               </div>
               <div>
                  <head>Literarni jezik</head>
                  <p style="text-align: justify;">Na podlagi primerjave rabe besed sta dva časopisa
                     najbolj odstopala od jezikovne norme tistega časa. To sta literarna časopisa
                        <hi rend="italic">Ljubljanski zvon</hi> in <hi rend="italic">Vertec</hi>. V
                        <hi rend="italic">Ljubljanskem zvonu</hi> so objavljali mnogi znani
                     slovenski avtorji, kot so Anton Aškerc, Simon Gregorčič in Oton Župančič.
                     Podobno so v <hi rend="italic">Vertcu</hi> objavljali Fran Levstik, Dragotin
                     Kette in Fran Saleški Finžgar. Glede na to, da so časopisa oblikovali pisatelji
                     in pesniki, lahko jezikovna odstopanja pripišemo svobodi literarnega izražanja
                     in eksperimentiranju.</p>
                  <table>
                     <head>Tabela 2: Prvih 10 ključnih besed (lem) v izbranih časopisih. Celice
                        vsebujejo lemo in njeno frekvenco v določenem časopisu. Zadnja vrstica
                        prikazuje odstotek napak OCR med 100 najpogostejšimi ključnimi
                        besedami.</head>
                     <row rend="bold">
                        <cell>Razvrstitev</cell>
                        <cell>KRN</cell>
                        <cell>SG</cell>
                        <cell>UT</cell>
                        <cell>SN</cell>
                        <cell>DS</cell>
                        <cell>SVN</cell>
                        <cell>ED</cell>
                        <cell>LZ</cell>
                        <cell>VT</cell>
                        <cell>SČ</cell>
                     </row>
                     <row>
                        <cell>1</cell>
                        <cell>unidan</cell>
                        <cell>sejmov</cell>
                        <cell>zavezin</cell>
                        <cell>amstetten</cell>
                        <cell>nadknez</cell>
                        <cell>vravnaven</cell>
                        <cell>nvč</cell>
                        <cell>gojko</cell>
                        <cell>marijca</cell>
                        <cell>athos</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell>-1,552</cell>
                        <cell>-843</cell>
                        <cell>-2,265</cell>
                        <cell>-11,058</cell>
                        <cell>-738</cell>
                        <cell>-3,299</cell>
                        <cell>-12,057</cell>
                        <cell>-889</cell>
                        <cell>-269</cell>
                        <cell>-2040</cell>
                     </row>
                     <row>
                        <cell>2</cell>
                        <cell>novičar</cell>
                        <cell>izgoditi</cell>
                        <cell>konvikt</cell>
                        <cell>izvoti</cell>
                        <cell>virida</cell>
                        <cell>gespud</cell>
                        <cell>galatti</cell>
                        <cell>samorad</cell>
                        <cell>otiti</cell>
                        <cell>porthos</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell>-3421</cell>
                        <cell>-481</cell>
                        <cell>-5,486</cell>
                        <cell>-7,416</cell>
                        <cell>-798</cell>
                        <cell>-3,447</cell>
                        <cell>-5,504</cell>
                        <cell>-679</cell>
                        <cell>-475</cell>
                        <cell>-1,411</cell>
                     </row>
                     <row>
                        <cell>3</cell>
                        <cell>čitavnica</cell>
                        <cell>fl</cell>
                        <cell>učiteljstvo</cell>
                        <cell>pontabel</cell>
                        <cell>spominik</cell>
                        <cell>tku</cell>
                        <cell>barriera</cell>
                        <cell>trenk</cell>
                        <cell>štir</cell>
                        <cell>artagnan</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell>-2,044</cell>
                        <cell>-12,467</cell>
                        <cell>-54,905</cell>
                        <cell>-6,225</cell>
                        <cell>-1,029</cell>
                        <cell>-4,680</cell>
                        <cell>-7,162</cell>
                        <cell>-713</cell>
                        <cell>-368</cell>
                        <cell>-1,369</cell>
                     </row>
                     <row>
                        <cell>4</cell>
                        <cell>rusovski</cell>
                        <cell>šulverein</cell>
                        <cell>učiteljski</cell>
                        <cell>selzthal</cell>
                        <cell>bodriški</cell>
                        <cell>salmov</cell>
                        <cell>inseraten</cell>
                        <cell>abadon</cell>
                        <cell>vrtčev</cell>
                        <cell>aramis</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell>-1,714</cell>
                        <cell>-677</cell>
                        <cell>-58,083</cell>
                        <cell>-8,551</cell>
                        <cell>-631</cell>
                        <cell>-2,996</cell>
                        <cell>-7,641</cell>
                        <cell>-549</cell>
                        <cell>-220</cell>
                        <cell>-1,253</cell>
                     </row>
                     <row>
                        <cell>5</cell>
                        <cell>kmetovavec</cell>
                        <cell>radaj</cell>
                        <cell>slomškar</cell>
                        <cell>oblig</cell>
                        <cell>viljenica</cell>
                        <cell>kokr</cell>
                        <cell>nuova</cell>
                        <cell>zdenka</cell>
                        <cell>katarinka</cell>
                        <cell>nunec</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell>-2,481</cell>
                        <cell>-541</cell>
                        <cell>-1,244</cell>
                        <cell>-6,752</cell>
                        <cell>-638</cell>
                        <cell>-3,535</cell>
                        <cell>-7,977</cell>
                        <cell>-826</cell>
                        <cell>-172</cell>
                        <cell>-1,946</cell>
                     </row>
                     <row>
                        <cell>6</cell>
                        <cell>dnar</cell>
                        <cell>vlč</cell>
                        <cell>tovarišica</cell>
                        <cell>franzensfeste</cell>
                        <cell>juriš</cell>
                        <cell>napoleondor</cell>
                        <cell>konsorcija</cell>
                        <cell>groga</cell>
                        <cell>ivanek</cell>
                        <cell>zbišek</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell>-2,238</cell>
                        <cell>-903</cell>
                        <cell>-4,632</cell>
                        <cell>-7,256</cell>
                        <cell>-912</cell>
                        <cell>-3,206</cell>
                        <cell>-5,091</cell>
                        <cell>-1,046</cell>
                        <cell>-181</cell>
                        <cell>-1,004</cell>
                     </row>
                     <row>
                        <cell>7</cell>
                        <cell>žlahen</cell>
                        <cell>kosar</cell>
                        <cell>koleginja</cell>
                        <cell>četiristopen</cell>
                        <cell>gotšalk</cell>
                        <cell>kursen</cell>
                        <cell>pula</cell>
                        <cell>cetinovič</cell>
                        <cell>pesenca</cell>
                        <cell>meljavec</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell>-1,433</cell>
                        <cell>-673</cell>
                        <cell>-1,031</cell>
                        <cell>-3,690</cell>
                        <cell>-610</cell>
                        <cell>-2,771</cell>
                        <cell>-7,343</cell>
                        <cell>-334</cell>
                        <cell>-203</cell>
                        <cell>-928</cell>
                     </row>
                     <row>
                        <cell>8</cell>
                        <cell>krajnski</cell>
                        <cell>posilinemec</cell>
                        <cell>lehrerbund</cell>
                        <cell>steyr</cell>
                        <cell>maruška</cell>
                        <cell>dunavski</cell>
                        <cell>vecchia</cell>
                        <cell>dramatiški</cell>
                        <cell>marijec</cell>
                        <cell>villefort</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell>-3,076</cell>
                        <cell>-463</cell>
                        <cell>-902</cell>
                        <cell>-5,488</cell>
                        <cell>-670</cell>
                        <cell>-4,189</cell>
                        <cell>-6,292</cell>
                        <cell>-642</cell>
                        <cell>-155</cell>
                        <cell>-846</cell>
                     </row>
                     <row>
                        <cell>9</cell>
                        <cell>žebec</cell>
                        <cell>-</cell>
                        <cell>pedagoški</cell>
                        <cell>osoben</cell>
                        <cell>podgoričan</cell>
                        <cell>waldsteinov</cell>
                        <cell>medpostaja</cell>
                        <cell>obsezati</cell>
                        <cell>vzpomlad</cell>
                        <cell>vinicij</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell>-632</cell>
                        <cell/>
                        <cell>-2,796</cell>
                        <cell>-28,671</cell>
                        <cell>-996</cell>
                        <cell>-2,349</cell>
                        <cell>-3,331</cell>
                        <cell>-1,943</cell>
                        <cell>-176</cell>
                        <cell>-821</cell>
                     </row>
                     <row>
                        <cell>10</cell>
                        <cell>enmalo</cell>
                        <cell>-</cell>
                        <cell>črnagoj</cell>
                        <cell>vara</cell>
                        <cell>ančka</cell>
                        <cell>napoleond</cell>
                        <cell>piazza</cell>
                        <cell>premec</cell>
                        <cell>ivanko</cell>
                        <cell>foma</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell>-823</cell>
                        <cell/>
                        <cell>-779</cell>
                        <cell>-13,567</cell>
                        <cell>-1,407</cell>
                        <cell>-2,234</cell>
                        <cell>-14,364</cell>
                        <cell>-381</cell>
                        <cell>-170</cell>
                        <cell>-916</cell>
                     </row>
                     <row>
                        <cell>napake</cell>
                        <cell>5%</cell>
                        <cell>92%</cell>
                        <cell>12%</cell>
                        <cell>19%</cell>
                        <cell>1%</cell>
                        <cell>15%</cell>
                        <cell>0%</cell>
                        <cell>36%</cell>
                        <cell>36%</cell>
                        <cell>53%</cell>
                     </row>
                     <note n="">Vir: NoSketchEngine</note>
                  </table>
                  <figure>
                     <head>Slika 3: Frekvence arhaičnih besed v primerjavi z njihovimi sodobnimi
                        različicami v korpusu sPeriodika. Modri stolpci predstavljajo arhaične,
                        oranžni stolpci pa sodobne oblike.</head>
                     <graphic url="Slika3.png"/>
                     <lb/>
                     <note n="">Vir: avtorica iz podatkov NoSketchEngine</note>
                  </figure>
                  <figure>
                     <head>Slika 4: Relativna gostota besed »berž« in »brž« v Kmetijskih in
                        rokodelskih novicah po desetletjih</head>
                     <graphic url="Slika4.png"/>
                     <lb/>
                     <note n="">Vir: avtorica iz podatkov NoSketchEngine</note>
                  </figure>
                  <p style="text-align: justify;">Pojavnico <hi rend="italic">obsezati</hi> so
                     uporabljali pretežno v časopisu <hi rend="italic">Ljubljanski zvon</hi>.
                     Zabeležen je relativno velik porast besede v osemdesetih in devetdesetih letih
                     19. stoletja. Podobno je tudi z besedo <hi rend="italic">zanimljiv</hi>, ki je
                     imela višjo relativno frekvenco v <hi rend="italic">Ljubljanskem zvonu</hi> kot
                     v drugih časopisih, ter besedo <hi rend="italic">smijati</hi>, ki se je
                     pretežno uporabljala v literarnih časopisih v sedemdesetih in osemdesetih letih
                     19. stoletja (<hi rend="italic">Vertec</hi> z relativno frekvenco 65,9 in <hi
                        rend="italic">Ljubljanski zvon</hi> s frekvenco 55,4). V devetdesetih letih
                     19. stoletja se je trend rabe besede <hi rend="italic">smijati</hi> začel
                     zmanjševati, prevladovati pa je začela sodobna oblika <hi rend="italic"
                        >smejati</hi>. <hi rend="italic">Rekši</hi>, arhaična oblika besede <hi
                        rend="italic">rekoč</hi>, je deležniška oblika glagola reči. Obe obliki sta
                     bili v rabi v opazovanem obdobju, pri čemer je bila <hi rend="italic"
                        >rekši</hi> precej manj priljubljena kot <hi rend="italic">rekoč</hi>. Raba
                     besede <hi rend="italic">rekoč</hi> v sodobnem času prav tako upada (vir:
                     metaFida v1.0). Časopisi so uporabljali obe obliki in niso pokazali večjih
                     pristranskosti do <hi rend="italic">rekši</hi>, razen <hi rend="italic"
                        >Vertca</hi> (40,05) in <hi rend="italic">Ljubljanskega zvona</hi> (27,64),
                     kjer se oblika <hi rend="italic">rekši</hi> uporablja nekoliko pogosteje.
                     Nekateri manjši časopisi pa imajo še višjo relativno frekvenco. <hi
                        rend="italic">Sklenica</hi> je bila uporabljena zgolj občasno v sedemdesetih
                     in osemdesetih letih 19. stoletja, brez kakšnega večjega časopisa, ki bi jo
                     uporabljal v veliki meri. <hi rend="italic">Žnjim/žnjo/žnjimi</hi> kaže porast
                     na prelomu 20. stoletja, vendar interpretacija za to besedo ni povsem
                     jasna.</p>
                  <p style="text-align: justify;">Oblikovanje slovenskega jezika je tesno povezano s
                     strokovno razpravo o jezikovnih pravilih. Prva slovenska slovnica je bila
                     Bohoričeva <hi rend="italic">Arcticae horulae succisivae</hi>, izdana leta
                     1584. Skoraj dve stoletji je trajalo, da je bila izdana druga slovnica. Leta
                     1768 je izšla Pohlinova slovnica <hi rend="italic">Kranjska gramatika</hi>,
                     napisana v nemščini in osredotočena na kranjsko narečje. V začetku 19. stoletja
                     je bilo veliko poskusov modernizacije slovenščine, kar je pripeljalo do izdaj
                     slovnic pomembnih avtorjev, med njimi Kopitarja (1809), Vodnika (1811), Dajnka
                     (1824), Metelka (1825), Murka (1832/43/50), Majarja (1850) in Miklošiča (1852).
                     Kljub številnim konkurenčnim slovnicam je bil prvi slovenski pravopis objavljen
                     šele leta 1899, avtor pa je bil Fran Levec. Plodovita dejavnost izdajanja
                     slovnic priča o obdobju oblikovanja jezika, v katerem so se soočala
                     nasprotujoča si stališča do pravopisa, izgovarjave, pisanja in skladnje. Ta
                     soočenja so verjetno prispevala k vzporedni rabi določenih arhaičnih in/ali
                     narečnih besed, kar je razvidno iz analize zgodovinskih časopisov.</p>
               </div>
            </div>
            <div>
               <head>Analiza napak OCR</head>
               <p style="text-align: justify;">Napake OCR so predstavljale pomemben izziv pri
                  analizi določenih časopisov (<hi rend="italic">Slovenski gospodar</hi>, <hi
                     rend="italic">Soča</hi>). S pomočjo analize ključnih besed smo ročno
                  identificirali napake OCR iz nabora 100 pojavnic. Pomanjkanje strešic smo
                  obravnavali kot napako OCR, saj se beseda brez strešic šteje kot drugačna od
                  besede s strešicami (<hi rend="italic">drzaven/državen</hi>) ali pa lahko pomeni
                  povsem drugo besedo (<hi rend="italic">čelo/celo</hi>). V širšem pregledu 1000
                  ključnih besed smo odkrili 266 napak, vključno z manjkajočimi diakritičnimi znaki,
                  zamenjavo znakov in napačno interpretacijo naglasnih znamenj kot številk (npr. <hi
                     rend="italic">dom6v</hi> namesto <hi rend="italic">domov</hi>). Pomembno je
                  omeniti, da so bili časopisi digitalizirani z različnimi modeli OCR, kar je
                  povzročilo specifične napake v posameznih publikacijah.</p>
               <div>
                  <head>Splošne napake OCR</head>
                  <p style="text-align: justify;">Nekatere napake OCR se ponavljajo in kažejo na
                     temeljne slabosti modelov OCR za arhaične zapise in slovenščino. Najpogostejša
                     napaka (24 odstotkov) je prepis črk n, s ali š kot a. Te napake so
                     najpogostejše v časopisu <hi rend="italic">Slovenski gospodar</hi>, ki ima tudi
                     sicer največ napak OCR. Druga najpogostejša napaka (21 odstotkov) je
                     pomanjkanje strešic (<hi rend="italic">stajerski, drzaven</hi>), tretja (9
                     odstotkov) pa napačna transkripcija naglasnih znamenj kot številk – zlasti 6, 7
                     ali 2 (<hi rend="italic">dom6v, rek6, už6, u2e, pra7</hi>). Naglasna znamenja
                     so pogosto zapisana tudi kot d (<hi rend="italic">takdj</hi>). Črka n na
                     začetku pogosto pomeni, da se beseda začne z narekovaji (<hi rend="italic"
                        >nkaj, nne, njaz</hi>). Zamenjava črk je zelo pogosta, zlasti med č in e
                        (<hi rend="italic">oee, užč</hi>), i in l (<hi rend="italic">ijubi,
                        nefranklran</hi>), c in e (<hi rend="italic">Marijea, evetice</hi>) ter u in
                     n (<hi rend="italic">nčenki</hi>).</p>
               </div>
               <div>
                  <head>Naglasna znamenja</head>
                  <p style="text-align: justify;">Naglasna znamenja in strešice predstavljajo
                     poseben problem pri transkripciji sPeriodike. Tukaj je primer iz <hi
                        rend="italic">Ljubljanskega zvona</hi>, edinega časopisa, ki redno uporablja
                     naglasna znamenja na samoglasnikih (medtem ko <hi rend="italic">Vertec</hi> to
                     počne občasno):</p>
                  <list rend="bulleted">
                     <item><hi rend="italic">Takó kričálo vse je gôri náme.</hi> (izvirnik)</item>
                     <item><hi rend="italic">Takd kričdlo vse je g6ri ndme.</hi> (prepis OCR)</item>
                  </list>
                  <p style="text-align: justify;">Napake vizualno delujejo smiselno. Ó in á sta
                     prepisana kot d (ali občasno 6), ô kot 6, á tudi kot ä, é pa kot č. Kljub temu
                     težave s transkripcijo omejujejo semantično analizo ključnih besed.</p>
               </div>
               <div>
                  <head>Napake v specifičnih časopisih</head>
                  <p style="text-align: justify;"><hi rend="italic">Vertec</hi> ima specifične
                     napake OCR. Čeprav te niso ekskluzivne za ta časopis, so v njem še posebej
                     izrazite. Znakovne zamenjave pogosto prizadenejo črke in sklope črk m, u in ru.
                     Zaradi podobnosti oblik se m pogosto prepiše kot ra, ni ali in. U se prepiše
                     kot ii, ru pa kot ni ali m. Črka v je pogosto prepisana kot r, ó pa kot d ali
                     6.</p>
                  <p style="text-align: justify;">Pri časopisih, kjer se napake pogosto pojavljajo v
                     ključnih besedah, smo primerjali pogostost napačno zapisanih besed s pravilnimi
                     oblikami. Napačna oblika <hi rend="italic">sloveaski</hi> se v korpusu pojavi
                     1855-krat, pravilna oblika <hi rend="italic">slovenski</hi> pa 45.759-krat.
                     Ključnih besed ni mogoče analizirati semantično, saj bi bilo treba vse napačne
                     oblike najprej pretvoriti v pravilne. Vendar se napaka znatno pogosteje
                     pojavlja v <hi rend="italic">Slovenskem gospodarju</hi> kot v katerem koli
                     drugem časopisu. Razlika v pogostosti pomeni, da ta napaka značilno označuje
                     časopis in bi jo bilo mogoče uporabiti pri postopkih naknadne obdelave. Z
                     drugimi besedami, takšne napačne oblike bi lahko naknadno popravili v izbrani
                     publikaciji.</p>
               </div>
               <div>
                  <head>Kandidati za ponovno optično branje</head>
                  <p style="text-align: justify;">S stopnjo napak lahko določimo tudi kandidate za
                     ponovno optično branje. Nekateri optično prebrani dokumenti so že zdaj slabe
                     kakovosti ali pa so bili med prvimi digitaliziranimi časopisi. Sodobne rešitve
                     OCR bi lahko dale precej boljši rezultat od obstoječih različic, vendar je
                     ponovno optično branje celotne sPeriodike zamudno in nepotrebno. Smiselna
                     rešitev bi bilo oblikovanje seznama kandidatov za ponovno optično branje. Na
                     podlagi naših rezultatov bi <hi rend="italic">Slovenski gospodar</hi> in <hi
                        rend="italic">Soča </hi>pridobila tako s ponovnim optičnim branjem kot tudi
                     s sodobno OCR-transkripcijo, medtem ko bi <hi rend="italic">Ljubljanski
                        zvon</hi> potreboval le izboljšano transkripcijo (saj so optično prebrani
                     dokumenti že ustrezni).</p>
                  <p style="text-align: justify;">Sodobne tehnologije OCR, skupaj z velikimi
                     jezikovnimi modeli (VJM) in velikimi multimodalnimi modeli (VMM), odpirajo nove
                     možnosti za izboljšanje natančnosti transkripcije. Na primer, GPT-4o je uspešno
                     transkribiral slabše optično prebrani del časopisa <hi rend="italic">Soča</hi>
                     (Slika 5):</p>
                  <figure>
                     <head>Slika 5: Del časopisa <hi rend="italic">Soča</hi> s slabo kakovostjo
                        optičnega branja</head>
                     <graphic url="Slika5.png"/>
                     <lb/>
                     <note n="">Vir Soča, 17. 9. 1874, <ref
                           target="https://dlib.si/details/URN:NBN:SI:DOC-5JQMY60Z/"
                           >https://dlib.si/details/URN:NBN:SI:DOC-5JQMY60Z/</ref></note>
                  </figure>
                  <quote style="text-align: justify;">gospodo staro ekonomične šole nezavnost trde,
                     da vsega tega Gorica ne potrebuje; drugi zopet pravijo, da bi moralo
                     starešinstvo predložiti natčene načrte novih del. Kar se tiče prvih, jim moramo
                     naravnost povedati, da prvič okolišin dobro ne poznajo, drugič da stojé na jako
                     ozkem stališču glede narodnega gospodarstva in tretjič, da ne želé Gorici
                     takega napredka, kakoršnega zasluži zaradi svoje naravne krasote in
                     klimatičnega prečistva. Zahtev drugih pa ne moremo prav razumeti, kar znano nam
                     je, da so druga mesta, no dosti veča od Gorice, kontrahirala velika posojila
                     samo za ozaljšanje in luksus in vendar jim ni bilo potrebno predlagati dež.
                     odboru natancnih načrtov, kateri že sami na sebi toliko stanjo, da jih ne bo
                     nobeden varčen gospodar dal poprej izdelati, dokler njim popolne gotovosti, da
                     dobi potrebnega denarja <hi rend="italic">.</hi></quote>
                  <p style="text-align: justify;">Zmožnosti VJM in VMM omogočajo prepoznavo slabše
                     optično prebranih dokumentov skoraj brez dodatnega prilagajanja. VMM presegajo
                     sodobne rešitve OCR pri neposredni prepoznavi besedila,<note place="foot"
                        xml:id="ftn57" n="56">Yuliang Liu et al., »On the Hidden Mystery of OCR in
                        Large Multimodal Models,« <hi rend="italic">Sci. China Inf. Sci</hi>. 67,
                        220102 (2024), <ref target="https://doi.org/10.1007/s11432-024-4235-6"
                           >https://doi.org/10.1007/s11432-024-4235-6</ref>.</note> tudi pri
                     kompleksnih postavitvah, kot so izrezki iz starih kitajskih časopisov<note
                        place="foot" xml:id="ftn58" n="57">Eric H. C. Chow, »An Experiment with
                        Gemini Pro LLM for Chinese OCR and Metadata Extraction,« pridobljeno 5. 4.
                        2024, <ref
                           target="https://digitalorientalist.com/2024/04/05/an-experiment-with-gemini-pro-llm-for-chinese-ocr-and-metadata-extraction/"
                           >https://digitalorientalist.com/2024/04/05/an-experiment-with-gemini-pro-llm-for-chinese-ocr-and-metadata-extraction/</ref>.</note>
                     in rokopisna besedila.<note place="foot" xml:id="ftn59" n="58">Mark Humphries
                        et al., »Unlocking the Archives: Large Language Models Achieve
                        State-of-the-Art Performance on the Transcription of Handwritten Historical
                        Documents,« pridobljeno 24. 10. 2024, <ref
                           target="http://dx.doi.org/10.2139/ssrn.5006071"
                           >http://dx.doi.org/10.2139/ssrn.5006071</ref>.</note> Medtem ko trenutne
                     raziskave kažejo mešane rezultate za popravke po optični prepoznavi
                        znakov,<note place="foot" xml:id="ftn60" n="59">Alan Thomas, Robert
                        Gaizauskas in Haiping Lu, »Leveraging LLMs for post-OCR correction of
                        historical newspapers,« v: <hi rend="italic">Proceedings of the third
                           workshop on language technologies for historical and ancient
                           languages</hi> (Torino: ELRA in ICCL, 2024), 116–21.</note><hi
                        rend="superscript">,</hi>
                     <note place="foot" xml:id="ftn61" n="60">Emanuela Boros et al.,
                        »Post-correction of historical text transcripts with large language models:
                        An exploratory study,« v: <hi rend="italic">Proceedings of the 8th Joint
                           SIGHUM Workshop on Computational Linguistics for Cultural Heritage,
                           Social Sciences, Humanities and Literature</hi> (LaTeCH-CLfL 2024) (St.
                        Julians: Association for Computational Linguistics, 2024).</note> bi
                     prilagoditev VMM za zgodovinske podatke lahko izboljšala rezultate. Ti napredki
                     odpirajo pot za globlje analize zgodovinskih korpusov,<note place="foot"
                        xml:id="ftn62" n="61">Giselle G. Garcia in Christian Weilbach, »If the
                        Sources Could Talk: Evaluating Large Language Models for Research Assistance
                        in History,« v: <hi rend="italic">Proceedings of the Computational
                           Humanities Research Conference 2023</hi> (Pariz: CHR, 2023),
                        616–38.</note> vključno s povzetki vsebine, analizo trendov in semantičnim
                     iskanjem. Poleg tega nastajajo novi VJM, posebej prilagojeni zgodovinskim
                     podatkom (ZVJM), ki omogočajo še podrobnejši vpogled v zgodovinske družbe.<note
                        place="foot" xml:id="ftn63" n="62">Michael E. W. Varnum, Nicolas Baumard,
                        Mohammad Atari in Kurt Gray, »Large language models based on historical text
                        could offer informative tools for behavioral science,« <hi rend="italic"
                           >Proceedings of the National Academy of Sciences</hi> 121, št. 42
                        (Washington, DC: National Academy of Sciences of the United Stated of
                        America 2024): e2407639121, <ref
                           target="https://doi.org/10.1073/pnas.2407639121."
                           >https://doi.org/10.1073/pnas.2407639121.</ref></note></p>
               </div>
            </div>
         </div>
         <div>
            <head>Razprava</head>
            <p style="text-align: justify;">Časopise smo opredelili z analizo ključnih besed na
               podlagi lem. Periodike so običajno opredeljene bodisi s svojo deklarirano usmeritvijo
               (npr. <hi rend="italic">KRN</hi>, <hi rend="italic">Učiteljski tovariš</hi>) bodisi s
               podlistki in oglasi (npr. <hi rend="italic">Dom in svet</hi>, <hi rend="italic"
                  >Slovenski narod</hi>) ali pa – žal – z napakami OCR (<hi rend="italic">Slovenski
                  gospodar</hi>).</p>
            <p style="text-align: justify;">Poudarek na podlistkih in oglasih se ujema s predhodnimi
               raziskavami o zgodovinskih slovenskih periodikah. Podlistki, tj. časopisni odseki,
               namenjeni leposlovju, so igrali ključno vlogo pri razvoju slovenske proze, saj so
               avtorjem omogočali zgodnji dostop do širšega občinstva.<note place="foot"
                  xml:id="ftn64" n="63">Dović, »Literatura in mediji v Jurčičevem času.«</note>
               Analiza ključnih besed je sicer identificirala zgolj značilne izraze, ki sovpadajo z
               določenimi literarnimi liki, vendar so ti neločljivo povezani s podlistki, v katerih
               se pojavljajo.</p>
            <p style="text-align: justify;">Nasprotno pa je bila vloga oglasov bolje poudarjena. V
               poznem 19. stoletju so oglasi zavzemali pomemben del periodik, pri čemer je bilo
               razmerje med uredniškimi in oglasnimi vsebinami 4 : 1.<note place="foot"
                  xml:id="ftn65" n="64">Ibidem.</note> Ključne besede so izpostavile specifične
               oglaševalce in tudi splošni oglaševalski jezik (npr. <hi rend="italic">inseraten,
                  nvč</hi>).</p>
            <p style="text-align: justify;">Analiza ključnih besed je razkrila prehodno stanje
               slovenskega jezika v tem obdobju. Vsaka periodika je imela svojevrstne pravopisne
               konvencije za knjižne besede. Na primer, <hi rend="italic">Kmetijske in rokodelske
                  novice</hi> uporabljajo <hi rend="italic">nograd</hi> namesto <hi rend="italic"
                  >vinograd</hi> in <hi rend="italic">berž</hi> namesto <hi rend="italic">brž</hi>,
               medtem ko <hi rend="italic">Slovenski narod</hi> uporablja <hi rend="italic"
                  >denes</hi> namesto <hi rend="italic">danes</hi> in <hi rend="italic"
                  >sklenica</hi> namesto <hi rend="italic">steklenica</hi>. Celo časopisi, ki so
               bili v ospredju jezikovne standardizacije, denimo <hi rend="italic">Ljubljanski
                  zvon</hi>, vsebujejo besede, ki so danes arhaične (npr. <hi rend="italic"
                  >obsezati</hi> namesto <hi rend="italic">obsegati</hi> in <hi rend="italic"
                  >smijati</hi> namesto <hi rend="italic">smejati</hi>). Diahrona analiza je
               pokazala, da so bile nekatere besede specifične za določene regije, druge pa so
               odražale eksperimentalno ali umetniško rabo v vodilnih literarnih periodikah.</p>
            <p style="text-align: justify;">Napake OCR so predstavljale pomemben izziv pri analizi
               določenih periodik. Pri periodikah s pogostimi napakami OCR lahko napačne besede
               izkrivljajo analizo, zato bi popravljanje besedila po optični prepoznavi znakov
               izboljšalo natančnost semantične analize. Kot poudarjajo Strange in sodelavci,<note
                  place="foot" xml:id="ftn66" n="65">Carolyn Strange, Daniel McNamara, Josh Wodak in
                  Ian Wood, »Mining for the meanings of a murder: The impact of OCR quality on the
                  use of digitized historical newspapers,« <hi rend="italic">Digital Humanities
                     Quarterly</hi> 8, št. 1 (2014).</note> je popravljanje po OCR ključno za
               tehnike, kot je analiza ključnih besed. Nekatere periodike so bile zaradi
               ponavljajoče se vsebine podvržene pristranskostim v analizi ključnih besed. V <hi
                  rend="italic">Slovencu</hi>, na primer, je 29 odstotkov ključnih besed pripadalo
               glavi časopisa, medtem ko se je 68 odstotkov ključnih besed v <hi rend="italic"
                  >Edinosti </hi>nanašalo na italijanska ulična imena. Takšne pristranskosti
               omejujejo uporabnost analize ključnih besed za vsebinsko karakterizacijo v teh
               primerih.</p>
         </div>
         <div>
            <head>Zaključek</head>
            <p style="text-align: justify;">Analiza ključnih besed razkriva različne vidike
               periodik. Nekateri časopisi so opredeljeni s svojo splošno vsebino, kot je kmetijstvo
                  (<hi rend="italic">Kmetijske in rokodelske novice</hi>) ali pedagogika (<hi
                  rend="italic">Učiteljski tovariš</hi>); drugi so opredeljeni s ponavljajočimi se
               podlistki, ki jih objavljajo (<hi rend="italic">Dom in svet</hi>, <hi rend="italic"
                  >Slovenec</hi>, <hi rend="italic">Vertec</hi>, <hi rend="italic">Soča</hi>);
               nekateri pa so prepoznavni po oglasnem prostoru (<hi rend="italic">Slovenski
                  narod</hi>, <hi rend="italic">Edinost</hi>). <hi rend="italic">Slovenski
                  gospodar</hi> žal vsebuje preveč napak OCR, da bi analiza ključnih besed razkrila
               smiselne vpoglede. Ponavljajoče se napake OCR v periodikah bi lahko bile obravnavane
               v postopku obdelave po optični prepoznavi znakov.</p>
            <p style="text-align: justify;">Računalniški pregled ponuja številne možnosti za
               nadaljnje analize. Mogoče bi bilo, denimo, primerjalno analizirati prva dva slovenska
               dnevna časopisa, liberalni <hi rend="italic">Slovenski narod</hi> in konservativnega
                  <hi rend="italic">Slovenca</hi>. Podobna primerjalna analiza bi se lahko uporabila
               za <hi rend="italic">Edinost</hi> in <hi rend="italic">Sočo</hi>, dva časopisa
               Slovencev v Italiji, ter razčlenitev njunih skupnih in različnih elementov (še
               posebej ob upoštevanju namenov za združitev teh časopisov). Kandidatne arhaične
               besede bi lahko izbrali s frekvenčnega seznama celotne sPeriodike in tako točneje
               opredelili razvoj slovenščine na prelomu 19. v 20. stoletje. Veliko zahtevnejša
               raziskava bi lahko preučila razlike v oglasih, saj so ti izstopali že pri analizi
               ključnih besed. Naloga je kompleksna, ker je izredno težko določiti meje posameznih
               oglasov, vendar bi bilo problem mogoče obravnavati tako, da bi periodike obravnavali
               kot slike<note place="foot" xml:id="ftn67" n="66">Quintus van Galen, »The page is an
                  image again: Bleedmapping as an analysis technique for historical newspapers,« <hi
                     rend="italic">Digital Humanities Quarterly</hi> 17, št. 1 (2023).</note> in
               uporabili iskanje sosedov za določanje podobnih oglasov. Velike multimodalne modele
               lahko uporabljamo za mnoge zgoraj omenjene naloge, ta tehnologija pa bo prihodnosti
               korenito spremenila zgodovinske raziskave, še posebej pri obravnavi korpusov nižje
               kakovosti.</p>
         </div>
         <div>
            <head>Zahvale</head>
            <p style="text-align: justify;">Iskreno se zahvaljujem dr. Nikoli Ljubešiću in Filipu
               Dobraniću za njun neprecenljiv prispevek k pričujočemu delu. Delo, opisano v tem
               članku, sta financirali Javna agencija za znanstvenoraziskovalno in inovacijsko
               dejavnost Republike Slovenije v okviru raziskovalnega programa P6-0436 <hi
                  rend="italic">Digitalna humanistika: viri, orodja in metode</hi> (2022–2027) ter
               raziskovalne infrastrukture DARIAH-SI in Evropska unija v okviru programa Horizon
               Europe (101186647 – AI4DH).</p>
         </div>
      </body>
      <back>
         <div type="bibliogr">
            <head>Viri in literatura</head>
            <listBibl>
               <head>Literatura</head>
               <bibl>Amon, Smilja. »Vloga slovenskega časopisja v združevanju in ločevanju slovenske
                  javnosti od 1797–1945.« <hi rend="italic">Javnost</hi> 15 (2008): S9–S24.</bibl>
               <bibl>Anonymous, L.. »Slovenski časopisi leta 1885.« <hi rend="italic">Ljubljanski
                     zvon</hi> 5, 1885, 631–35.</bibl>
               <bibl>Boros, Emanuela, Maud Ehrmann, Matteo Romanello, Sven Najem-Meyer in Frédéric
                  Kaplan. »Post-correction of historical text transcripts with large language
                  models: An exploratory study.« V: <hi rend="italic">Proceedings of the 8th Joint
                     SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social
                     Sciences, Humanities and Literature (LaTeCH-CLfL 2024)</hi>, ur. Yuri Bizzoni,
                  Stefania Degaetano-Ortlieb, Anna Kazantseva in Stan Szpakowicz. St. Julians:
                  Association for Computational Linguistics, 2024.</bibl>
               <bibl>Darovec, Darko. <hi rend="italic">Pregled zgodovine Istre.</hi> Koper:
                  Zgodovinsko društvo za južno Primorsko, Založba Annales; Čentur: Inštitut IRRIS za
                  raziskave, razvoj in strategije družbe, kulture in okolja, 2023.</bibl>
               <bibl>Dobranić, Filip, Bojan Evkoski in Nikola Ljubešić. <hi rend="italic">Corpus of
                     Slovenian Periodicals (1771–1914) sPeriodika 1.0, </hi>2023. <ref
                     target="http://hdl.handle.net/11356/1881"
                     >http://hdl.handle.net/11356/1881</ref>.</bibl>
               <bibl>Dobranić, Filip, Bojan Evkoski in Nikola Ljubešić. »A Lightweight Approach to a
                  Giga-Corpus of Historical Periodicals: The Story of a Slovenian Historical
                  Newspaper Collection.« V: <hi rend="italic">Proceedings of the 2024 Joint
                     International Conference on Computational Linguistics, Language Resources and
                     Evaluation (LREC-COLING 2024)</hi>, ur. Nicoletta Calzolari, Kan Min-Yen,
                  Veronique Hoste et al. Torino: ELRA in ICCL, 2024.</bibl>
               <bibl>Dović, Marijan. »Literatura in mediji v Jurčičevem času.« <hi rend="italic"
                     >Slavistična revija</hi> 54, št. 4 (2006): 543–57.</bibl>
               <bibl>Dović, Marijan. »Anatomy of the 'Deathly Silence': Slovenian Newspapers in
                  Carniola and the Pre-March Censorship.« <hi rend="italic">Neohelicon</hi> 50, št.
                  2 (2023): 543–60. <ref target="https://doi.org/10.1007/s11059-023-00707-8"
                     >https://doi.org/10.1007/s11059-023-00707-8</ref>. </bibl>
               <bibl>Ehrmann, Maud, Estelle Bunout in Marten Düring. »Historical Newspaper User
                  Interfaces: A Review.« V: <hi rend="italic">85th IFLA General Conference and
                     Assembly (IFLA)</hi>. Zenodo, 2019.</bibl>
               <bibl>Ehrmann, Maud, Marten Düring, M., Clemens Neudecker in Antoine Doucet.
                  »Computational Approaches to Digitised Historical Newspapers.« <hi rend="italic"
                     >Dagstuhl Reports</hi> 12, št. 7 (2023): 112–79. Pridobljeno 5. 2. 2025. <ref
                     target="https://doi.org/10.4230/DagRep.12.7.112"
                     >https://doi.org/10.4230/DagRep.12.7.112</ref>.</bibl>
               <bibl>Garcia, Giselle G. in Christian Weilbach. »If the Sources Could Talk:
                  Evaluating Large Language Models for Research Assistance in History.« V: <hi
                     rend="italic">Proceedings of the Computational Humanities Research Conference
                     2023</hi>, ur. Artjoms Šeļa, Fotis Jannidis in Iza Romanowska, 616–38. Pariz:
                  CHR, 2023.</bibl>
               <bibl>Hengchen, Simon, Ruben Ros, Jani Marjanen in Mikko Tolonen. »A Data-Driven
                  Approach to Studying Changing Vocabularies in Historical Newspaper Collections.«
                     <hi rend="italic">Digital Scholarship in the Humanities</hi> 36, dodatek 2
                  (2021): ii109-ii126. <ref target="https://doi.org/10.1093/llc/fqab032"
                     >https://doi.org/10.1093/llc/fqab032</ref>.</bibl>
               <bibl>Humphries, Mark, Lianne C. Leddy, Quinn Downton, Meredith Legace, John
                  McConnell, Isabella Murray in Spence, Elizabeth. »Unlocking the Archives: Large
                  Language Models Achieve State-of-the-Art Performance on the Transcription of
                  Handwritten Historical Documents.« Pridobljeno 24. 10. 2024. <ref
                     target="http://dx.doi.org/10.2139/ssrn.5006071"
                     >http://dx.doi.org/10.2139/ssrn.5006071</ref>.</bibl>
               <bibl>Ilich, Maja. »Nekaj o modi v slovenskem časopisju na prelomu stoletja
                  (1895-1915).« <hi rend="italic">Zgodovina za vse</hi> 6, št. 2 (1999):
                  98–108.</bibl>
               <bibl>Jezernik, Božidar. »Katoliška duhovščina na prelomu devetnajstega in dvajsetega
                  stoletja in proces modernizacije na Slovenskem.« <hi rend="italic"
                     >Traditiones</hi> 51, št. 1 (2022): 103–45.</bibl>
               <bibl>Kermavner, Dušan. »Drugi slovenski socialnodemokratski listi.« <hi
                     rend="italic">Kronika</hi> 10 (1962): 80–89.</bibl>
               <bibl>Kettunen, Kimmo in Tuula Pääkkönen. »Measuring Lexical Quality of a Historical
                  Finnish Newspaper Collection – Analysis of Garbled OCR Data with Basic Language
                  Technology Tools and Means.« V: <hi rend="italic">Proceedings of the Tenth
                     International Conference on Language Resources and Evaluation (LREC’16)</hi>,
                  ur. Khalid Choukri, Thierry Declerck, Sara Goggi et al., 956–961. Portorož: ELRA,
                  2016.</bibl>
               <bibl>Kilgarriff, Adam. »Simple Maths for Keywords.« V: <hi rend="italic">Proceedings
                     of Corpus Linguistics</hi> 6. Liverpool, VB: University of Liverpool,
                  2009.</bibl>
               <bibl>Liu, Yuliang, Zhang Li, Mingxin Huang, Biao Yang, Wenwen Yu, Chunyuan Li, Yin,
                  Xucheng, Cheng-lin Liu, Lianwen Jin in Xiang Bai. »On the Hidden Mystery of OCR in
                  Large Multimodal Models.« <hi rend="italic">Sci. China Inf. Sci.</hi> 67, 220102
                  (2024). <ref target="https://doi.org/10.1007/s11432-024-4235-6"
                     >https://doi.org/10.1007/s11432-024-4235-6</ref>.</bibl>
               <bibl>Marjanen, Jani, Jussi Kurunmäki, Lidia Pivovarova in Elaine Zosa. »The
                  Expansion of Isms, 1820–1917: Data-Driven Analysis of Political Language in
                  Digitized Newspaper Collections.« <hi rend="italic">Journal of Data Mining &amp;
                     Digital Humanities</hi> 2020<hi rend="italic">.</hi>
                  <ref target="https://doi.org/10.46298/jdmdh.6159"
                     >https://doi.org/10.46298/jdmdh.6159</ref>.</bibl>
               <bibl>Marjanen, Jani, Ville Vaara, Antti Kanner, Hege Roivainen, Eetu Mäkelä, Leo
                  Lahti in Mikko Tolonen. »A National Public Sphere? Analyzing the Language,
                  Location, and Form of Newspapers in Finland, 1771–1917.« <hi rend="italic">Journal
                     of European Periodical Studies</hi> 4, št. 1 (2019). <ref
                     target="https://doi.org/10.21825/jeps.v4i1.10483"
                     >https://doi.org/10.21825/jeps.v4i1.10483</ref>.</bibl>
               <bibl>Marjanen, Jani, Elaine Zosa, Simon Hengchen, Lidia Pivovarova in Mikko Tolonen.
                  »Topic Modelling Discourse Dynamics in Historical Newspapers.« V: <hi
                     rend="italic">Digital Humanities in the Nordic Countries 2020</hi>, ur. Sanita
                  Reinsone, Inguna Skadiņa, Andra Baklāne, in Jãnis Daugavietis, 63–77. CEUR-WS.org,
                  2021.</bibl>
               <bibl>Marušič, Branko. <hi rend="italic">Pregled politične zgodovine Slovencev na
                     Goriškem: 1848-1899</hi>. Nova Gorica: Goriški muzej, 2005.</bibl>
               <bibl>Marušič, Branko. »Izbor vesti o Istri v slovenskem časopisju do leta 1880.« <hi
                     rend="italic">Annales</hi> 17, št. 1 (2007): 65-82.</bibl>
               <bibl>Mayer, Adán. I. L., Ximena Gutierrez-Vasques, Ernesto P. Saiso in Hannu Salmi.
                  »Underlying sentiments in 1867: A study of news flows on the execution of Emperor
                  Maximilian I of Mexico in digitized newspaper corpora.« <hi rend="italic">Digital
                     Humanities Quarterly</hi> 16, št. 4 (2022).</bibl>
               <bibl>Mihelič, Stane. »Kmetijska družba in ustanovitev 'Novic'.« <hi rend="italic"
                     >Slavistična revija</hi> 1, št. 1/2 (1948).</bibl>
               <bibl>Park, Jaihyun in Ryan Cordell. »A quantitative discourse analysis of Asian
                  workers in the US historical newspapers.« V: <hi rend="italic">Proceedings of the
                     Joint 3rd International Conference on Natural Language Processing for Digital
                     Humanities and 8th International Workshop on Computational Linguistics for
                     Uralic Languages</hi>, ur. Mika Hämäläinen, Emily Öhman, Flammie Pirinenm et
                  al., 7–15. Tokio: Association for Computational Linguistics, 2023.</bibl>
               <bibl>Pedrazzini, Nilo in Barbara McGillivray. »Machines in the media: semantic
                  change in the lexicon of mechanization in 19th-century British newspapers.« V: <hi
                     rend="italic">Proceedings of the 2nd International Workshop on Natural Language
                     Processing for Digital Humanities</hi>, ur. Mika Hämäläinen, Khalid Alnajjar,
                  Niko Partanen in Jack Rueter, 85–95. Tajpej: Association for Computational
                  Linguistics, 2022.</bibl>
               <bibl>Pivovarova, Lidia, Elaine Zosa in Jani Marjanen. »Word Clustering for
                  Historical Newspapers Analysis.« V: <hi rend="italic">Proceedings of the Workshop
                     on Language Technology for Digital Historical Archives</hi>, ur. Cristina
                  Vertan, Petya Osenova in Dimitar Iliev, 3–10. Varna, Bulgarija: INCOMA Ltd., 2019. </bibl>
               <bibl>Pogorelec, Breda. <hi rend="italic">Zgodovina slovenskega knjižnega
                  jezika</hi>. Ur. Ahačič, Kozma. Založba ZRC, 2011.</bibl>
               <bibl>Pretnar Žagar, Ajda. »A corpus linguistic characterization of speriodika.« V:
                     <hi rend="italic">Proceedings of the conference on language technologies and
                     digital humanities, </hi>ur. Špela Arhar Holdt in Tomaž Erjavec, 384–406.
                  Ljubljana: Inštitut za novejšo zgodovino, 2024.</bibl>
               <bibl>Schoots, Jonathan. »Analyzing political formation through historical isiXhosa
                  text analysis: Using frequency analysis to examine emerging African nationalism in
                  South Africa.« V: <hi rend="italic">Proceedings of the Fourth Workshop on
                     Resources for African Indigenous Languages (RAIL 2023)</hi>, ur. Rooweither
                  Mabuya, Don Mthobela, Mmasibidi Setaka in Menno Van Zaanen, 65–75. Dubrovnik,
                  Hrvaška: Association for Computational Linguistics, 2023. <ref
                     target="https://doi.org/10.18653/v1/2023.rail-1.8"
                     >https://doi.org/10.18653/v1/2023.rail-1.8</ref>.</bibl>
               <bibl>Stergar, Nataša. »Narodnostno vprašanje v predmarčnih letnikih Bleiweisovih
                  Novic.« <hi rend="italic">Kronika</hi> 25, št. 3 (1977).</bibl>
               <bibl>Strange, Carolyn, Daniel McNamara, Josh Wodak in Ian Wood. »Mining for the
                  meanings of a murder: The impact of OCR quality on the use of digitized historical
                  newspapers.« <hi rend="italic">Digital Humanities Quarterly</hi> 8, št. 1
                  (2014).</bibl>
               <bibl>Štepec, Marko. »Zločin v slovenskem časopisju v 80. letih 19. stoletja.« <hi
                     rend="italic">Kronika</hi> 35, št. 1/2 (1987): 30–38.</bibl>
               <bibl>Thomas, Alan, Robert Gaizauskas in Haiping Lu. »Leveraging LLMs for post-OCR
                  correction of historical newspapers.« V: <hi rend="italic">Proceedings of the
                     third workshop on language technologies for historical and ancient
                     languages</hi>, ur. Sprugnoli, Rachele in Passarotti, Marco, 116–21. Torino:
                  ELRA in ICCL, 2024.</bibl>
               <bibl>van Galen, Quintus. »The page is an image again: Bleedmapping as an analysis
                  technique for historical newspapers.« <hi rend="italic">Digital Humanities
                     Quarterly</hi> 17, št. 1 (2023).</bibl>
               <bibl>Varnum, Michael E. W., Nicolas Baumard, Mohammad Atari in Kurt Gray. »Large
                  language models based on historical text could offer informative tools for
                  behavioral science.« <hi rend="italic">Proceedings of the National Academy of
                     Sciences</hi> 121, št. 42 (Washington, DC: National Academy of Sciences of the
                  United Stated of America 2024): e2407639121. <ref
                     target="https://doi.org/10.1073/pnas.2407639121."
                     >https://doi.org/10.1073/pnas.2407639121.</ref></bibl>
               <bibl>Verheul, Japp, Hannu Salmi, Martin Riedl, Asko Nivala, Lorella Viola, Jana Keck
                  in Bell, Emily. »Using word vector models to trace conceptual change over time and
                  space in historical newspapers 1840–1914.« <hi rend="italic">Digital Humanities
                     Quarterly</hi> 16, št. 2, (2022).</bibl>
               <bibl>Zorn, Tone. »Odmevnost jezikovnega vprašanja v listu Slovenski pravnik v letih
                  1871-1918.« <hi rend="italic">Kronika</hi> 35, št. 3 (1987): 146–55.</bibl>
            </listBibl>
            <listBibl>
               <head>Spletni viri:</head>
               <bibl>Chow, Eric H. C. »An Experiment with Gemini Pro LLM for Chinese OCR and
                  Metadata Extraction.« Pridobljeno 5. 4. 2024. <ref
                     target="https://digitalorientalist.com/2024/04/05/an-experiment-with-gemini-pro-llm-for-chinese-ocr-and-metadata-extraction/"
                     >https://digitalorientalist.com/2024/04/05/an-experiment-with-gemini-pro-llm-for-chinese-ocr-and-metadata-extraction/</ref>.</bibl>
            </listBibl>
         </div>
         <div type="summary">
            <docAuthor>Ajda Pretnar Žagar</docAuthor>
            <head>COMPUTATIONAL ANALYSIS OF SLOVENIAN HISTORICAL NEWSPAPERS (1771–1914): LINGUISTIC,
               THEMATIC, AND NATION-BUILDING INSIGHTS</head>
            <head>SUMMARY</head>
            <p style="text-align: justify;">This paper presents a corpus linguistic study of <hi
                  rend="italic">sPeriodika</hi>, a recently published corpus of Slovenian historical
               periodicals (1771–1914), compiled from digitised newspapers in the digital repository
               of the Slovenian National and University Library (dLib.si). The corpus includes key
               periodicals that contributed to literacy and nation-building in Slovenia. The study
               focuses on the ten newspapers with the highest number of publications. The author
               uses keyword analysis, word frequency analysis, concordances, and diachronic analysis
               to characterise their content and the historical development of the Slovenian
               language. The study identifies specific thematic orientations of selected
               periodicals, such as agriculture, pedagogy, feuilletons and advertising, by
               extracting and analysing keywords. It links the findings to the intense
               nation-building that followed the March Revolution of 1848.</p>
            <p style="text-align: justify;">To characterise the development of the Slovenian
               language, the author uses diachronic analysis, comparing archaic and modern word
               forms identified by keyword analysis. Our results indicate that Slovenian literary
               and regional periodicals exhibited distinct linguistic conventions.</p>
            <p style="text-align: justify;">The author uses diachronic analysis to characterise the
               development of the Slovenian language, comparing archaic and modern word forms
               identified through keyword analysis. The results show that Slovenian literary and
               regional periodicals had a distinct set of linguistic conventions, which reflected
               broader trends in language standardisation.</p>
            <p style="text-align: justify;">The study also addresses the challenges posed by the
               poor quality of optical character recognition (OCR) in historical documents. OCR
               errors are a significant challenge in historical newspaper analysis. Our research
               identifies recurring OCR problems, including the misrecognition of characters and the
               omission of diacritics. Some newspapers, such as <hi rend="italic">Slovenski
                  gospodar</hi> and <hi rend="italic">Soča</hi>, have exceptionally high OCR error
               rates, affecting the keyword analysis results. We discuss possible solutions,
               including post-OCR correction and using modern Large Multimodal Models (LMMs) and
               Large Language Models (LLMs) to improve OCR accuracy. Preliminary experiments with
               GPT-4o, a well-known LLM, show promising results in transcribing degraded historical
               texts. Future research could focus on refining OCR correction techniques and
               extending comparative analyses across historical newspapers.</p>
            <p style="text-align: justify;">In conclusion, this study highlights the value of
               computational methods in historical newspaper research despite the challenges of OCR.
               Keyword analysis effectively differentiates newspapers based on content, thematic
               focus, and editorial stance. However, OCR errors need to be taken into account in
               future studies. Our findings suggest the potential of machine learning and AI-based
               OCR improvements for processing historical newspapers, paving the way for more
               refined analyses of historical corpora in Slovenian and other languages.</p>
         </div>
      </back>
   </text>
</TEI>
