vestnik

(Digitalizacija in umetna inteligenca ter prekmurščina) Silvo Jakob za vzorčni primer uporabil Kleklove Novine

Maja Hajdinjak, 24. 10. 2024
Ines Baler
Fotografija je simbolična.
Aktualno

Pri digitalizaciji starejših tiskov, ki imajo tudi svoje fonte, veliko naredi računalnik, vendar je potrebnega še veliko človeškega dela.

V okviru Kleklovega leta, ki ga je Občina Črenšovci razglasila ob 150. obletnici rojstva narodnega buditelja Jožefa Klekla st., so v občini pripravili vrsto dogodkov. S Kleklom, natančneje z njegovimi Novinami, ki jih je izdajal med letoma 1913 in 1941, pa se je že pred leti ukvarjal Silvo Jakob iz podjetja Abak.net. Podjetje je kot zunanji sodelavec Pokrajinske in študijske knjižnice Murska Sobota že pred desetimi leti v okviru projekta izvedlo digitalizacijo vseh številk Novin. Projekt je trajal štiri leta, v tem času so digitalizirali vseh 1406 izvodov tega časopisa.

Pri digitalizaciji gre, če povemo poenostavljeno, za »preslikavo« analognih informacij, dokumentov v elektronsko obliko. S tem omogočimo njihovo večjo dostopnost in obdelavo. Ne gre zgolj za klasično skeniranje dokumentov, kot marsikdo zmotno misli, temveč se v digitalno obliko preslika besedilo, ne zgolj slika. To v praksi pomeni, da lahko iz digitaliziranega vira besedilo neposredno izvozimo ter ga uporabimo za nadaljnjo obdelavo, npr. za namene raziskovanja. Starejši tiski, med njimi Kleklove Novine, so v tej obliki dostopni na portalu dLib (Digitalna knjižnica Slovenije).

Jakob pri tem poudarja, da pri digitalizaciji starejših tiskov, ki imajo tudi svoje fonte, seveda veliko naredi računalnik, vendar je potrebnega še veliko človeškega dela. »Konkretno pri Novinah je bilo treba vse tekste prebrati, ker črkovalniki za prekmurščino ne delajo tako kot denimo za angleščino, zato so morali posamezniki 'ročno' popraviti besedila v smislu avtentičnosti. Pomembno je namreč, da če imamo original v analogni obliki in želimo, da ga umetna aplikacija ustrezno obdela, moramo imeti avtentično sliko, to se pravi brez popravkov v smislu vsebine, saj se pri tem lahko izgubi veliko informacij.« Stroj dela napake, tipična napaka pri prekmurskih besedilih je npr. zapis glasnika ü. Stroj na tem mestu napiše ii, zato je treba napake ročno popraviti oziroma narediti prekmurski črkovalnik z naborom tipičnih znakov.

kleklove-novine, digitalizacija
Silvo Jakob
Različna orodja omogočajo tudi restavracijo besedila na mestih, kjer je to v originalu denimo slabše vidno.

Končni cilj »prekmurski govorec«

Korak naprej je bil storjen letos, saj so v podjetju začeli delati z orodji umetne inteligence (UI). »Načrti, ki smo si jih zastavili pred desetimi leti, ob koncu prej omenjenega projekta, so bili brez UI nemogoči. Gre za stvari, kot je recimo narediti nabor vseh besed iz vseh številk Novin. V teoriji se to seveda da, ampak je časovno neverjetno zamudno delo,« pove Jakob. Umetna inteligenca pa táko delo opravi v nekaj sekundah, minutah. Dela namreč na podlagi velikih količin podatkov in po principu sklepanja.

Silva Jakoba že od nekdaj zanimajo starejši prekmurski teksti in tako ga je zanimalo, ali UI prepoznava tudi arhaične, zastarele jezike ter narečja. Izkazalo se je, da jih. »UI ve, kadar gre za neki 'nov' jezik v smislu, da ga še ne pozna. Zato najprej tekst pregleda, poišče besede, ki jih pozna, ugotovi, da gre za slovenščino. Česar ne razume, 'pogleda' po drugih jezikih, torej kaj bi ta zanj neznana beseda lahko pomenila, in potem vse te podatke po neki svoji logiki združi in poda razlago,« pojasni Jakob.



V podjetju so letos ustvarili produkt Word Frequency Analyser, ki deluje v okviru ChatGPT. Gre za orodje, s katerim določajo naloge, ki naj jih UI opravi. Na ta način so že ustvarili matriko vseh besed, ki se pojavljajo v Novinah, to pomeni vse pojavitve besed. »Če te podatke izvoziš npr. v Excelove razpredelnice, jih lahko pregledaš, sortiraš, zapisano imaš pogostost pojavitve same besede …« našteva sogovornik.

Kaj je pravzaprav cilj tega? »Narediti generična orodja, s pomočjo katerih bi denimo lahko ustvarili take nabore besed in besedil, posamezniku pa bi bilo omogočeno brskanje po njih. Da bi bila torej na spletu prosto dostopna besedila, ki sedaj obstajajo v analogni obliki, da bi jih potem lahko izvozili za namene raziskav, s pomočjo UI pa bi po teh virih lahko iskali podatke, povzemali itd.« To bi bilo lahko po Jakobovem mnenju koristno na številnih poklicnih področjih. »Končni cilj pa bi bil 'prekmurski govorec' po vzoru googlovega govorca,« še dodaja.

Kleklove Novine so tako vzorčni primer, na katerem delajo, prav zaradi arhaičnosti jezika. Pri UI je namreč podobno kot pri programiranju – treba je spisati program za »najslabši stroj«, saj bo na boljših tako ali tako deloval.

kleklove-novine, digitalizacija
Silvo Jakob
Danes umetna inteligenca že dobro prepoznava prekmurščino in lahko naredi povzetek vsebine v knjižni slovenščini.


Še vedno pomemben človeški dejavnik

UI zna že marsikaj – povzeti vsebino virov, prevajati, napisati sestavek v sodobni slovenščini ali pa tudi tako, kot so pisali npr. v 19. stoletju. Avtomatično ve, kot nam je pokazal Jakob na primeru, da je dühovni pastir iz Novin danes duhovnik. Nekatera orodja UI so sposobna ustvariti tudi avdio pogovor, ki zveni kot pristna radijska oddaja, z njimi je možno tudi barvanje starih črno-belih fotografij in celo izdelava 3D-modela teh fotografij.

Slika1
Osebni arhiv
Silvo Jakob je za vzorčni primer uporabil Kleklove Novine.

Pri tem se poraja razmislek o etičnosti. »Dejstvo je, da stroj sam po sebi ni zloben, vse je odvisno od človeškega dejavnika. Če želimo, da UI dobro interpretira stvari, mora vedeti vse, imeti vse podatke. To pomeni, da ji moramo dati avtentična besedila brez korektur, olepšav. Prav v tem je nevarnost, torej da dobimo podatke na podlagi laži. To pa lahko stori samo človek z namenom, da želi kaj preprečiti ali predstaviti 'svojo resnico', ki to ni. To je novodobni aktivizem,« pravi Jakob, ki se trudi popularizirati uporabo orodij UI. »UI se ni treba bati, temveč jo je treba uporabljati, saj nam je v pomoč,« še pravi Silvo Jakob.

digitalizacija novine jozef-klekl-starejsi