Objavljeno: 28.5.2024 | Avtor: Matej Huš | Monitor Junij 2024

Slovenski David proti ameriškim Goljatom

Slovenščina je v digitalnem svetu povsem enakovredna največjim jezikom, saj imamo na voljo vsa potrebna orodja, od slovarjev do računalniških lektorjev. Eden izmed pomembnih igralcev na tem področju je kamniški Amebis, ki vse od slovenske samostojnosti razvija orodja za popravljanje pohabljene slovenščine, različne slovarje in druge pripomočke.

Peter Holozan in Iztok Grilc sta dva izmed treh vodilnih v podjetju Amebis.

Ko je Microsoft pred tremi desetletji izdal Word, ki je bil preveden v slovenščino in je obvladal tudi slovensko črkovanje besedila, tega seveda niso počeli v Redmondu. Lokalizacija programske opreme je kompleksno opravilo, ki ga najbolje izvedejo lokalni partnerji. Word 6.0 je bil prvi kos velike komercialne programske opreme, ki je bil preveden v slovenščino, za kar je zaslužnih cel kup akterjev. Prevajanje Worda 6.0 in njegovega naslednika Worda 95 so izvedli v podjetjih Iolar (tedaj Atlantis) in SDL, preverjanje črkovanja oziroma znamenito rdeče podčrtovanje pa je zagotovilo podjetje Amebis. Za Word so razvili tudi tezaver oziroma seznam sopomenk in delilnik besed. In 30 let pozneje je Amebis eno izmed treh podjetij – poleg portugalskega in francoskega – na svetu, ki še imajo neposredni dostop do Wordovega pogona za popravljanje slovnice prek API. Ključni možje v podjetju so Iztok Grilc, Peter Holozan in Miro Romih, skupaj pa v njem dela devet ljudi.

Amebis je majhno podjetje na obrobju Kamnika, ki ima skromne začetke v letu 1988, ko so Peter Holozan, Iztok Grilc in Marko Hrastovec v srednji naravoslovno-matematični šoli izdelali raziskovalno nalogo. Za znamenito tekmovanje Mladih raziskovalcev, ki v organizaciji Zveze za tehniško kulturo poteka še danes, so v Pascalu napisali program za risanje strukturnih formul v kemiji. Istega leta jeseni so začeli pisati program za računalniško preverjanje slovnice v slovenskem besedilu in ga leto pozneje v drugi raziskovalni nalogi že predstavili. Iz tega ja sčasoma nastal program Besana (kar je okrajšava za BESsedna ANAliza), ki je še danes eden najbolj znanih slovenskih izdelkov na področju računalniške obdelave slovenskih besedil.

Z današnjimi očmi je preverjanje črkovanja videti enostavnejši problem kot popravljanje slovnice, saj zahteva le zbir vseh dovoljenih besed v vseh mogočih oblikah. To sicer drži, a Besana je najprej popravljala slovnico, šele nato pa se je pokazalo, da je smiselno narediti tudi poenostavljeno različico, ki samo preverja, ali besede obstajajo, in jo je mogoče vgraditi v druge programe – torej črkovalnik. V slovenščini je navsezadnje to tudi smiselno, saj je zaradi pregibnosti besednih vrst precej napak, ki jih preprost črkovalnik ne bo zaznal. Tri ptice, tri ptici, trije ptic, trije ptice in tri ptic so vse veljavne besede, a le prvi par, tj. besedna zveza, je slovnično pravilen. Besana je v resnici začetek precej ambicioznejšega načrta, in sicer izdelave prevajalnika, kjer sta analiza in razumevanje slovenščine zgolj prvi korak. A do tega cilja ni nikoli prispela, zato še danes ostaja popravljavka besedila oziroma slovnice.

Prihaja novi Pravopis

Aktualni Slovenski pravopis je že precej v letih, saj je izšel leta 2001. Inštitut za slovenski jezik Frana Ramovša že dolgo časa pripravlja njegovo osmo inačico, katere prvi poglavji sta bili v javni razpravi decembra 2019, zadnja pa bodo konec letošnjega leta in v začetku prihodnjega. Sprememb ne bo tako malo, ker se je svet v poltretjem desetletju pošteno spremenil, s tem pa tudi naš jezik. Nekatere bodo vplivale na sorazmerno malo poljudnih besedil, druge pa na najširši krog ljudi. Eden takšnih primerov je zapis naselbinskih imen, saj bomo po novem pisali Novo Mesto in ne več Novo mesto.

V programih, ki se učijo iz korpusov s statistiko, je tovrstne spremembe nemogoče zajeti takoj ob nastanku, če jih vanje ne vpišemo ročno v obliki pravil. Medtem imajo orodja, ki uporabljajo pravila, sorazmerno malo problemov. Zadošča zgolj sprememba obstoječih pravil ali vpeljava kakšnih novih, pa bodo popravljala besedila po novem.

V podobni zagati so bili Nemci z reformo leta 1996 (Rechtschreibreform), ki sprva ni bila široko pozdravljena. Šolski učbeniki in izpiti so potekali po novem pravopisu, številne knjige in periodika pa so še nekaj časa izhajali po starem. Sodišče je tedaj odločilo, da v šolah morajo pisati po novem, medtem ko subjektov zasebnega prava v to ni moč prisiliti. Statistični pristop bi bil v takšni džungli besedišča precej izgubljen, črkovalniki in gramatiki pa lahko elegantno ponudijo obe možnosti. Morda se bo to zgodilo tudi z Besano, če bodo kakšne spremembe zelo drastične ali pa bo povpraševanje to upravičilo.

Amebis je svojčas ponujal tudi prevajalnik, ki pa ga je sčasoma ukinil, ker ni mogel več tekmovati z velikani, kot sta Google in Microsoft. Že ob našem zadnjem preizkusu prevajalnikov (Ko prevajalcev več ne bo, Monitor 03/23) smo Amebisov Presis preizkusili zgolj zato, ker je bil na internetu še vedno dostopen, čeprav ni več v aktivnem razvoju. In ga upravičeno grajali. Besana pa je po drugi strani v zelo dobri kondiciji.

Vejica, ki te ljubim, vejica

Slovenščina med govorci velja za jezik, kjer je postavljanje vejic prava mala znanost, dostopna le posvečenim. S tem se ne strinja Peter Holozan, ki bi ga lahko imenovali tudi doktor vejice. Pred osmimi leti je na ljubljanski filozofski fakulteti doktoriral iz računalniškega postavljanja vejic v slovenščini, kar je tesno povezano z njegovim razvojnim delom. Besana sicer popravlja vrsto napak, med najbolj znanimi pa je gotovo postavljanje manjkajočih vejic in brisanje odvečnih. Program bi bil namreč precej neuporaben, če bi napovedal vse manjkajoče vejice, obenem pa predlagal še dvakrat toliko nepotrebnih.

Pri računalniškem lektoriranju besedil – čeprav Besana ni zares lektor in tudi Grilc se tej oznaki raje izogne, saj gre bolj za popravljanje napak, medtem ko je lektura precej širši pojem, ki zahteva razumevanje besedila – sta mogoča dva pristopa. Podobno kot pri strojnem prevajanju lahko uporabimo pravila ali pa statistiko na ogromnih količinah podatkov. Prvi prevajalniki so se mučili s pravili in rezultati so bili klavrni. Za svoj čas so besedila sicer spodobno prevajali (Kdo se boji babilonske ribice, Monitor 04/13), a so jih z naraščajočo računalniško močjo in čedalje več dostopnimi besedili v ogromnih korpusih povozili statistični prevajalniki. Strojno učenje in umetna inteligenca danes dominirata.

Tudi slovnico seveda znata popravljati – ChatGPT ali Bard vam bosta besedilo zelo solidno popravila –, a to ni nujno. Besana in konkurenčni LanguageTool uporabljata pravila. Kot je pojasnil Grilc, je v Besani skoraj 150 tipov opozoril, na primer za različne vrste vejic. Logika dodajanja (ali brisanja) novih pravil za vejice je preprosta. Po dodanem pravilu Besano spustijo skozi testni korpus približno 60 tisoč primerov z vejicami, in če se delež pravilno postavljenih vejic izboljša, pravilo zares dodajo, sicer pa ne. Drugače povedano: ob dograjevanju ne smemo podreti več, kot smo dozidali. Pravila so najrazličnejša, od zelo preprostih (pred »ki« je zanesljivo vejica, če ni spredaj priredni veznik ali drugo ločilo) do kompleksnejših (vejice pred »da« se ne da preprosto popraviti, ker je »da« lahko tudi oblika glagola »dati«, zato je treba analizirati celo poved, da lahko ugotovimo, ali gre za glagol ali veznik). Da jih lahko uporabi, pa mora Besana besedilo najprej analizirati, torej prepoznati sestavine stavkov in odnose med njimi. Trenutno ima pri postavljanju vejic – tako manjkajočih kot odvečnih – približno 80-odstotno zanesljivost, kar se sliši malo, a vseeno občutno izboljša besedilo.

Skupno ima Besana, ki seveda zna še precej več kot le postavljati vejice, okrog 150.000 vrstic kode v jezikovnem jedru. V besedilu pokaže še vrsto drugih napak, kot so napačne oziroma neprimerne besede, napačne naveznice ali zaimki, stičnost in ločila, ujemanje v skladnji, trpnik ali tvornik, povratni svojilni zaimki, predlogi pri naseljih itd. Med zanimivejše gotovo sodi analiza bančnih računov IBAN, saj preverja kontrolno vsoto in javi, ali je račun nemogoč.

Vsako orodje mora biti prilagojeno ciljni skupini, ki pri črkovalnikih oziroma gramatikih ni vedno jasno opredeljena. Če program uporablja šolani lektor, naj program pokaže več vejic, tudi kadar ni stoodstotno prepričan o njihovi nujnosti, saj bo lektor znal oceniti, ali so potrebne. Kadar pa je končni uporabnik strojnik, ki bo nekritično sprejel vse predloge, mora biti asistent konservativnejši. Bolje je predlagati eno premalo, kakor deset preveč. Besana to ravnovesje lovi z 80-odstotno zanesljivostjo na obeh straneh.

Prav tako Besana nima zelo veliko uporabnikov, ki niso rojeni govorci slovenščine. Njihove napake so strukturno drugačne, Besana pa je napisana tako, da pomaga zlasti pri najpogostejših napakah v maternem jeziku. V nekaterih primerih Besana pri analizi pogojno dopusti tudi kakšno napako, na primer namesto rodilnika tožilnik, da dojame stavek in nato predlaga popravke, sicer bi se lahko zgodilo, da preveč robatih stavkov sploh ne bi razumela.

Besedišče

Slovar slovenskega knjižnega jezika ima približno sto tisoč besed, črkovalnik v Besani pa sedemkrat toliko, ne da bi upoštevali njihove pregibne oblike – večji del razlike so lastna imena, ki jih v SSKJ ni. Pregibnih oblik je več kot štiri milijone, torej za vsakega Slovenca dve. Razlog je preprost. SSKJ je normativni slovar, v katerega se besede prebijejo, ko se izda nova izdaja, hkrati pa morajo izpolnjevati cel kup pogojev. Računalniški črkovalniki pa se srečujejo s številnimi drugimi besedami, od lastnih imen do terminov in neologizmov, zato mora biti njihova zbirka večja. Tudi zato vam urejevalnik besedil ne podčrta besed, ki jih morda ni v SSKJ, so pa v katerem drugem slovarju.

Word 6.0 je bil prvi v slovenščino prevedeni Microsoftov program. Slika: Računalniški muzej

Slovenščina je zelo gibljiv jezik, zato številni zatipki ustvarijo veljavno besedo ali njeno obliko, česar neumni črkovalnik ne more prepoznati. Besana, ki uporablja pravila, je tu v slabšem položaju od statističnih orodij. Medtem ko stalne besedne zveze lahko pozna – pralni stroj ima vedno pridevnik v določni obliki –, priložnostnih ne more. ChatGPT bo vedel, da tri ptici skoraj zagotovo ni pravilen stavek. Besana te napake ne označi, ker obstaja interpretacija, po kateri je to sintaktično pravilen stavek. Tri je lahko velelna oblika glagola treti, ptici, na primer keramični, pa sta dve, ki naj ju torej naslovnik stre. Brezsmiselno, malo verjetno, semantično nelogično – a sintaktično mogoče. Podobno velja za krajnski, ker v Prekmurju obstaja vas z imenom Krajna. Seveda pa je klobasa lahko le kranjska.

Včasih napake zajadrajo celo v korpuse. V Gigafidi se zdi, da smo Slovenci nadpovprečno zainteresirani za sove, a podroben pogled to ovrže. Pridevnik sovji se trenutno pojavi 214-krat, a gre v 90 odstotkih za pogosto zabavne napake (Novinarje so pričakali domačini s *sovjo skupino kmečkih žena, ki so pripravile kopico dobrot, najbolj poznana pa sta rženi kruh z ocvirki ter mošt.). Pisati bi moralo svojo. Beseda svoji pa ima dva milijona ponovitev. Tu bi statistični pristop preprosto izločil pridevnik sovji tudi tedaj, kadar je upravičen. Žal tega problema tudi Besana (še?) ne rešuje preveč dobro.

Črkovanje v Wordu je danes v Microsoftovi domeni in se razvija centralno. Pred 20 leti je bilo resda drugače, a na koncu je to pomenilo, da je imel Microsoft več kot sto dobaviteljev črkovalnikov, kar je predstavljalo velik organizacijski zalogaj, ki je začel hromiti izdajanje novih različic programske opreme. Temu so se odločili narediti konec in leta 2008 so preprosto odkupili slovensko zbirko besed. Microsoftova filozofija je tu drugačna od Googlove, saj prvi izdelke raje kupi, Google pa jih razvije še enkrat sam. Besana ostaja orodje tudi za popravljanje slovnice, ki se vključi v različne programe, v Word pa še posebej tesno, saj ima dostop do API. To seveda prinese tudi nekaj omejitev, saj nekoliko upočasni zaganjanje Worda, pa tudi kakšno nenavadno hibo. Word v vsakem stavku prikazuje le eno slovnično napako, četudi jih Besana prepozna več. Dokler ne popravimo prve prikazane, ostalih ne bomo videli. Če se torej s prvim popravkom ne strinjamo, ga moramo aktivno ignorirati (klikniti možnost Prezri), da vidimo, ali je še kakšna druga težava. Če le zamahnemo z roko, ostalih ne bomo nikoli videli.

Na spletu je dostopna brezplačna različica Besane.

V Amebisu priznavajo, da je večina naročnikov Besane institucionalnih, denimo obe največji univerzi, številne občine, šole, podjetja itd. Fizičnih oseb je sicer manj, niso pa zanemarljiv segment.

Slovarji

Pred dobrima dvema desetletjema se je po slovenskem delu interneta, predvsem v piratskem delu, valjala zbirka slovarjev ASP in pozneje ASP32. V njej so bili SSKJ, Pravopis, angleški, nemški, francoski, španski, portugalski, italijanski slovarji, poslovni slovarji, leksikoni in še nekaj priročnikov. Šlo je za zbirko slovarjev različnih avtorjev, ki jih je izdal in založil DZS, tehnično izvedbo pa je prevzel Amebis. ASP32 je danes relikt zgodovine – ki kljub temu še vedno domuje na marsikaterem računalniku –, saj so ga nadomestila druga orodja. Kdor ga izrecno želi, ga še vedno lahko dobi legalno, a pravega razloga za to ni. Svojčas je bil ASP32 zaščiten pred kopiranjem, a je podjetje, ki je zaščito razvijalo, propadlo, kar je povzročilo paradoksalno situacijo, ko so imeli legalni kupci težave s ponovnim nameščanjem in z aktivacijo, pirati pa ne. Kasneje, daleč po svojem zenitu, so zato ASP32 vendarle izdali tudi brez zaščite.

Termania je spletna zbirka več kot 130 brezplačnih slovarjev.

Ogromno zbirko slovenskih slovarjev, od SSKJ in slovarjev modernega besedišča prek pravopisa do terminološkega slovarja, najdemo brezplačno na spletni stran Inštituta za slovenski jezik Frana Ramovša (www.fran.si). S tem se je prenehal posodabljati njegov predhodnik Portal BOS – Slovarske in besedilne zbirke (http://bos.zrc-sazu.si/), ki je nastal leta 2000. Trenutno na Franu najdemo 45 slovarjev, en atlas, dve svetovalnici, 14 zbirk in skupno 764.906 slovarskih sestavkov. Pri postavljanju Frana je sodeloval tudi Amebis, od leta 2021 pa je na voljo tudi spletišče za učitelje in učence www.franček.si.

Omenjeni spletišči sta prosto dostopni, ker sta nastali z javnim denarjem in se tako tudi vzdržujeta. Prav tako brezplačen za uporabo, a ne za vzdrževanje, pa je portal Termania (www.termania.net), v kar je zrasel nekdanji ASP in ki ga še danes pokonci drži Amebis. V Termanii je zbranih več kot sto različnih tematskih ali jezikovnih slovarjev. Tam najdemo tako specializirane slovarje, na primer vezljivost slovenskih glagolov ali angleško-slovenski slovar zavarovalništva, kot tudi splošni francosko-slovenski slovar.

Besana raste vsak teden

Peter Holozan v Besano že 30 let redno dodaja nove besede, za kar se vmesnik že tako zelo dolgo ni spremenil, da zdaj teče v Dosboxu. Nove besede najde v avtentičnih besedilih, ki jih naprej prebere analizator, ki izpiše nove besede. Po ročnem pregledu, ali so res nove ali morda zgolj napačno zapisane, jih je treba v vseh pregibnih oblikah zapisati v zbirko. Ta tedensko dobi dobrih sto novih besed, ki so dandanes večinoma lastna imena. Ko enkrat vneseš celoten slovar slovenskega knjižnega jezika, je novih besed res malo, a se še vedno pojavljajo.

Vnos novih tem v Besano ni nič kaj spektakularen, je pa hiter.

Pisanje slovarjev ima v Sloveniji svojo ekonomiko oziroma bolje rečeno – je nima. Velika večina slovarjev je komercialno popolnoma nezanimivih in s prodajo ne bi pokrili niti tehničnih stroškov, kaj šele avtorjevega dela. V praksi bi moral avtor plačati založniku, da izda njegov slovar, kar se zdi paradoksalno. A motivi za pisanje slovarjev so raznovrstni, zato to ni nezaslišano. V praksi se vendarle po navadi financirajo iz javnih razpisov, s čimer se pokrije tehnična obdelava, za avtorja pa običajno ne ostane skoraj nič ali res nič. Ima pa izdan slovar, kar v nekaterih poklicih šteje veliko.

Sinteza govora

Slovenska srenja, ki se ukvarja z jezikovnimi tehnologijami, je razpršena. A četudi bi združili vse akterje, komercialne, akademske in državne, bi bil nastali konglomerat še vedno palček v primerjavi z multinacionalkami, ki zlivajo v to področje milijarde. Ko se je Google lotil prevajanja, so ostali/preživeli le največji igralci (denimo DeepL ali zdaj OpenAI). Enako velja za sintezo govora, kjer je vodilni Microsoft.

Ključna prednost majhnih lokalnih akterjev mora biti odzivnost. Nekoč je bil Govorec, zdaj je eBralec z znamenitimi glasovi Renata, Maje in Nadje, ki je nastal v konzorciju Amebisa, Alpineona in Instituta Jožef Stefan. Še danes ga uporabljajo na RTV, v Zvezi slepih in slabovidnih ter na ljubljanski Avtobusni postaji in pri Darsu. Ko je eBralec napak naglaševal nekatere kraje, kamor vozijo avtobusi, so to v nekaj dneh popravili. Prav tako mora biti prilagojen slovenskemu okolju, torej lokaliziran, in ne le znati govoriti slovensko. MB je pri prometnih informacijah pač večkrat Maribor kot megabajt.

Druga težava je slovenska izgovarjava tujih imen, česar je v javnih občilih sorazmerno malo, zato korpusa za trening skorajda ni. Tu so si morali pomagati z nevronsko mrežo, ki je iz poznanega izgovora 20 tisoč tujih imen izluščila dovolj pravil, da je predvidela solidno izgovarjavo še tistih 100 tisoč, za katere vzorcev ni bilo. Razvoj enega glasu stane od 100 do 200 tisoč evrov, pa je rezultat že zelo spodoben. Samo predstavljamo pa si lahko, kaj lahko storijo velikani, ki v en sam jezik in glas investirajo milijone.

V Sloveniji se država sicer trudi s projektnim financiranjem, a projekti imajo pri nas enako težavo kot drugod po svetu – omejen rok trajanja. Hkrati morajo biti rezultati projektov, ki se financirajo z javnim denarjem, običajno javno dostopni. To je razumljiv pogoj, ki pa potem predstavlja zlasti težavo pri vzdrževanju izdelkov, ki seveda stane, denarja pa ni od nikoder.

Nevidni izdelki

Medtem ko so nekateri projekti klavrno propadli, kakor že omenjeni prevajalnik, ki sicer še ima nekaj deset strastnih uporabnikov, so bili drugi pred časom. Pogovorni robot (chat bot) je bil pred desetletjem, ko so ga v Amebisu že preizkušali (z imenom Klepec), preprosto nezanimiv za širše množice. Danes je ChatGPT spremenil svet, tekma z njim bi stala milijarde. A vendarle obstaja pravi slovenski digitalni pomočnik SecondEgo, s katerim se lahko pogovarjamo v slovenščini. Brez pretiravanja lahko rečemo, da ChatGPT sicer govori slovensko, a ne kot materni jezik, ker je bila velika večina njegovega materiala za urjenje v tujih jezikih. Za SecondEgo je slovenščina materinščina.

Veliko izdelkov je končnemu uporabniku nevidnih, ker so del drugih storitev. Gre za tako imenovane jezikovne module, ki so del drugih programov in rešitev. Lematizacija se uporablja pri prevajanju govora v ukaze, denimo pri glasovnem krmiljenju naprav. V isto kategorijo sodita še normalizacija in naglaševanje. Drugi primer je modul za izboljševanje iskanj, ki ga uporablja precej pomembnih slovenskih orodij.

Kaj prinaša prihodnost

Zagotovo prinaša umetno inteligenco, ki je že danes zelo pismena, čeprav nihče zares ne razume, zakaj. Velikani, torej Google, Microsoft, OpenAI – in v precej manjši meri tudi Apple, kar mu lahko zares zamerimo –, do slovenščine nimajo nobenega posebnega odnosa. Obravnavajo jo kot še enega izmed malih evropskih jezikov, ki ga lahko pokrijejo v paketu, če nad problem zalučajo dovolj denarja, podatkov in računske moči. To zagotovo drži, prinaša pa svoje omejitve. Ena izmed njih je gotovo lokalizacija, druga pa odzivnost.

Pri prevajanju je Google Translate povozil lokalno konkurenco in Amebisov izdelek potopil, po tem ko je podjetje vanj vložilo štiri leta dela. Drugače je pri še bolj specializiranih orodjih, kot je Besana, ki še nima konkurence iz Silicijeve doline. Zagotovo ne, ker to ne bi bilo mogoče, temveč zato, ker se je še nikomur ni izplačalo razviti. Ali bo dolgoročno umetna inteligenca nadomestila lektorje in še številne druge poklice, s tem pa tudi slovenske razvijalce jezikovnih orodij, ne vemo. V Amebisu pravijo, da so na prihodnost pripravljeni in da tudi sami razvijajo nove tehnologije, ki segajo od zelo tehničnih novosti – Besana za Mac in boljša spletna različica – do integracije umetne inteligence. Če jih ni pokopala finančna kriza leta 2008, ko so podjetja brutalno rezala stroške povsod, tudi pri orodjih za pismenost v slovenščini, jih ne bo niti umetna inteligenca, trdijo.

V naslednji številki si bomo ogledali, kaj na tem področju počno na ljubljanski fakulteti za računalništvo.

Razkritje: Avtor besedila že leta uporablja Besano s službeno licenco.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji