Veliki jezikovni model in Slovenščina
Prihajajoče obdobje množične rabe umetne inteligence močno sloni na velikih jezikovnih modelih (LLM) kot temelju za storitve, kjer za komunikacijo uporabljamo pogovor v naravnem jeziku. Toda manjši jeziki, med katerimi je tudi slovenščina, v velikih jezikovnih modelih, ki jih nudijo spletni velikani, niso enakopravno obravnavani. Paziti moramo, da bomo kot država uveljavili svoj nacionalni interes – uporabo slovenščine.
Generativna umetna inteligenca in veliki jezikovni modeli so zaradi kakovosti odgovorov v naravnem jeziku hipoma navdušili široko javnost, tako strokovnjake kot končne uporabnike. Zaradi navdušenja smo (še vedno) voljni trpeti občasne napake, »halucinacije«, pristranskosti pri odgovorih, ne tako redke kršitve intelektualnih pravic in muhasto delovanje, kajti koristi odtehtajo trenutne pomanjkljivosti.
Ker gre za še zelo mlado tehnologijo, je bilo pri dosedanji izdelavi velikih jezikovnih modelov narejenih cel kup napak. Nekaj takih, ki so razkrivale zasebne podatke in povzročale pristranske, včasih celo rasistične odgovore, smo srečali tudi v javnih objavah in razpravah. Toda nekaj temeljnih odločitev, na primer o podpori nekega jezika in virov v tem jeziku, je bilo doslej v rokah le peščice snovalcev teh modelov. Če bodo jezikovni modeli postali temelj nadaljnje digitalizacije družbe, je to vsekakor sporno, če že ne skrb vzbujajoče.
Trenutno stanje podpore za različne jezike najbolj ponazarja naslednji podatek: OpenAI je pri urjenju jezikovnih modelov GPT-3 in GPT-4 uporabil podatke, ki so bili v 92 odstotkih v angleščini. V preostalih osmih odstotkih so vsi ostali svetovni jeziki (!). Če ChatGPT vprašamo, koliko od teh osem odstotkov odpade na slovenščino, natančnega odgovora na zna podati, sodi pa, da je tega manj kot odstotek. Menim, da se moti, vejico bi moral v levo premakniti za kar nekaj mest.
Hecno je, da ChatGPT kljub temu prav spodobno odgovarja na vprašanja v slovenskem jeziku, večinoma brez očitnejši napak, vsaj v pisni obliki. Razlog verjetno tiči v dejstvu, da je za pravilno interpretacijo in generiranje slo5venskega jezika dovolj že relativno majhna podatkovna zbirka. Utegne pa se to poznati pri kakovosti znanja, slovnični pravilnosti, morda tudi nagnjenosti (bias) k določeni »resnici«.
Sploh pa je pri sedanjih največjih jezikovnih modelih problematično to, da so za nadaljnjo (poslovno) rabo in integracijo v druge programe v večini primerov plačljivi. To nas na dolgi rok kot družbo, celo celotne države, spravlja v podrejen položaj, odvisnost, katere razsežnosti začenjamo šele slutiti.
Prav zato je toliko pomembneje, da se pri tako strateških podatkih opremo na lastno znanje in lastne izdelke, kjer je to mogoče in izvedljivo. V zadnjem mesecu sem tako z veseljem spoznal obstoj projekta Prilagodljive obdelave naravnega jezika s pomočjo velikih jezikovnih modelov ali drugače povedano PoVeJMo. Neuradno bi mu lahko rekli Slovenska Llama, saj temelji na ponovnem učenju (retreningu) osnovnega odprtokodnega modela Llama, ki ga je razvil Facebook, pardon, Meta. Tudi podobni projekti v drugih državah večinoma izhajajo iz tega modela.
Projekt PoVeJMo nastaja pod okriljem Centra za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT, www.cjvt.si), ki je namenjen znanstvenemu raziskovanju, vzpostavljanju in vzdrževanju digitalnih jezikovnih virov ter pripadajočih orodij. Cilj je izdelati lastni, slovenski veliki jezikovni model (LLM), ki bo odprt in na voljo vsakomur, ki ga bo želel uporabiti ali vgraditi v druge programe.
Z veseljem poročam o obstoju projekta Prilagodljive obdelave naravnega jezika s pomočjo velikih jezikovnih modelov – PoVeJMo. Neuradno bi mu lahko rekli Slovenska Llama.
Projekt je organizacijsko lociran na Fakulteti za računalništvo in informatiko, sodeluje pa še pet članic univerze. Gre za evropski projekt javno-zasebnega partnerstva, kjer sodelujejo tudi podjetja Semantika, Xlab, Vitasis, Better in Špica. Vsak od partnerjev skrbi za domensko specifično rabo, na primer v medicini ali industrijskih okoljih.
Projekt je na začetku poti, končan pa bo šele sredi leta 2026, toda prve prototipe jezikovnih modelov lahko pričakujemo že konec letošnjega leta. To bo zelo dobrodošla novost za vse primere rabe, kjer je kakovostna uporaba slovenskega jezika ključnega pomena. Za zdaj še ne vemo, v kolikšnih različicah (številu parametrov) bo veliki jezikovni model na voljo. Zelo verjetno v nekaj izvedbah, nerealno pa je pričakovati tako obširnega, kot je GPT-4.
Glavni izziv, s katerim se trenutno ukvarjajo, je zagotovitev zadostne količine kakovostnega učnega gradiva. Po zadnjem štetju so avtorji navedli, da imajo trenutno na voljo 10 milijard besed. Za primerjavo navedimo švedski model GPT-SW3, ki temelji na 300 milijardah besed. Avtorji zato pozivajo k množičnemu zbiranju gradiva, kamor so se že vključile javne ustanove, kot so NUK, RTV Slovenija, Arnes. Toda treba bo zagotoviti še več gradiva, precej več.
Za urjenje modela bo potrebna tudi ustrezna procesna moč. Kolikšna in kje bo zagotovljena, tudi še ni znano. Za primerjavo podajamo navedbe procesne moči, ki je bila porabljena za urjenje modela GPT-3: 3.640 petaFLOPS dni. Ne trudite se pretvoriti v razumljive številke: verjetno veliko več, kot si lahko kot Slovenija privoščimo.
Prav zato bo zanimivo spremljati, kako se bo domača iniciativa PoVeJMo vklopila v širšo umetnointeligenčno strategijo celotne Evropske unije. Ali bo ta model edini, ki bo narejen specifično za slovenski jezik? Vemo, da je projekt nastaja v okviru širšega združenja ALT-EDIC (Alliance for Language Technologies). Ne vemo ali je to najboljša pot do samostojne umetne inteligence. Toda ali sploh imamo alternative?