Happy day, the wife or shit*
Zadnje dni septembra nas je razveselila novica, da zna Google poslej prevajati tudi v slovenščino in iz nje. Kot vsaka taka strojna aplikacija je tudi Google Translate že takoj poskrbel za obilo zabave uporabnikov. Da, če ste se začudili naslovu tega članka - tako je Google Translate iz slovenščine v angleščino prevedel naslov Linhartove komedije Ta veseli dan ali Matiček se ženi.
So pa nekateri kar malo osupnili. Po elektronski pošti so namreč zakrožila pisma s posnetki strani in citati prevodov. Ime premiera Janše je Google Translate nagajivo spremenil v Sanader in Slovenijo v Hrvaško. Celo resni časniki so nerodnosti hiteli namenjati članek ali dva in tu in tam so se nemudoma lotili odstiranja zarot in za nedopustno preimenovanje prvega ministra celo okrivili slovenske sodelavce Googla. Nekateri blogerji so celo posumili, da imajo prste vmes naši sosedje. Kako neki bi si lahko razložili to, da se namesto Slovenije pojavi Hrvaška, da se Ljubljana prevede v rape (posilstvo), Kranj v Miami in Maribor v San Francisco?
Kaj se je torej v resnici zgodilo? So v Googlu uporabili kak doma narejen slovar? So nato na hitro nabavili novega, kajti že dober teden zatem so se stvari postavile na mesto? Aplikacije namreč že po nekaj dneh nikakor ni bilo več mogoče zmesti ne s Slovenijo, ne z Janšo.
Daljši tekst v Slovenščini Google Translate obdela prav korektno. Le da tam spodaj Jugoslavijo prevede v federalni del Slovenije ...
... gostobesedno in pridevniško bogato prozo pa bodo kot kaže še nekaj časa prevajali "pravi" prevajalci.
Pojdimo po vrsti. Google je prvo različico Translatea izdal že maja lani. Na predstavitvi so pojasnili, da gre za popolnoma nov sistem prevajanja, namreč strojno statistično prevajanje. Strojno zato, ker tega ne počne kak prevajalec iz mesa in krvi, statistično pa zaradi načina izvedbe prevajanja. Pri njem v zbirko podatkov vnesejo številna besedila, ki so že prevedena v več jezikov. V Googlu pravijo, da je za dobro prehajanje med dvema jezikoma osnova zbirka s po milijon besed v obeh jezikih in še zbirka za vsak jezik posebej, v katero je vnesena po dodatna milijarda besed. Šele ko je to zagotovljeno, se program s statistično učno metodo lahko začne učiti izdelovati pravilne prevode.
Krščen Matiček je holy shit. Kar je prav. Prevod iz naslova pa nikakor ne.
Ponesrečeni prevod, ki je na noge pognal Slovenijo.
Pri iskanju besedil za zbirko podatkov je bilo treba biti iznajdljiv in za začetek poseči po zbirkah, ki so javno dostopne in katerih besedil ne veže kaka plačljiva pravica. Priročna se je izkazala knjižnica Organizacije združenih narodov, ki je prispevala nekaj deset milijard besed za vseh 35 jezikov, ki jih danes zna prevajati Google Translate.
OZNovim so se kasneje pridružila še številna druga besedila. Pravzaprav se zbirka slovarja oblikuje ves čas, saj ima vsak uporabnik možnost predlagati boljši prevod in poslati povratno informacijo ter prispevati kako svoje besedilo in prevod in Google to nato uvrsti v svojo zbirko. Tu se najverjetneje skriva odgovor na smešenje Janše in Slovenije. Po besedah šefa ene od slovenskih spletnih strani je bilo treba v začetku delovanja slovenskega prevajanja na Googlu dvajset klikov uporabnikov na tipko predlagaj boljši prevod in njihovo spletno stran je Google Translate začel prevajati v "greatest site in the world". Danes je zaradi večjega števila aktivnih uporabnikov verjetno treba nekaj več klikov, a kljub temu se lahko igrate in si omislite lasten prevod imena svojega najljubšega sovražnika. S podobno težavo so se srečali pri Wikipediji, a so se stvari pri najbolj vročih pojmih, kot je, denimo, palestinsko-izraelski spor in podobno, kasneje rešile z zaklepanjem gesel, ki so imela vsebino bolj ali manj korektno zaokroženo.
Sv. Miklavž je postal Saint hudič. V Googleplexu bo letos 6. decembra pela šiba.
Strojno prevajanje je pač še bolj na začetku in trenutno v fazi, ko si z njim lahko za silo pomagamo pri razumevanju kake japonske spletne strani, pri grobem prevodu ruskega dokumenta, za resno rabo pa bo moralo preteči še nekaj let.
Sicer pa je zanimivo preizkusiti katero izmed besed, ki naj jih ne bi bilo v bazah, kot je tista od OZN. Se vnaprej opravičujem, a denimo katero iz sklopa grdih besed. Da nas ne bi kdo obtoževal sprijenosti, smo vnesli naslov pesmi Ramba Amadeusa, ki v sebi združuje multitest: Kurac, pička, govno, sisa. Prevod je brezhiben, kar se tiče prvih treh besed: Dick, pussy, crap - sisa pa je lepo ostala kar sisa. Že prav, ker ni slovenska beseda. Google Translate odlično zazna našo preklinjalno frazo krščen matiček in jo predela v holy shit. No, zdaj veste, kako smo prišli do naslova članka.
Google Translate se obnese tudi pri prevajanju medmetov. Tisti, ki berejo stripe, vedo, da pri nas pištole pokajo bum, bum, pri Anglosaksoncih pa bang, bang. Google Translate tako, denimo, naš vzdih hm dobro prevede v angleški huh. Poskusimo še s slivovko in dobimo brezhiben slivovitz.
Nekaj težav je še vedno z zemljepisnimi imeni. Kranj je sicer že postal Kranj, toda Slovenj Gradec Google Translate prevede v Film. Huh? Toda Piranski zaliv iz slovenščine v hrvaščino ne postane Savudrijska vala, temveč lepo Piranski zaljev.
Aplikacija presenetljivo dobro obvlada sleng, kar kaže prevod besede smrdi v sucks. Mladi kraljujejo na spletu in kaže, da se prava učna doba Google Translatea zdaj šele začenja.
Zanimivo je še, da prevodi iz angleščine v slovenščino delujejo bistveno slabše, najbrž zaradi zapletenosti naše slovnice. Ko pa smo v okence kopirali celoten angleški roman Fanny Hill in ga želeli prevesti v slovenščino, je program popolnoma zmedlo. Izvrgel je nekaj, kar je sestavljeno iz 99 % angleščine in tu in tam kake slovenske besede. Kaže, da ima prevajalnik težave z daljšimi besedili, saj je tudi nekaj strani slovenskega besedila pri prevodu v angleščino ali katerikoli drug jezik pustil skoraj nedotaknjenega.
Kakorkoli, da se je slovenščina znašla med 35 jeziki, ki jih premetavajo Googlovi strežniki, je lep napredek za nas, ki smo neredko upravičeno užaljeni zaradi pogoste zapostavljenosti. Paypal nas do nedavna ni opazil, čeprav smo v EU vstopili že štiri leta nazaj. Tiste, ki jih male nerodnosti jezijo, pa naj opomnimo, da je Google Translate za povrh še v poskusni, beta razvojni fazi, ki pri Googlovih aplikacijah ponavadi traja več let. Za zdaj program po naši oceni delo opravi dobro, tudi samodejno zaznavanje slovenščine - če le vnesemo zadostno količino besedila - deluje brezhibno. Njegova največja prednost v primerjavi z Babelfish, Promtom in drugimi programi, s katerimi smo si pomagali doslej, pa je, da količina vnesenega besedila ni omejena. No, vsaj teoretično ne, glede na zgoraj omenjene težave s Fanny Hill.
* Ta veseli dan ali Matiček se ženi (menda pri nas velja zakon, da morajo biti naslovi člankov vedno v slovenščini ...)