Primerjava spletnih prevajalnikov - Ko prevajalcev več ne bo
Spet je minilo nekaj let, odkar smo nazadnje preverjali spletne prevajalnike. Čeprav so na prvi pogled ostali enaki, je pod pokrovom očitno veliko novega. Ko smo se pred sedmimi leti čudili napredku preteklega desetletja, smo si težko predstavljali, da bo ta ostal silovit. Strahovi so bili neutemeljeni, saj so današnja orodja še bistveno boljša. Babilonski stolp je končan.
Pri svojem delu se zaradi specifičnih predpisov redno srečujem s sizifovo nalogo prevajanja gore besedila iz angleščine v slovenščino, za katero je vsem vpletenim jasno, da ga ne bo bral nihče. To je naloga, ko kar kliče po strojnih prevajalnikih, četudi se s tem povsem izmaliči namen predpisov za obvezno slovensko različico. Pred desetimi leti je bila to še znatna potrata časa. Strojni prevajalniki so bile sicer pogojno uporabni, a je končni izdelek potreboval še precej popravljanja. Zmazki, četudi jih ne bo bral nihče, se pač ne oddajajo. Dandanes pa so strojni prevajalniki že dovolj dobri, da potrebujejo njihovi izdelki le minimalne popravke.
Google Translate je zmagovalec pri dodatnih funkcijah. Ko ne ve, kaj želimo do njega, pokaže več možnosti.
V Monitorju vsakih nekaj let preverimo strojne prevajalnike (2008, 2013, 2016), pri čemer je zanimivo opazovati napredek. Tega najlaže ugotovimo, če vsakokrat uporabimo iste odstavke in opazujemo, kako se je prevod izboljšal. Poleg tega seveda poiščemo tudi besedila, ki se še nikoli niso pojavila na internetu, da vidimo delovanje v resničnem svetu.
V primerjavi s preteklimi testi se je letos zgodila velika sprememba. Na letošnjem pregledu sodeluje povsem nova 'pasma': veliki jezikovni modeli, kakršen je ChatGPT, znajo namreč tudi prevajati. Google Translate in družba so končno dobili zelo resno konkurenco.
Delovanje prevajalnikov smo že večkrat obširno opisovali (Kdo se boji babilonske ribice, Monitor 04/13 in Članek on the strojnem translation, Monitor 05/08) in za končnega uporabnika ni zelo pomembno. Zadostuje poznavanje dejstva, da je prevajanje na podlagi pravil mrtvo in da so žezlo prevzeli statistični, kasneje pa nevronski in jezikovni modeli, ki so prežvečili ogromne količine besedila in našli korelacije. Besedila na internetu je čedalje več, kar velja tudi za kakovostne prevode, katerih največji proizvajalec je še vedno birokratski aparat Evropske unije in njene prevajalske službe v Luksemburgu, ki bruhajo na tisoče strani prevodov uredb, direktiv in drugih predpisov.
Vsi preizkušeni prevajalniki se izboljšujejo zaradi dveh povezanih razlogov: čedalje več računske moči imajo na razpolago, hkrati pa lahko ta računska moč prežveči naraščajoče količine dostopnega besedila. Občasno pa se pojavijo tudi konceptualno novi pristopi, kakršen je ChatGPT, pred tem pa zamenjava statističnega prevajanja z nevronskimi mrežami.
Kaj obstaja
Na internetu ne manjka orodij za strojno prevajanje, med katerimi vsakdo pozna Google Translate, ki pa še zdaleč ni edini. Na letošnjem preizkusu so sodelovali še še Bing Translator (Microsoft), Yandex Translate, DeepL, PONS, Amebis in – kakopak – ChatGPT. Pri vseh smo uporabili osnovno brezplačno inačico, ki je na spletu dostopna vsakomur, čeravno nekateri omogočajo tudi plačljivi dostop prek API, kadar potrebujemo avtomatiziran dostop za prevode velikih količin besedil, in naročniške vmesnike.
Že ocena kakovosti prevoda ni enostaven problem, saj so prevodi različni vsaj toliko, kot so različna besedila. Imajo različne namene, naslovnike in zahteve. Pri prevodu deklaracije pralnega stroja mora biti besedilo razumljivo in dovolj natančno, estetskih presežkov pa ni pričakovati. Pri prevajanju pravnih besedil sta izjemnega pomena natančnost in vernost prevoda, povsem nepomembni pa so izogibanje ponavljanju in druge literarne figure. Književnost se prevaja povsem drugače, kjer je poleg vsebine pomembna tudi oblika, konec koncev pa je treba besedilo prilagoditi tudi kulturnemu okolju naslovnika. Navsezadnje so človeški prevodi avtorska dela.
Strojni prevajalniki pa so storitve, kjer poleg končnega izdelka, torej prevoda, ocenjujemo tudi druge vidike. Enostavnost uporabe, hitrost, cena, dostopnost in podobno so prav tako pomembne sestavine končne ocene. Pri vseh razvrstitvah se moramo zato zavedati, da so nujno pogojene z nalogami, ki smo jih med testom zastavljali prevajalnikom, in z našimi potrebami ter pričakovanji. Povsem mogoče je, da bo za prevajanje zakonov primernejši drug prevajalnik kot za strokovna besedila s področja fizike ali filozofske eseje. Tudi povprečni uporabnik ima povsem drugačne zahteve kot poklicni prevajalec.
Uporabniška izkušnja
Google Translate je stari znanec in zimzeleni prevajalnik, ki ga je Google predstavil pred 16 leti (2006). Prvih deset je deloval kot statistični strojni prevajalnik, kasneje pa je začel uporabljati nevronske mreže. Trenutno podpira 135 jezikov in vse kombinacije med njimi. Prevajamo lahko besedilo, ki ga napišemo oziroma skopiramo v prevajalno polje, celotne dokumente (docx, pdf, pptx, xlsx), ki jih potem prenesemo v prevod, ali celotne spletne strani. Na voljo je tudi neposredno v Googlovem iskalniku ter kot aplikacija za mobilne naprave.
Storitev je uporabniku prijazna, saj deluje hitro in brez zapletov. Vsebuje tudi precej uporabnih podrobnosti, ki jih zlahka spregledamo. Prevode lahko ocenjujemo, v nekaterih jezikih tudi poslušamo (sintetizatorja govora za slovenščino nima), shranjujemo itd. Besedilo za prevod lahko celo narekujemo. Še največkrat bomo verjetno uporabili prevod celotne strani, ki je integriran tako v Chrome kakor tudi v iskalnik. Strojni prevod spletne strani dobi svoj URL, torej ga lahko delimo (naša spletna stran postane v angleščini https://www-monitor-si.translate.goog/?_x_tr_sl=sl&_x_tr_tl=en). Če iščemo prevod le ene besede ali kratke fraze, se izpišejo tudi slovarska definicija in primeri rabe.
Bing Translator je Microsoftova rešitev, ki obstaja v brezplačni različici na internetu (pohrustal je Yahoojevo) in aplikaciji za mobilne naprave, poslovni uporabniki pa lahko pridobijo dostop do plačljive storitve in API. Bing ima že dolgo zgodovino, saj je Microsoft že leta 1999 začel razvijati prevajalnik, leta 2007 pa je kot Windows Live Translator ugledal luč sveta na spletu.
Bing danes podpira več kot sto jezikov. Poleg vnesenega besedila omogoča tudi prevod celotnih spletnih strani, a le neposredno iz Microsoftovega brskalnika. Na dnu strani ima uporabne zavihke z najpogostejšimi frazami, ob vpisu ene besede takisto prikaže več mogočih prevodov in sinonimov v obeh jezikih. Podobno kot Google omogoča predlaganje boljših prevodov in branje besedil, ki deluje – in to povsem spodobno – tudi za slovenščino.
Microsoftov Bing zna izgovarjati slovenščino.
Yandex Translate se je na internetu pojavil leta 2009, kasneje pa še kot mobilna aplikacija, in ni nikoli uporabljal pravil, temveč od začetka statistični pristop, danes pa kot ostali nevronske mreže. Podpira skoraj sto jezikov. Spletni vmesnik omogoča prevajanje vpisanega besedila, celotnih spletnih strani, dokumentov (doc, docx, pdf, xls, xlsx, ppt, pptx) do 5 MB in celo slik (konkurenca tega nima)! Medtem ko mu gre pri slikah solidno, je pri dokumentih slabše. Prevedeni Wordovi dokumenti še nekako stojijo, v formatu PDF pa so popolnoma podrti, še precej bolj kot pri Googlu (kjer so tudi sorazmerno slabi).
Hitro se vidi, da so Google, Microsoft in Yandex razvili storitve, ki strežejo istemu profilu uporabnikov, zato so podobne. Posamezne razlike so bolj kozmetične narave, pa še te so prehodne, saj proizvajalci ves čas dopolnjujejo svoje storitve. Da je DeepL drugačen, vidimo že na prvi pogled, saj podpira le slabih 30 jezikov. Ko je leta 2017 zaživel, je podpiral le največje evropske, kasneje pa so jih vendarle dodali več. V spletni inačici podpira prevajanje besedila ali dokumentov (docx, pdf, pptx), ne pa tudi spletnih strani. Razvilo ga je istoimensko nemško podjetje, ki meri predvsem na profesionalne oziroma poslovne uporabnike. Tako ponuja plačljivi DeepL Write za popravljanje slogovnih, slovničnih in tiskarskih napak, slovarje itd. Poslovni uporabniki lahko izbirajo med več paketi, dostopom prek API ipd. Več prevajalcev je dejalo, da imajo prav z DeepL najboljše izkušnje pri svojem delu. DeepL ima v brezplačni inačici najmanj funkcij in podprtih jezikov, a kot bomo videli v nadaljevanju, so njegovi izdelki zelo dobri. Ponuja tudi mobilno aplikacijo.
Nemški PONS bolj poznamo po slovarjih ter jezikovnih tečajih in priročnikih, a že vrsto let ponujajo tudi prevajalnik. Ta je v celoti preveden v slovenščino, pri funkcionalnostih pa je najbolj okleščen. Podpira dobrih 20 jezikov in prevod besedila, ki ga vnesemo v polje za prevod. Izkaže se, da uporabljajo tudi druge prevajalnike, saj se pri prevodu iz angleščine v slovenščino spodaj izpiše Powered by DeepL, pri prevodu v srbščino pa Powered by Bing. Edina dodatna funkcija je branje besedila, ki deluje le za nekatere jezike, a celo za angleščino je sintetizirani govor neuporaben. Očitno je, da je prevajalnik ustvarjen bolj kot podpora ostalim izdelkom, saj lahko v prevodu kliknemo na katerokoli besedo, pa nas bo odpeljal neposredno v slovar PONS.
Na koncu omenimo še slovensko pamet Amebis Presis, ki razume slovensko, angleško, nemško, francosko in albansko, pa še to ne v vseh kombinacijah, temveč v paru s slovenščino (razen angleško-albansko). Prevajanje je najbolj omejeno, saj je na voljo le 1956 znakov, rezultati pa daleč najslabši. Spletna inačica tudi nima prav nobene dodatne funkcije, zato pravzaprav ni nobenega razloga, da bi jo kdo uporabljal.
ChatGPT smo že obširno opisovali v preteklih številkah (Kdo bo še pisal eseje?, Monitor 01/23), zato povejmo le to, da zna prevajati, če mu to izrecno naročimo. Napisati moramo zgolj, v kateri jezik želimo prevod, in nato dodati želeno besedilo. ChatGPT je na naših testih vedno prevajal enako, ga je pa mogoče opozoriti na napake in jih bo popravil.
Yandex je edini, ki zna v spletni aplikaciji neposredno prevesti fotografije. V mobilnih različicah znajo to tudi drugi.
Preverimo
Čas je, da preverimo, kako dobro jim gre. Za ogrevanje velja vzeti nekaj enostavnega. Obstajajo zelo znana besedila, ki so na internetu dostopna v veliko jezikih in bi jih morali prevajalniki, ki so prečesali celoten splet, dobro poznati. Če smo doslej vedno preverjali prevod splošne deklaracije o človekovih pravicah, bomo to pot vzeli slovensko ustavo, ki je takisto dostopna v izvirniku in angleškem prevodu. S prevajalniki na spletu smo njen 18. člen prevedli v angleščino.
Rezultati so navdušujoči. Resda gre za zelo znano in standardizirano besedilo, zato so se vsi prevajalniki razen Amebisovega dobro znašli. Vsi razumejo, da se prepovedi v pravnih besedil v angleščini pišejo kot 'shall', česar slovenski uradni prevod iz neznanih razlogov ne upošteva. Prav vsi prevodi so povsem razumljivi in točni, razlike so minimalne. Nekateri ljudem pravijo 'persons', drugi 'human beings'. Še najslabše sta se odrezala Bing Translator, ki je kaznovanje in ravnanje oboje prevedel v 'punishment', ter Amebis, ki se je precej zmedel. Dodatne točke za spolno vključujoči jezik prejmejo DeepL, PONS in ChatGPT, ki so njegove prevedli v 'his or her' ali 'their'.
Da bi preverili, kako se znajdejo pri prevodih novih besedil, je bilo treba poiskati besedilo, ki ga na internetu še ni. Uporabil sem kratek odlomek iz svoje knjige, ki ga ni bilo nikoli nikjer na internetu, hkrati pa je slogovno in skladenjsko sorazmerno zahteven.
Tudi tak odstavek, celo iztrgan iz konteksta, spletni prevajalniki zelo dobro prežvečijo. Upam si trditi, da so angleško govorečim bralcem razumljivi prav vsi prevodi z izjemo Amebisovega. Še največ težav imajo z besednimi zvezami 'matematično naprezanje', ki ga le DeepL, PONS ChatGPT pravilno prevedejo v 'mathematical effort'. Tudi 'utrjevanje možganskih gub' je poetična fraza, ki nima neposredne ustreznice v angleščini, a je tudi v dobesednem prevodu še vedno vsaj razumljiva. Žal je Amebis v nižji ligi, saj ne zna postavljati niti vejic, kaj šele razumeti kompleksnih večstavčnih povedi.
Prevodi DeepL so bili najboljši.
Poskusil sem še v obratni smer. Vzel sem odstavek iz znane knjige Isaaca Asimova in ga s strojnimi prevajalniki prevedel v slovenščino. Tu so bile razlike v rezultatih že očitne. Še vedno je bilo iz vseh prevodov moč ugotoviti, kaj želi poetični odstavek povedati, a Bingov prevod je bil že opazno slabše kakovosti, Amebisov pa tako zanič, da se ga niti ne izplača analizirati. Kako točno je v Bingu 'forced' postal 'prisoljen' in 'prinuden', ostaja uganka. Amebis ne razume nič. Googlov prevod je tudi slovnično pravilen, PONS, DeepL in ChatGPT so skoraj pravilni, Yandexova forma pa je zgolj okorna. A prav zares ni zgrešil nihče. Še več, vsi prevodi so precej dobra izhodišča za popravljanje, če želimo človeški prevod, in omogočajo hitrejši rezultat, kot če se lotimo povsem spočetka. Dodajmo še, da je bil tudi prevod ChatGPT vsakokrat enak, čeprav za jezikovne modele to ni nujno. Seveda pa ga lahko pozovemo, da prevod spremeni po naših željah. Ko sem mu ukazal »Pred besedo 'prisiljen' manjka beseda 'se'. Ponovi«, je bil rezultat popravljen.
Napredek je očiten
Za konec poglejmo še, kako se je skozi leta izboljšalo prevajanje istih besedil. Kot prevajalnik z najdaljšo brado bo tu sodeloval Google Translate. Stari štosi, kot je prevod »ta veseli dan ali Matiček se ženi« v »Happy day, the wife or shit« iz leta 2008, so preteklost. Google naslov, sicer dobesedno, prevede popolnoma pravilno. Nato sem vzel slovensko besedilo, s katerim smo Google Translate preverili leta 2008 in 2016. Prevod v angleščino je to pot še boljši. Google se je naučil slovenske slovnice, skladnje in frazemov, pozna lastna imena, hkrati pa angleško besedilo ni suženjski prevod slovenskega, temveč naravno teče tudi v novem jeziku.
PONS je ustvarjen predvsem kot podaljšek ostale jezikovne ponudbe založnika, zato se neposredno povezuje s slovarji.
Izvirnik Slovenija je leto 1945 dočakala porušena, predvsem pa se je nadaljevala predvojna ideološka razdvojenost prebivalstva, ki se je pokazala tudi v medvojni kolaboraciji dela prebivalstva. Konec maja 1945 so britanske vojaške oblasti jugoslovanski armadi izročile nekaj desettisoč domobrancev, četnikov, ustašev, pa tudi civilistov, ki so se ob osvoboditvi Jugoslavije umaknili na avstrijsko Koroško.
Google Translate 2008 Slovenia is the year 1945 dočakala demolished, in particular, has continued pre-ideological division of the population, which is reflected in the interwar collaboration of the population. At the end of May 1945, the British military authorities extradite Yugoslav Army a few tens of thousands of domorancev, četnikov, ustašev, as well as civilians who are taking the liberation of Yugoslavia withdrew the Austrian Carinthia.
Google Translate 2016 Slovenia's 1945 awaited demolished, particularly resumed pre-war ideological divisions of the population, which was also reflected in the wartime collaboration of the population. At the end of May 1945, the British military authorities Yugoslav Army hand over a few tens of thousands of home guard, Chetniks, Ustasha, but also civilians who were at the liberation of Yugoslavia retreated to Carinthia.
Google Translate 2023 Slovenia lived to be destroyed in 1945, and above all, the pre-war ideological division of the population continued, which was also reflected in the interwar collaboration of part of the population. At the end of May 1945, the British military authorities handed over to the Yugoslav Army several tens of thousands of Home Guards, Chetniks, Ustaše, as well as civilians who retreated to Austrian Carinthia upon the liberation of Yugoslavia.
Amebis pobarva besede, ki jih ni razumel, a prevod je v vsakem primeru katastrofalen.
Kaj torej priporočiti? DeepL in Google Translate sta se, ne le na tem preizkusu, temveč tudi v preteklih nalogah, izkazala najbolje. Ko sem jima dal pod nos strokovna besedila iz fizike in kemije, so bili prevodi DeepL vendarle boljši. Google Translate je govoril o dolgočasnih reakcijah prek katalizatorjev, DeepL o zamudnih reakcijah na katalizatorjih. Google Translate govori o modifikacijah katalizatorjev in njihovem delovanju, DeepL pravilno o spremembah (modifikacije imajo v kemiji zelo specifičen pomen) in učinkovitosti.
Tudi zato so mi prevodi DeepL bolj všeč, čeravno kdaj zgreši kakšen sklon ali pozabi na prosti morfem 'se'. Njegovi prevodi so polnejši in delujejo bolj naravno, besedišče je ustreznejše. ChatGPT je kot novi mulec v soseski, ki kaže velik potencial in utegne kmalu prerasti današnje velikane. Trenutno je manj uporaben zaradi načina interakcije, ne kakovosti prevodov. Nima dostopa prek API, ne omogoča enostavnega kopiranja besedil in izbire jezikov, popravkov ali spreminjanja, ne zna prevajati datotek. Medtem ko ostali prevajalniki delujejo kot orodja, je ChatGPT sogovornik – zato gre vse skupaj počasneje. Bing in Yandex še zdaleč nista slaba, a konkurenca je pol koraka pred njima. PONS in še posebej Amebis pa žal capljata precej zadaj.
Prevajalniki so že pririnili do točke, ko nimamo več izgovora, da do neke informacije zaradi jezikove prepreke ne moremo. Redno spoznavam, da se na kitajskih forumih skrivajo zakladnice nasvetov o uporabi nekaterih programov, saj je za praktično vsako napako (error) nekje nit z vprašanj in odgovori kitajskih študentov. To je bilo še pred desetletjem ali dvema nepredstavljivo. Prevajalci pa so za zdaj še vedno varni. Četudi jih bomo v prihodnosti morda potrebovali manj, ker bo s strojnimi orodji njihova storilnost narasla, bodo na drugi strani strokovnjaki za jezikoslovje pomembni pri vzdrževanju in nadgrajevanju teh orodij. Presenečeni bi bili, koliko diplomantov jezikov s filozofske fakultete se že danes zaposli v tehnoloških podjetjih ali laboratorijih, kjer počno prav to.
Komentarji
z.novak49 | 10.3.2023 | 12:46
Bi se strinjal z trditvijo, vendar bi dodal da so prevodi iz angleščine v slovenščino veliko slabši, kot prevodi iz slovenščina v angleščino.