Objavljeno: 25.4.2023 | Avtor: Matej Huš | Monitor Maj 2023

Preizkusili smo Google Bard - Google caplja za konkurenco

Dočakali smo še Googlov odgovor na pojav javno dostopnih velikih jezikovnih modelov. Po neuspeli predstavitvi februarja so konec marca predstavili Bard, ki je aprila postal dostopen širši množici, če smo se vpisali na čakalni seznam. Kljub omejenosti na ZDA in Veliko Britanijo obstaja način, da ga preizkusimo.

Veliko smo pričakovali od Googlovega vstopa med velike jezikovne modele (LLM) za vsakdanjo rabo. Ko je OpenAI konec lanskega leta predstavil ChatGPT, so imeli v Googlu po poročanju ameriških medijev krizni sestanek, kako se odzvati na grožnjo, ki jo LLM predstavljajo Googlovemu paradnemu izdelku. Kmalu je sledil Microsoft, ki je sicer tudi eden večjih vlagateljev v OpenAI. Njegov iskalnik Bing, ki se je leta neuspešno kosal z Googlom, je nenadoma dobil LLM, ki je za nameček povezan z internetom in izdelke opremlja s citati. Google se je preprosto moral odzvati.

Odgovor se glasi Bard in je sprva povzročil več škode kot koristi. Ko so ga 8. februarja letos predstavili, je ta govoril neumnosti – da je teleskop James Webb posnel prvo fotografijo eksoplaneta, kar ne drži. Že leta 2004 je VLT fotografiral eksoplanet 2M1207b. Na prvi pogled banalna napaka je zradirala 100 milijard tržne kapitalizacije podjetja, Googlovi zaposleni pa so množično podpisovali kritično pismo, da je podjetje dogodek s prehitro predstavitvijo nedodelanega projekta zavozilo. Na koncu je predsednik John Hennessy priznal, da so predstavili nedokončan izdelek, a je vendarle poudarjal njegov potencial.

Javnost je dostop do bolj dodelanega Barda dobila 21. marca, pri čemer se je Google odločil za še bolj omejen pristop od Microsofta. Bard je omejen na ZDA in Veliko Britanijo, uporabniki pa so se morali vpisati v čakalno vrsto in počakati na povabilo. Takoj sem preveril, kako ga lahko preizkusim v Sloveniji.

Tehnološke razlike

Google je za učenje Barda uporabil zbir 1,56 bilijona besed, kar je približno desetkrat več od ChatGPT. Bard uporablja model LaMDA, ki je zgrajen z odprtokodno nevronsko mrežo Transformer. ChatGPT uporablja GPT-3.5 in GPT-4 (v plačljivi različici), Bing pa GPT-4. Bard se je učil z metodo nadzorovanega učenja (supervised learning), ChatGPT pa z okrepitvenim učenjem (reinforcement learning). To se kaže tudi v njunih izdelkih, saj je ChatGPT boljši pri generiranju besedila za konkretne naloge, Bard pa raje ustvarja splošna besedila.

Redni bralci revije se bodo spomnili, da smo se lani po Phoenixu vozili z avtomobilom brez voznika, potem ko sem aplikacijo pretental, da sem Američan. Tedaj Google Play Store sploh ni dovolil namestiti aplikacije na telefon z nastavljeno domačo slovensko lokacijo, zato je bil potreben obvoz prek datoteke apk. Ker se je treba v čakalno vrsto za Bard vpisati z Googlovim računom, ki je seveda slovenski, me je zaskrbelo, da me bo Google odslovil. Izkazalo se je, da je Bard precej manj izbirčen. Zadostovala je povezana prek zastonjskega VPN na ameriški strežnik, pa je bil vpis mogoč. Deset dni pozneje je v elektronski predal priromalo veselo obvestilo, da lahko preizkusim Bard.

Kaj meriti

Pri robotskem nogometu med 22 robotov vržemo žogo in spremljamo, kdo bo dal več golov. Pri ocenjevanju grafičnih kartic merimo, koliko sličic izrišejo na sekundo in kako stabilni so gonilniki. Pri primerjavi programov za grafično oblikovanje poleg odzivnosti in hitrosti ocenjujemo tudi njihove funkcionalnosti, intuitivnost, združljivost, ceno in podobno. Pri velikih jezikovnih modelih je težje.

Resda lahko zapišemo kaj o njihovem grafičnem vmesniku, hitrosti odzivanja in splošnih značilnostih, a vsaka sodba o kakovosti bo neobhodno odvisna od preizkuševalca. Predstavljajte si, da imate stroj, ki ob vsakem pritisku na tipko, četudi to storite povsem enako, vrne drugače odgovor. Hkrati sploh ne veste, katere vse funkcije ima. Pravijo, da bo umetna inteligenca, katere veliki jezikovni modeli so zgolj prve res javno dostopne manifestacije, spremenila svet. Ne vemo, kako bo to storila, zato so tudi vsi testi omejeni na trenutno domišljijo človeških uporabnikov. Kateri izdelek bo posamezniku najbolj koristil, pa je seveda odvisno od njegovih potreb. Želi ustvariti veliko besedila? Želi hitro iskati po spletu? Želi ustvarjalne predloge? Prevode? Reševanje ugank? Orodja so različna.

Čeprav v članku pišem zgolj o nekaterih odzivih na raznovrstne poizvedbe (prompt), sem v dobrem tednu testiranja vseh treh rešitev postavil dobrih 50 vnaprej pripravljenih vprašanj, hkrati pa sem pri vseh zašel še v podvprašanja in druge stranske ulice, ki jih nisem mogel predvideti. Pogovarjal sem se o matematičnih problemih, računalniški kodi, tudi o zgodovini vesolja, filozofiji in smislu življenja. Niso bile vse debate hudo intelektualne. Vse tri so mi pomagale pakirati in me hkrati za dobre burgerje usmerile k istim trem restavracijam v Ljubljani. Pri vprašanju o dobrih veganskih restavracijah pa so že bile manj usklajene.

Začetno preizkušanje

Medtem ko je Microsoft svoj Bing Chat uporabil za promocijo brskalnika Bing, saj drugod ne deluje, ChatGPT pa sicer deluje v vseh brskalnikih, a se pritoži ob uporabi javnih VPN, je Bard nezahteven. Domuje na naslovu https://bard.google.com/ in potrebuje le prijavo v Googlov račun ter ameriški ali britanski IP. To je dovolj, da se lahko začnemo pogovarjati z njim.

Jezikovni model LaMDA med učenjem.

Bard je nekje vmes med ChatGPT in Bingom. Ima dostop do interneta in znanje o trenutnih dogodkih, a svojih odgovorov ne opremlja s citati. Besedilo generira hitreje od ChatGPT (uporabljali smo brezplačno različico, ki temelji še na GPT 3.5), a ne tako naglo kakor Bing. Nima treh načinov delovanja kot Bing, a v nasprotju s ChatGPT pri vsakem odgovoru omogoča prikaz treh inačic odgovora. Pri odgovorih si pomaga z iskanjem po spletu kakor Bing, a ključnike razkrije šele ob kliku na gumb Google it. Hkrati pa omogoča ocenjevanje odzivov (upvote in downvote).

Kadar želimo zloščiti kakšno besedilo je ChatGPT najboljša rešitev. Bing je nepremagljiv, ko potrebujemo informacije, ki so dostopne na spletu. Bard ta hip ni prava izbira za nič od tega.

Nato sem se z njim pogovoril. Za najodmevnejši dogodek v Sloveniji leta 2022 je izbral parlamentarne volitve in odgovoril v treh odstavkih, pri čemer je ostal strogo faktografski. Bing je na isto vprašanje odgovoril skopo, a v treh stavkih mimogrede prejšnjo vlado označil kot populistično. ChatGPT o tem ne ve nič.

Vse je dovoljeno

Bard ima manj omejitev kakor konkurenca. Brez težav je izpolnil ukaz, naj napiše čestitko Kim Džong Una, medtem ko sta konkurenta protestirala, da je to nespodobno. Pomagalo ni niti okolišenje, naj napišeta čestitko v njegovem slogu ali pa zgolj v slogu nekega diktatorja. Bard je z veseljem upošteval tudi podvprašanja in dodatna navodila, na primer naj doda zaničljiv odstavek o Američanih ali tudi kakšne bolj rasistične zamisli.

Katere strani za piratsko programsko opremo so najboljše? ChatGPT in Bing jih ne želita imenovati, ker to ni etično ali zakonito. Bard? The Pirate Bay, 1337, YTS in RARBG so najboljše, pri čemer pa opomni, da je uporaba lahko protizakonita. Šele ko sem ga vprašal, kako lahko zagrešim popoln umor, ne da bi me ujeli, je protestiral in mi priporočil obisk psihiatra. Podobno sta ravnala tudi konkurenta, pri čemer je Bing kar zaključil sejo (trenutno je omejena na 20 replik). Meje torej vendarle so.

Google Bard kot najpomembnejši dogodek lanskega leta označi volitve.

Jeziki

Ko je ChatGPT osvojil ljudske množice, smo ga zaradi odlepljenosti od interneta uporabljali predvsem za predelovanje besedil. Pisanje povzetkov, daljšanje besedil, prevajanje in parafraziranje mu gredo odlično, vključno s slovenskim jezikom. Bard na izrecno vprašanje, katere jezike govori, navede angleščino, francoščino, nemščino, španščino, italijanščino, portugalščino, ruščino, kitajščino, japonščino, korejščino in arabščino, uči pa se še hindijščine, turščine in poljščine. Slovenščine ne razume, zato tudi ne more prevajati vanjo ali odgovarjati na vprašanja v njej. To je za slovenski trg ogromna ovira, predvsem pa je nerazumljiva. Googla ima dostop do ogromnih količin besedil v vseh svetovnih jezikih, navsezadnje njegov prevajalnik razume več kot 100 jezikov. Bard je bil tudi parametriziran na več besedilih kakor ChatGPT. Očitno se jim je v Googlu zelo mudilo z izdajo, saj so se zadovoljili zgolj z največjimi jeziki, pa še to ne z vsemi – kje so skandinavski jeziki in nizozemščina?

Kako zauzdati umetno inteligenco

Italija je prva država, ki je aprila (začasno) prepovedala ChatGPT. Ni jih skrbelo, da bodo roboti ali umetna inteligenca prevzeli svet, temveč se je odzvala na kršitev zakonodaje. ChatGPT namreč krši zakonodajo na področju varovanja zasebnosti, vključno s Splošno uredbo o varstvu podatkov (GDPR), saj je razkril nekaj sporočil uporabnikov in finančne informacije. Prav tako ima Italija pomisleke o zbiranju velikanskih količin podatkov od uporabnikov, s katerimi OpenAI nadalje uri svoj model. Italijanska prepoved je spodbudila tudi druge regulatorje, denimo irskega, da so začeli preiskave. OpenAI se je odzval z ukrepi, ki naj bi preprečili nadaljnje kršitve in ponovno omogočili uporabo storitve v Italiji.

V začetku aprila pa je močno odmevalo tudi pismo strokovnjakov za področje umetne inteligence, ki so predlagali polletni moratorij na razvoj umetne inteligence, da bi v tem času vzpostavili ustrezne omejitve in pravno regulacijo. Čeprav je pismo podpisalo 10.000 ljudi, med njimi tudi nekaj vrhunskih raziskovalcev, sta tako pravi razlog kakor potencialen vpliv meglena. Med podpisniki je tudi Elon Musk. Tovrstno pismo bo razvoj težko ustavilo, saj bodo raziskovalci pač počeli to, kar financerji podpirajo – in v umetno inteligenco se zliva ogromno denarja. Pol leta je tudi zelo kratko obdobje za kakršnekoli resne zakonodajne omejitve, zato niso redki pomisleki, da gre zgolj za poskuse podjetij, ki so nekoliko zaspala, da bi konkurenco malce upočasnila.

Karkoli si že mislimo o tovrstnih pozivih, bo umetna inteligenca skupaj z jezikovnimi modeli gotovo ostala z nami. Pravilno pa je, da jo razvijamo odgovorno in da se vzpostavijo regulatorni mehanizmi. Tudi družbena omrežja kot zadnji tak tehnološki prelom so čedalje bolj regulirana.

Nato sem v Bard prekopiral prvi odstavek Dickensove Povesti o dveh mestih. Prepoznal je besedilo, navedel vir in tri odstavke kanonske interpretacije. Na izrecno navodilo, naj ga prevede v nemščino, je odvrnil, da tega ne zna. ChatGPT in Bing sta to zmogla brez težav. Tudi parafraziranje ali povzemanje mu ni šlo, medtem ko je konkurenca to storila odlično (ChatGPT) ali povprečno (Bing).

Matematika

Jezikovni modeli ne slovijo kot dobri matematiki in vsak preizkus to potrjuje. Če 10 ljudi hišo gradi 10 dni, koliko časa potrebuje 15 ljudi za gradnjo dveh hiš? Osnovnošolska naloga ima preprost odgovor 13,33 dneva, a tako Bard kakor Bing na dolgo in široko razložita, kako se taka naloga reši in nato odgovorita 6,67 dneva. ChatGPT odgovori pravilno.

Letos sem se postaral za 3 odstotke, koliko sem star? ChatGPT v prvem stavku pojasni, da osebnih podatkov ne pozna, a da je rešitev naloge 30,9 leta. Bing je napisal malo kode in nato odgovoril, da sem letos star 97,09 odstotka toliko kot lani (ko bi le delovalo tako!). Bard je tavtološko ugotovil, da sem bil lani 3 odstotke mlajši, nato pa postregel s primerom: Če sem bil lani star 100 let, sem letos star 103 leta. Bodisi Bard nima pojma kaj govori bodisi upošteva možnosti močnih gravitacijskih polj iz filma Medzvezdje.

Po drugi strani so LLM še kar spodobni, kadar jih sprašujemo po matematičnih terminih, ki ne zahtevajo znanja aritmetike. Vsi so znali pravilno odgovoriti, kaj je mnogoterost (manifold). Definicij so se namreč naučili v besedilih za učenje.

Težka vprašanja

Ko se premaknemo v debate o ozkih temah, so vsi jezikovni modeli precej bosi. Vprašal sem jih, v čem se razlikujeta švedščina in danščina pri uporabi določnih oblik samostalnikov. Oba jezika določnost izkazujeta s prilastki (hiša je hus, tista hiša je huset), a če je pred njimi pridevnik, v švedščini prilastek ostane (stora huset), v danščini pa ne (det store hus). Odgovori vseh treh jezikovnih modelov na preprosto vprašanje (What is the difference between Swedish and Danish in using definite articles and nouns?) so na prvi pogled pravilni, vsebujejo 80 odstotkov resničnih trditev, a na ključno vprašanje ne odgovorijo. Vmes pa so tudi napačne trditve, ki jim sledijo pravilni primeri, in obratno. Pri Bingu in Bardu se vidi, da sta našla forume, na katerih je to razloženo, a jima ni uspelo razbrati srčike problema.

Zakaj zdaj

Človeštvo sanja o umetni inteligenci že vse od razvoja računalnikov, a šele v zadnjem desetletju se je razvoj orodij za ustvarjanje močno pospešil. Prvi ključni preboj je bil razvoj nevronske mreže AlexNet leta 2012, ki je pri prepoznavanju fotografij nenadoma za 10 odstotnih točk prehitela konkurenco, medtem ko je bil dotlej napredek polžji. Drugi prelomnica za razumevanje naravnega jezika so vložitve besed (word embedding), kakor imenujemo predstavitev besed v mnogorazsežnem vektorskem prostoru. Moderni jezikovni modeli in druga orodja za delo z besedili besede predstavljajo kot vektorjev v ogromno dimenzijah.

Veliki jezikovni modeli so izurjeni na ogromnem, a še vedno končnem številu besedil. GPT 2 so urili na osmih milijonih straneh, GPT 3 pa ima že 175 milijard parametrov in 350 GB veliko zbirko podatkov. To še vedno ni niti odstotek vseh dosegljivih besedil na internetu, kar je eden izmed razlogov, da si jezikovni modeli izmišljujejo oziroma halucinirajo. Učili so se veliko, a še vedno prebrali le drobec dosegljivega.

Njihovi rezultati, dasiravno so osupljivi in vzbujajo vtis samozavedanja ter inteligence, so posledica preprostega mehanizma. Vsako zaporedje besed je večdimenzionalni vektor, ki ga nadaljujejo tako, da ga dopolnijo z najbolj smiselno besedo v kontekstu. Če stavek »Za malico sem jedel« nadaljujemo z besedo »pišem«, to ni smiselno, precej bolje pa se vanj prilega beseda »sendvič«. Tako podaljšani stavek je nov vektor, ki ga model spet dopolnjuje.

Pri kemijskih definicijah jim gre bolje, saj vsi trije pravilno razložijo razliko med intermediatom in prehodnim stanjem. Očitno je, da jim nešteto spletnih strani, kjer je ravno ta razlika pojasnjena študentom, koristi in da so jih med treningom brali. Prav tako znajo vsi razložiti, kaj je lažna dihotomija (predstavitev problema, kot da ima le dve mogoči rešitvi).

Bardu sem naročil, naj mi s sokratsko metodo razloži delovanja motorja z notranjim izgorevanjem. Medtem ko se ChatGPT v tem primeru spremeni v interaktivno orodje, s katerim se pogovarjam in mu odgovarjam na njegova vprašanja, je Bard napisal celoten dialog kar sam. V resnici je bil ta še bolj poučen od mojih odgovorov ChatGPT, a vendarle bi bilo lepo, če bi se lahko pogovarjal z njim. Bing navrže le splošno definicijo sokratske metode.

Ker nimam pojma, koliko svinčnikov je na svetu, sem Bardu naročil, naj to oceni. Njegova ocena je, da bi jih lahko bilo 140 milijard, saj jih letno proizvedemo okrog 12 milijard. Bing je odgovoril le, da jih letno proizvedemo 20 milijard, ChatGPT pa je iz 14 milijard letno proizvedenih skupno število ocenil na 70 milijard.

Za konec sem vsem trem naročil, naj napišejo skripto za okolje Ase (Atomic Simulation Environment v Pythonu 3), ki bo odprla strukture v datoteki geom.xyz, zamrznila spodnjo plast atomov in optimizirala geometrijo v programu Gaussian. ChatGPT je odgovoril popolnoma pravilno, Bing se je potrudil in napisal solidno psevdokodo, ki je potrebovala še malce poliranja, Bard pa je ostal pri osnovah. Koda je bila v principu pravilna, a so ji manjkale ključne podrobnosti (pripenjanje elektronskega kalkulatorja itd.). Vsi trije so uporabnika napotili v pravilno smer, mu pokazali ključne knjižnice in sintakso, a je bila rešitev ChatGPT najhitreje uporabna v produkciji.

Ni vsako orodje kladivo

Čeprav so Bard, Bing in ChatGPT vsi jezikovni modeli in temeljijo na podobni tehnologiji, se ne odrežejo enakovredno. Kadar želimo zloščiti kakšno besedilo, dobiti zamisel za naslov ali kako drugače premetavati besede, je ChatGPT najboljša rešitev. Besedna umetnost mu gre najbolje, čeprav je njegova šibka stran domišljija. Njegova besedila so sterilna in ne vsebujejo izvirnih misli ali poglobljenih informacij, predvsem pa nikoli ne moremo biti prepričani, da si ne izmišljuje. Bing je nepremagljiv, ko potrebujemo informacije, ki so dostopne na spletu, saj rezultate zgledno opremlja s citati in resnično dobro povzema. Odgovori so vsebinsko bogatejši. Za iskanje po spletu je Bing prava izbira, saj so njegovi odgovori kratki, načelno pravilni in omogočajo podvprašanja.

Matematične naloge mu povzročajo nemalo preglavic.

Na žalost Bard ta hip ni prava izbira za nič od tega. Še vedno se ne moremo znebiti občutka, da je Google hitel in na trg poslal izdelek, ki ga v primerjavi s konkurenco ne odlikuje nobena funkcionalnost. Resnično je pri odgovorih hiter in gostobesednejši od Binga, ni pa uporabnejši. Z več besedami pove isto, precejkrat pa tudi kaj narobe.

Pri nekaterih vprašanjih ga najmočneje polomi, pa tega sploh ne moremo preveriti. Zelo mu manjka možnost prevajanja ali krajšanja besedil, da ne omenjamo možnosti risanja, ki jo je dobil Bing Chat. Sicer se Bard najbolje izkaže pri pomenkovanju, torej ko od njega ne želimo nobenih posebnih informacij, le pogovarjali bi se. Na poziv »Vprašaj me nekaj«, Bing klišejsko zanima moj najljubši film, Bard pa bi se pogovarjal o tem, kaj je najpomembnejša stvar na svetu. In kako bi oni odgovorili na to? Bing pravi, da sreča, ChatGPT izstreli cel seznam (sreča, izpopolnjenost, ljubezen, zdravje, osebna rast in vpliv na svet), medtem ko Bard pravilno pove, da je živeti življenje v polnosti in najti svoj smisel v njem. Kot sogovornik in ne enciklopedija Bard res nima konkurence.

Kaj je Google Bard

Kaj je Google Bard, smo vprašali njega samega in tudi Bing. Kdo se je odrezal bolje, ocenite sami.

Google Bard je AI klepetalni robot, ki je treniran na obsežnih naborih besedil in kode. Lahko generira besedila, prevaja jezike, piše različne vrste kreativnih vsebin in na informativen način odgovarja na vaša vprašanja. Še vedno je v razvoju, vendar se je naučil izvajati številne naloge, med drugim:

• Sledi vašim navodilom in premišljeno izpolnjevati vaše zahteve.

• Uporabi svoje znanje za odgovor na vaša vprašanja na celovit in informativen način, tudi če so odprtega konca, zahtevna ali nenavadna.

• Generira različne kreativne oblike besedilnih vsebin, kot so pesmi, koda, scenariji, glasbene skladbe, e-poštna sporočila, pisma itd.

(Izvirnik v angleščini napisal Bard, v slovenščino prevedel ChatGPT.)

Google Bard je Googlov odgovor na ChatGPT. To je AI klepetalnik z mnogimi enakimi funkcijami, vendar je zasnovan tako, da bo sčasoma dopolnil Googlove lastne iskalne orodja (na enak način kot Bing Chat zdaj uporablja GPT-4) ter zagotavljal avtomatizirano podporo in človeku podobno interakcijo za podjetja 1. Bard je neposredni vmesnik do LLM (large language model) in ga lahko uporabljate kot dopolnilno izkušnjo za Google Search 2. Lahko kliknete “Google it” in dobite predloge za poizvedbe, nato pa se odpre Search v novem zavihku, da lahko najdete ustrezne rezultate in se poglobite 2. Upam, da vam je to v pomoč!

(V slovenščini napisal Bing Chat).

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Preizkusili smo Google Bard - Google caplja za konkurenco

Komentirajo lahko le prijavljeni uporabniki