Računalniški Dalí, tretjič
Dočakali smo odgovor OpenAI na Midjourney. DALL-E 3 stoji na ramenih svojega predhodnika in obljublja precej več. Pogledali smo, kako lahko plačljivi model čisto legalno uporabljamo zastonj ter kaj zmore, in ga uperili proti konkurentu.
Krajina orodij, ki izkoriščajo aktualni napredek jezikovnih modelov in drugih oblik generativne umetne inteligence, postaja čedalje bolj pisana. Na področju ustvarjanja grafičnih podob tekmujejo OpenAI, Midjourney in Stable Diffusion, medtem ko konkurenca caplja daleč zadaj. Tudi v naši reviji že skorajda vse leto uporabljamo Midjourney za izdelavo simboličnih ilustracij za posamezne vsebine, v prejšnji številki pa je bila tudi naslovnica izdatno ozaljšana z umetno inteligenco. Veliki konkurent OpenAI razvija svojo rešitev, ki se imenuje Dall-E – beseda je 'amalgam' priimka Dalí in lika WALL E. Njegovo drugo inkarnacijo smo si ogledali lanskega novembra (Umetna inteligenca, ki riše in slika, Monitor 11/22), oktobra letos pa so izdali novo različico. Napredek je osupljiv.
Ko je ChatGPT lanskega novembra obnorel svet, je navdušenje presenetilo tudi same avtorje. Ti so kmalu ugotovili, da poganjanje umetne inteligence ni zastonj. Najprej potrebujemo ogromne količine podatkov in računske moči za njen trening, nato pa nezanemarljive tudi za poganjanje. Sajjad Moazeni z Univerze v Washingtonu je ocenil, da trening modela GPT-3 porabi okrog 10 GWh električne energije, odgovarjanje na milijone vprašanj na dan pa približno gigavatno uro dnevno. Če k temu dodamo še stroške same opreme in vzdrževanja, so zneski visoki. Na Semianalysis so ocenili, da je v začetku letošnjega leta OpenAI uporabljal 3.600 strežnikov HGX A100, zato naj bi ena poizvedba stala okrog 0,0036 dolarja.
Posledice za končne uporabnike so predvidljive: vsi ponudniki tovrstnih storitev si prizadevajo preiti na naročniški model. Midjourney je brezplačno različico storitve, ki je bila tako in tako omejena na 25 slik, ukinil aprila letos. OpenAI brez plačila ponuja osnovni ChatGPT, ki teče na modelu GPT-3.5, medtem ko je za GPT-4 in napredne funkcije treba plačati. Za slike ponujajo le DALL-E 2, medtem ko je novinec plačljiv. Vseeno smo DALL-E 3 preizkusili zastonj, kar lahko storite tudi vi.
Kako do DALL-E 3
OpenAI je DALL-E 3 ponudil naročnikom na ChatGPT Plus, ki stane 20 dolarjev, in ChatpGPT Enterprise, ki je namenjen podjetjem. A ker je Microsoft v OpenAI vložil že več kot 13 milijard dolarjev, ima v svojih storitvah vključen dostop do izdelkov OpenAI. DALL-E 3 lahko zato brezplačno preizkusimo kot del storitve Microsoft Bing Image Creator (https://www.bing.com/images/create). Ob prijavi z Microsoftovim profilom dobimo nekaj žetonov – spočetka jih je bilo 100, kasneje so to število znižali –, ki jih lahko uporabimo za generiranje slik. A tudi če vse porabimo, storitev ne bo nedostopna, le ustvarjanje slik bo trajalo dlje, ker ne bomo imeli več prioritetnega dostopa do računske moči. Hkrati je DALL-E 3 na voljo tudi neposredno v Bingovem klepetalniku z umetno inteligenco.
Uporaba DALL-E 3 je preprosta, celo enostavnejša kot pri Midjourneyju. Medtem ko je zadnji dostop nekoliko zapletel, saj pozive vpisujemo s ključno besedo /imagine v kanal na Discordu, je DALL-E 3 podoben običajnemu iskalniku. Na spletni strani nas pričakajo široko vnosno polje, števec žetonov, gumba Create in Surprise Me ter kopica že ustvarjenih podob drugih uporabnikov. V arhivu, ki je dostopen v zavihku Creations, pa najdemo svoje pretekle stvaritve.
Skočimo v vodo
Pri vseh generativnih modelih velja, da se jih je najbolj kar lotiti, saj veščine pridejo z vajo. Seveda se izplača tudi kaj prebrati, a v Microsoftovih navodilih ne najdemo prav nobenega vsebinskega opisa, kako ustvarjati pozive (prompts). Lahko sicer dobimo nešteto primerov, pravil pa ni moč najti. Zgolj za odtenek bolj informativen je OpenAI, ki na svojih straneh pojasnjuje pomembnost pravilnih pozivov, saj da jezikovni modeli radi kakšno besedo ignorirajo, a nato ponudi zgolj seznam primerov ter primerjavo z dosežki starejšega brata DALL-E 2. Poudarjajo še, da ima mehanizme za preprečitev ustvarjanja škodljivih vsebin. Res je zelo strikten, saj je med prepovedane pozive uvrstil tudi sorazmerno neškodljivo željo, naj nariše človeka, ki bruha. Pa še marsikaj drugega mu ni uspelo, saj naj bi bilo neprimerno.
DALL-E 2 je bil svojčas dober model, ki je imel resne težave le z risanjem ljudi. Takšna sodba je posledica antropocentričnega pogleda oziroma delovanja možganov, saj pri podobah ljudi najbolje zaznamo malenkostne nepravilnosti. Obrazi, ki jih riše DALL-E 2, so ravno toliko spačeni, da so grozljivi, saj padejo v srhljivo dolino (uncanny valley). Hkrati mu težave delajo tudi skrajni deli okončin, saj niso redki primeri štirih ali šestih prstov, kar pa iz psiholoških razlogov deluje manj strašljivo. Midjourney je postavil nove standarde, s katerimi se DALL-E 2 ni mogel kosati.
Osredotočimo se zdaj na DALL-E 3. Začeli smo s pozivom, ki lahko razkrije marsikaj o sposobnostih orodja in predsodkih. Vpisali smo »a lab technician with a green lab coat pipetting a bluish liquid in a fume hood«. Podobno kot pri konkurenci dobimo štiri podobe. Opazimo, da so obrazi sicer znatno boljši kot pri predhodniku, a še vedno imajo pridih umetnega in ne bi nikogar pretentali. Niso srhljivi, a so še vedno bolj podobni kipom iz Muzeja voščenih lutk kakor resničnim ljudem. Izmed štirih podob so trije moški in ena ženska, medtem ko je Midjourney na enak poziv narisal samo ženske – kar pove precej o predsodkih o poklicu tehnika. Zelena halja je v resničnih laboratorijih tako neobičajna, da jo je DALL-E 3 narisal le enkrat, preostale tri slike pa imajo rokavice ali kape podobne barve. Ozadje je precej sterilno in še vedno daje vtis nepristnosti, pa četudi bi težko definirali, kaj točno je narobe. Vse je zelo verjetno, a hkrati vemo, da laboratorijski pulti niso takšni.
Primerjava laboratorijskega tehnika v zeleni halji, ki v digestoriju pipetira modrikasto tekočino, DALL-E 3 in Midjourney.
Rafiniranje
Ključna sposobnost orodij za ustvarjanje slik je sposobnost izdelave variacij. Poenostavljeno povedano želimo, da lahko kot vhodni poziv vzamejo tudi obstoječo sliko in jo bodisi predrugačijo bodisi vključijo v povsem novo okolje. Midjourney to zna že v pozivu, ki je lahko tudi spletna povezava do obstoječe slike – ponavadi osebe, ki jo želimo vstaviti v novo situacijo. Prav tako lahko njegove rezultate uporabimo kot seme za naslednje variacije. DALL-E 2 je to znal, a zelo primitivno.
V DALL-E 3 so ob kliku na sliko na voljo možnosti Share (stalna povezava za deljenje slike), Save (shranimo jo v spletni arhiv na strani), Download (prenos na lokalni disk) in Customize. Ta odpre orodje Microsoft Designer, ki je sredi novembra tudi dobilo podporo za DALL-E 3. A napis je varljiv, saj gre zgolj za dodajanje elementov k sliki, denimo obrobe, besedila ali podobno. Funkcije za izdelavo variacij slike, kot jo poznamo iz Midjourneyja, Bing Image Creator ne ponuja.
To ni omejitev modela, saj DALL-E 3 variacije zna ustvariti in tudi jih, a le če imamo neposredni dostop. Da tega ni v Microsoftovi implementaciji, je komercialna odločitev. Izkaže pa se, da niti nismo preveč prikrajšani, saj variacije neposredno v OpenAI DALL-E 3 to niso, ampak gre za predvsem ponovni zagon modela z istim pozivom. Razlike so namreč velike, prevelike, da bi jih lahko pripisali 'popravljanju' slike. Druge funkcije, kot je razširitev slike v prazen prostor ('dorisanje') ali popravljanje pobrisanih delov na sliki, so na voljo v plačljivi različici prek OpenAI, ne pa v Bingu.
Iz Bing Image Creatorja lahko slike neposredno uvozimo v Microsoftov Designer in jim dodamo druge elemente.
Kdo bo zmagal?
Pri kratkih opisih se je DALL-E 3 za zdaj izkazal precej slabše od Midjourneyja. Morda je bolje, če vnesemo daljši poziv, pravi veristični opis. Ko smo želeli dobiti fotografijo distopičnega mesta kot iz filma (a dystopian picture of a derelict city full of crumbling skyscrapers, abandoned buildings, polluted air, smog, gloomy appearance, devoid of people, apocalypse), sta si konkurenta zelo različno zamislila podobi. DALL-E 3 se je odločil za total od daleč, in to z vrha stolpnice, da je ponudil razgled na mesto, polno zapuščenih nebotičnikov. Midjourney se je spustil na ulico, polno ruševin, kamenja, razsutih avtomobilov in – začuda – tudi ljudi. Medtem ko je vsebina stvar percepcije, je kakovost posnetka spet na strani Midjourneyja. Posnetki so pač boljši, medtem ko je pri DALL-E 3 že od daleč videti, da ne morejo biti realistični.
To lastnost DALL-E 3 pa lahko izkoristimo tudi v svoj prid, če se pač odpovemo realizmu. Za ustvarjanje podob, ki so naslikane v slogu Minecrafta, legokock, svinčnika na papirju in podobno, je DALL-E 3 celo boljši. Hkrati daje DALL-E 3 tudi več poudarka podrobnostim, ki sicer niso realistične, a obstajajo. DALL-E 3 podrobnosti ne le riše, temveč jih tudi bolje razume. Če mu naročimo pet astronavtov na Mesecu, jih bo večinoma res pet, medtem ko si Midjourney radi tudi kaj izmisli in je tu precej površinski.
Times Square v New Yorku v stilu Minecrafta. Nobeden izmed programov ni znal upoštevati navodila, da želimo le dve različni barvi.
Čeprav je objektivno slabši, ima DALL-E 3 torej tudi kakšno prednost. Zdi se, da je naučen na več realističnih slikah ali pa je imel vsaj novejši korpus za treniranje. Če ga uporabimo za risanje realnih krajev, DALL-E 3 zmaga. Že preprosti poziv Blejsko jezero ali Ljubljana je dovolj, da so rezultati razpoznavni. Blejsko jezero je že precej blizu resničnosti, ljubljanske ulice pa prepoznamo z nekaj napora. Midjourney spet naredi posnetke, ki so videti bolj realistični in polni, a na njih pač ni Bled ali Ljubljana. Še bolje se DALL-E 3 obnese, če mu sliko dodatno opišemo. Bled ima jezero z otočkom, na katerem je cerkev, do katere vodijo stopnice itd. Potem so rezultati res že zelo dobri.
DALLE Bled iz ptičje perspektive.
Sebek japonske turistke v Ljubljani.
Pomudimo se za trenutek še pri hitrosti. DALL-E 2 je hipen, medtem ko si DALL-E 3 vzame nekaj sekund, a nikoli več kot pet. V tem pogledu je boljši od konkurence, saj celo plačljivi račun pri Midjourneyju ustvarja vsaj dvakrat počasneje od DALL-E 3. Situacija se seveda spremeni, ko nam zmanjka žetonov za prioritetno risanje na Bingu. Tedaj čakamo tudi po pet minut!
Hiter napredek
Napredek pri razvoju generativnih modelov je v zadnjem letu izredno hiter. To si najlaže predočimo, če najdemo kakšne stare izdelke prvih generacij. Ko smo izbrskali fotografijo izpred poltretjega leta, ki je nastala z DALL-E 1, in enak poziv vnesli v DALL-E 2, DALL-E 3 in Midjourney, je bil rezultat več kot poveden. DALL-E 1 je v manj kot treh letih iz neuporabne igračke prilezel do stopnje, ko ga lahko uporabimo za ilustracije člankov. Midjourney je tam že nekaj mesecev in se takisto razvija še naprej.
Za zdaj imata oba še vedno enake težave kot vsi ostali modeli, in sicer sta precej svojeglava. Posamezne ključne besede lahko preprosto ignorirata, zato je pisanje pozivov do neke mere tudi umetnosti, v vsakem primeru pa obrt, ki se je moramo izučiti. Hkrati nista imuna na halucinacije, ki jih sicer bolje poznamo iz besedilnih modelov. Fleksibilnost je seveda nujna, a treba bo najti tisto pravo mero. Da si posamezne elemente Blejskega jezera ali prestolnice izmislita – oziroma skopirata iz podobnih posnetkov drugih krajev –, je trenutno simpatična pomanjkljivost, a v prihodnosti bi si želeli še robustnejša orodja. Ne vemo, ali je to s trenutnim pristopom (transformerjev) mogoče.