Objavljeno: 11.6.2024 | Avtor: Andrej Troha | Monitor Posebna 2024

Umetna inteligenca | Fotografije in video

Zgodovina prihodnosti

Avtor teh vrstic sem prepričan, da bomo v letu dni deležni prvega celovečerca, narejenega (tudi) z umetnim razumom. Ne le kakšne statične sličice tu in tam, ampak celotnih kadrov, dialogov, zgodb.

Nekdo, ki iz filmskega žanra demonske obsedenosti in najdenih posnetkov izžame toliko, kot sta Colin in Cameron Cairnes v strašljivki Late Night with the Devil, zasluži stoječo ovacijo. Seveda pa je internetne tipkovniške bojevnike in samozvane filmske kritike, ki z umetnostjo nimajo nič, pri vsem skupaj najbolj zmotila ena sama slika, ena sama statična grafika med dvema segmentoma. Pa ne zato, ker bi bila odvratna, strašna ali iz drugega obskurnega razloga neprimerna. Ne, zmotila jih je zato, ker je bila (baje) izdelana ob pomoči umetnega razuma. To pa, kljub vsem klasičnim, posebnim, zvočnim in računalniškim učinkom v omenjenem filmu, pač ne gre. VFX, SFX, CGI so lahko, le umetna inteligenca ne.

Ampak, cenjeni bralci in bralke, brez skrbi, to se utegne zelo hitro spremeniti. Do tedaj imamo še nekaj mesecev, zato si oglejmo nekaj trenutno najaktualnejših orodij za izdelavo vizualne umetnorazumske umetnosti.

Statika

V zadnjem letu skoraj vsak teden vznikne novo zagonsko podjetje, ki poskuša pomolsti evforijo in ponuja orodje za izdelavo umetnointeligenčnih slik. Ker večina temelji na le peščici platform, si bomo natančneje ogledali vodilni, Dall E 3 in Midjourney, ter dve uspešni integraciji umetne inteligence v obstoječi in priljubljeni platformi, Adobov Photoshop in Shutterstockov AI generator.

Midjourney je po skromnem mnenju avtorja teh vrstic trenutno najmočnejši generator umetnointeligenčnih slik na trgu, seveda če niste pripravljeni izuriti lastnega modela.

Tipika Midjourneyjevega vmesnika so parametri, ki jih lahko vnesemo na koncu prompta (opisnega dela). Da gre za ukaz, določimo z vnosom[--] pred parameter. Tako lahko nadziramo podatke, kot je razmerje stranic slik, njihovo raznolikost, s katerim semenom začeti in celo, ali želite ustvariti ponavljajoče se vzorce. Ukaz [--s 10 --ar 16:9 --no clouds] bo Midjourneyju dopovedal, naj bo stilistično skop (s − style je lahko med 0 −1000), razmerje slike naj bo 16 : 9 (ar − aspect ratio) in naj na sliki ne bo oblakov.

Uporabite lahko celo drugo sliko kot referenco likov (umetni razum bo poskušal poustvariti tipiko obrazov, fizionomije, oseb na njej) ali referenco sloga (slogovno ujemanje slik). Oba omogočata ustvarjanje niza likovno in vsebinsko sorodnih slik, nekaj, kar je za generatorje slik z umetno inteligenco, posebej po difuzijskem modelu, precej trd oreh.

Midjourney postreže še z orodji za nadgradnjo, spreminjanje in urejanje slik. Ko zaženemo prompt, se prikažeta dva niza štirih gumbov, in sicer U1, U2, U3 in U4, ki zvišajo ločljivost želene slike, ter V1, V2, V3 in V4, ki ponovno zaženejo prompt in generirajo dodatne štiri različice želene slike.

Ko s katerimkoli od gumbov U povečate sliko, ji lahko še dodatno spremenite velikost na nežni ali malce konkretnejši način. Nežni sliko dejansko le poveča, konkretnejši pa jo hkrati tudi malce spremeni. Daleč najuporabnejša funkcija pa je Vary (Region), s katero je mogoče spremeniti posamezne dele slike.

Končna stopnja mesnatega burgerja.

Možnosti je še ogromno, od združevanja likovnih stilov, videza, mešanja dveh slik … Kljub svoji okornosti in robatosti je Midjourney izjemno močno orodje in trenutno tudi vodilno.

Delo z DALL·E 3 je precej enostavnejše, saj ima svoj vmesnik in bolj intuitivne načine izdelave slik. Dosegljiv je prek ChatGPT, kar pomeni, da se ni treba ukvarjati z okornimi prompti kot pri Midjourneyju. V vrstico preprosto vpišete, kaj želite, podobno kot bi fotografu ali ilustratorju povedali, kako mora biti slika videti.

Zadevica OpenAI, podobno kot vsi ostali umetnointeligenčni generatorji slik, »izpljune« štiri predogledne slike uporabnikovih želja.

Nadaljevanje procesa pa je precej bolj … khm … nepredvidljivo kot pri Midjourneyju. Če ste bolj svobodnoumetniški, vas to ne bo motilo in boste Chatu lepo razložili, katera slika vam je všeč. Malce bolj zapleteno pa mu bo pojasniti, kakšne spremembe naj naredi in kje na sliki. Težava je tudi, da želenega dela slike ni mogoče označiti in ga zato tudi ni moč prositi za še nekaj različic.

Izdelana slika je lahko velika največ 1.792 x 1.024, če je razmerje 1 : 1, pa le 1.024 x 1.024, kar je za resno (profesionalno) uporabo precej skromno. Dodatna težava Dalija je tudi tisti nezgrešljivi občutek, da je zadeva izdelana z umetnim razumom. Slike so ali premehke ali pa imajo nekako naključno teksturo, ki spominja na človeško kožo. Neprijetno.

DALL·E 3 in njegova ogabna kožna tekstura.

V enem od prejšnjih Monitorjev smo se navduševali nad Adobovo nadgradnjo Photoshopa z umetnointeligenčnim modelom Firefly. Integracija je zdaj še izboljšana in rezultati so izjemni.

Daleč najuporabnejša sta Generative fill in Generative expand, ki obstoječi sliki dodata manjkajoče elemente. Z implementacijo Fireflyja sta retuširanje in korekcija fotografij zares, zares enostavna.

Če vam je fotograf poslal sicer precej lepo sliko hamburgerja, ki pa ima precej potlačen »klobuček«, je zadeva sila enostavna.

S katerimkoli od orodij za izbiro območij označite del, ki vas moti, v vrstico Generative fill vpišete želje in voila … Čudež. Zanimivo je tudi to, da z označenim delom določite približno velikost želenega elementa.

Slike generirane z Photoshopovim Fireflyjem lahko brez skrbi uporabljate za vse namene, tudi komercialne. Adobe je Firefly uril s slikami iz svoje, avtorsko urejene knjižnice slik AdobeStock.

Na vlak umetno generiranih slik so skočili tudi nekateri drugi ponudniki knjižnic slik. Eden boljših je Shutterstock, ki v novi različici izriše zares uporabne slike.

V ukazno vrstico, pričakovano, vpišemo vsebino slike, likovni jezik in vse ostalo.

Tudi pri Shutterstocku se ni bati težav z avtorskimi pravicami, saj se je njihov umetni razum učil kar pri njih doma. Edina resna pomanjkljivost je izključno kvadratni format slike.

Dinamika

Kljub obetom se nam pred zaključkom redakcije ni uspelo spustiti po Sori, osupljivi platformi OpenAI za prevod besedila v video. Dočakali nismo niti Adobove nadgradnje Premiera, ki naj bi omogočal podaljšanje (pre)kratkih kadrov z ustvarjanjem nove vsebine pred posnetkom ali po njem. Zadeva je v demo različici videti impresivno in bo, podobno kot pri Photoshopu, resno olajšala delo.

Siceršnji trenutni nabor orodij za generiranje umetnorazumskih animacij je omejen na nekajsekundne manipulacije statičnih slik, čemur težko rečemo »video«.

Morda prednjači Haiper ali pa morda Runway, a so rezultati zares omembe nevredni.

Midjourney

Izdeluje: Midjourney

Model: difuzijski, lastni

Vmesnik: Discord

Cena: Od 10 evrov mesečno.

Za: Visoka ločljivost slik, jasni prompti, dodelava le dela slike, poljubno razmerje slike ...

Proti: Za resno delo boste morali poseči precej globoko v denarnico, delo prek Discorda.

DALL·E 3

Izdeluje: OpenAI

Model: difuzijski, lastni

Vmesnik: Lastni, prek spleta.

Cena: Od 15 evrov mesečno, brezplačno prek nekaterih Microsoftovih izdelkov, ki pa so plačljivi.

Za: Preprost vmesnik, ukazi (pogovori) prek ChatGPT.

Proti: Omejen nadzor, nizka končna ločljivost, samo tri razmerja slike.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Umetna inteligenca | Fotografije in video

Komentirajo lahko le prijavljeni uporabniki