Objavljeno: 16.2.2024 09:00

OpenAI z generatorjem videa Sora ponovno piše zgodovino

Besedilu sledi slika, sliki sledi video. OpenAI, ki je predlani zatresel svet z generativno umetno inteligenco za besedilo ChatGPT, čemur je sledilo slikanje z DALL E, je storil korak naprej in najavil generator realističnih videoposnetkov Sora. Sodeč po predstavitvi, je za razred boljša od Googlovega Lumierja in podobnih.

Kot so zapisali v OpenAI, ustvarjajo model umetne inteligence, ki razume gibanje in fizični svet. Sora je tako imenovani besedilo-v-video (text-to-video) model. V praksi to pomeni, da videoposnetek ustvari iz opisa oziroma ukaza (prompt). Trenutno je Sora dostopna omejeni skupini ljudi, in sicer razvijalcem ter nekaj oblikovalcem, umetnikom in filmarjem. Ostali se bomo morali zadovoljiti z demo posnetki in tehničnim opisom v obliki članka.

OpenAI napovedal DALL-E 3

Glavni izziv pri ustvarjanju videoposnetkov je permanentnost objektov. Spreminjajo se kadri in perspektive, a predmeti morajo ostati enako veliki. To pomeni, da videoposnetka ne morejo sestavljati poljubne slike v zaporedju, saj bi se v tem primeru objekti deformirali. Sora je difuzni model z razumevanjem časa, zato lahko objekt iz kakšnega kadra tudi izgine in se čez nekaj časa vrne, pa bo še vedno enak.

Zdi se, da svet nikoli več ne bo, kakršen je bil. Čeprav se OpenAI in ostali proizvajalci trudijo ter vgrajujejo elemente za prepoznavanje posnetkov umetne inteligence, se morda bliža čas, ko ne bomo mogli več zaupati posnetkom. Tako kot že danes ne moremo več zaupati besedilu. Čedalje bolj je zaupanja funkcija provenience in ne forme.

Na uradni spletni strani je nekaj odličnih video primerov: Sora

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

OpenAI z generatorjem videa Sora ponovno piše zgodovino

Komentirajo lahko le prijavljeni uporabniki