Tekma robotov
Odkar poznamo ChatGPT, je interakcija z orodji umetne inteligence bolj neposredna kot kadarkoli prej. Nasprotno pa je delo z roboti za večino še vedno redkost.
James O'Donnell, MIT Technology Review
Če ne opravljate zahtevnih operacij ali ne delate v logistiki, je najnaprednejši robot, s katerim se srečujete v vsakdanjem življenju, morda še vedno sesalnik. Mimogrede, če se počutite mladi – prva roomba je bila predstavljena pred 22 leti.
Toda to se bo kmalu spremenilo. Robotiki verjamejo, da bodo z novimi tehnikami umetne inteligence dosegli nekaj, po čemer stroka hrepeni že desetletja: zmogljivejše robote, ki se bodo lahko prosto gibali v neznanih okoljih in se soočali z izzivi, s katerimi se še niso srečali.
»To je, kot da bi bili pripeti na sprednji del rakete,« pravi Russ Tedrake, podpredsednik raziskovalnega oddelka za robotiko pri Toyotinem raziskovalnem inštitutu, o trenutnem tempu na tem področju. Tedrake dodaja, da je videl že veliko ciklov vzpona in padca, vendar nobenega takšnega, kot je ta. »Na tem področju sem že 20 let in trdim, to je drugačno,« pravi.
Vendar pa to raketo nekaj upočasnjuje, in to je pomanjkanje dostopa do vrste podatkov, ki se uporabljajo za usposabljanje robotov, da bi lahko bolje sodelovali s fizičnim svetom. Te je veliko težje dobiti kot podatke, ki se uporabljajo za usposabljanje najnaprednejših modelov umetne inteligence, kot je GPT – tu gre večinoma za besedila, slike in videoposnetke, ki so nastrgani s spleta. Robotom pri učenju interakcije s kraji in predmeti lahko pomagajo simulacijski programi, vendar so rezultati še vedno pogosto žrtev tako imenovanega razkoraka med simulacijo in resničnostjo ali napak, ki se pojavijo, ko roboti preidejo iz simulacije v resnični svet.
Za zdaj za usposabljanje robotov še vedno potrebujemo dostop do fizičnih podatkov iz resničnega sveta. Teh je razmeroma malo, njihovo zbiranje pa zahteva veliko več časa, truda in drage opreme. To pomanjkanje je ena glavnih stvari, ki trenutno zavirajo napredek na področju robotike.
Vodilna podjetja in laboratoriji zato ostro tekmujejo v iskanju novih in boljših načinov zbiranja tovrstnih podatkov. To jih je pripeljalo na nenavadne poti, kot so uporaba robotskih rok za večurno obračanje palačink, gledanje več tisoč ur grafičnih videoposnetkov opravil, prenesenih z Youtuba, ali napotitev raziskovalcev v stanovanja Airbnb, kjer posnamejo vsak kotiček. Na tej poti se srečujejo z enakimi vprašanji zasebnosti, etike in avtorskih pravic kot njihovi kolegi v svetu klepetalnih robotov.
Nova potreba po podatkih
Robote so desetletja usposabljali za specifične naloge, kot je pobiranje teniške žogice ali delanje salta. Medtem ko se ljudje o fizičnem svetu učijo z opazovanjem ter s poskusi in z napakami, so se številni roboti učili ob pomoči enačb in kode. Ta metoda je bila počasna, še huje pa je bilo, da naučene spretnosti niso mogli prenesti s prvotne naloge na novo.
Zdaj pa napredek umetne inteligence pospešuje premik, ki se je že začel: robotom omogoča, da se učijo sami, ob pomoči podatkov. Tako kot se lahko jezikovni model uči iz knjižnice romanov, lahko modelom robotov prikažemo nekaj sto prikazov osebe, ki z robotskimi prijemali pomiva kečap s krožnika, ti pa nato posnemajo nalogo. Ne da bi jih izrecno učili, kako je videti kečap ali kako se odpre pipa. Ta pristop prinaša hitrejši napredek in stroje z veliko bolj splošnimi zmogljivostmi.
Vsa vodilna podjetja in laboratoriji si prizadevajo, da bi roboti z umetno inteligenco razumno opravljali nove naloge. Uspeh bo odvisen od tega, ali bodo raziskovalci našli dovolj različnih vrst podatkov za natančne modele, namenjene robotom, pa tudi od novih načinov uporabe okrepljenega učenja, da bodo roboti vedeli, kdaj imajo prav in kdaj ne.
»Veliko znanstvenikov se trudi ugotoviti, kaj je naslednji veliki vir podatkov,« pravi Pras Velagapudi, glavni tehnološki direktor podjetja Agility Robotics. To izdeluje humanoidnega robota, ki deluje v skladiščih za stranke (tudi v Amazonu). Odgovori na Velagapudijevo vprašanje bodo pomagali opredeliti, v čem bodo stroji prihodnosti odlični in kakšne vloge bodo imeli v naših domovih ter na delovnih mestih.
Osnovni podatki za usposabljanje
Če želite razumeti, kako robotiki kupujejo podatke, si predstavljajte mesnico. V njej so vrhunski, dragi kosi mesa, ki so pripravljeni za peko. Ob njih so tudi skromni, 'vsakdanji' kosi. In potem so tam še obrezki in odrezki, ki se skrivajo v ozadju in zahtevajo ustvarjalnega kuharja, da bi iz njih naredil nekaj okusnega. Vsi so uporabni, vendar niso vsi enaki.
Če želite okusiti, kako so videti najboljši podatki za robote, si oglejte metode, ki jih uporablja Toyotin raziskovalni inštitut (TRI). Raziskovalci v obsežnem laboratoriju v Cambridgeu, Massachusetts, opremljenem z robotskimi rokami, računalniki in naključno izbranimi vsakdanjimi predmeti, kot so posode za prah in metlice za jajca, učijo robote novih nalog ob pomoči teleoperacij in ustvarjajo tako imenovane demonstracijske podatke.
V Toyotinem raziskovalnem inštitutu opremljenem z robotskimi rokami, računalniki in naključno izbranimi vsakdanjimi predmeti, kot so posode za prah in metlice za jajca, učijo robote novih nalog ob pomoči teleoperacij.
Človek lahko z robotsko roko v enem popoldnevu 300-krat obrne palačinko, model čez noč te podatke obdela, nato pa lahko robot naslednje jutro samostojno opravi nalogo, pravi TRI. Ker demonstracije prikazujejo številne ponovitve iste naloge, teleoperacija ustvarja bogate, natančno označene podatke, ki robotom pomagajo pri dobrem izvajanju novih nalog.
Težava je v tem, da je ustvarjanje takšnih podatkov dolgotrajno, poleg tega pa je omejeno s številom dragih robotov, ki si jih je mogoče privoščiti. Za cenejše in učinkovitejše ustvarjanje kakovostnih podatkov za usposabljanje je Shuran Song, vodja laboratorija za robotiko in utelešeno umetno inteligenco na univerzi Stanford, zasnoval napravo, ki jo je mogoče uporabljati kar z rokami in je veliko cenejša. V bistvu gre za lahek plastični prijemalnik, ki lahko zbira podatke, medtem ko ga uporabljate za vsakodnevne dejavnosti, kot je razbijanje jajca ali postavljanje mize. Podatki se lahko nato uporabijo za usposabljanje robotov za posnemanje teh opravil. Uporaba enostavnejših naprav, kot je ta, bi lahko pospešila postopek zbiranja podatkov.
Odprtokodna prizadevanja
Robotiki so pred kratkim odkrili še eno metodo za pridobivanje več podatkov o teleoperacijah: zbrane podatke delijo drug z drugim in si tako prihranijo naporen postopek samostojnega ustvarjanja podatkovnih nizov.
Podatkovno zbirko DROID (Distributed Robot Interaction Dataset), ki je bila objavljena nedavno, so ustvarili raziskovalci iz 13 ustanov, med katerimi so podjetja, kot je Google DeepMind, in vrhunske univerze, kot sta Stanford in Carnegie Mellon. Vsebuje 350 ur podatkov, ki so jih ustvarili ljudje pri opravljanju različnih nalog, od zapiranja aparata za izdelavo vafljev do čiščenja mize. Ker so bili zbrani s strojno opremo, ki je običajna v svetu robotike, jih lahko raziskovalci uporabijo za ustvarjanje modelov umetne inteligence in nato te preizkusijo na opremi, ki jo že imajo.
Prizadevanja temeljijo na uspehu projekta Open X-Embodiment Collaboration, podobnega projekta podjetja Google DeepMind, ki je zbral podatke o 527 spretnostih, zbranih z različnimi vrstami strojne opreme. Zbirka podatkov je pomagala zgraditi model RT-X podjetja Google DeepMind, ki lahko besedilna navodila, kot je, 'Premakni jabolko na levo od pločevinke s sodo', pretvori v fizične gibe.
Modeli robotike, ki temeljijo na takšnih odprtokodnih podatkih, so lahko impresivni, pravi Lerrel Pinto, raziskovalec, ki vodi laboratorij za splošno namensko robotiko in umetno inteligenco na Univerzi New York, vendar ne morejo biti dovolj uspešni v širokem razponu primerov uporabe, da bi lahko konkurirali lastniškim modelom, ki so jih izdelala vodilna zasebna podjetja. To, kar je na voljo prek odprte kode, preprosto ne zadošča, da bi lahko laboratoriji uspešno zgradili modele v obsegu, ki bi omogočil izdelavo zlatega standarda – robotov, ki imajo splošne zmogljivosti in lahko sprejemajo navodila prek besedila, slike in videa.
»Največja omejitev so podatki,« pravi. Le bogata podjetja jih imajo dovolj.
Podatkovna prednost teh podjetij se sčasoma le še bolj utrjuje. Zasebna podjetja za robotiko z velikim številom strank imajo v svojem prizadevanju za več podatkov za usposabljanje ne tako zelo skrivno orožje – njihovi roboti so hkrati tudi stroji za nenehno zbiranje podatkov.
Podjetje Covariant, ki so ga leta 2017 ustanovili raziskovalci OpenAI za podjetja, kot sta Crate & Barrel in Bonprix, razpolaga z roboti, usposobljenimi za prepoznavanje in pobiranje predmetov v skladiščih. Ti stroji nenehno zbirajo posnetke, ki jih nato pošljejo podjetju Covariant. Denimo, vsakič ko robot ne pobere stekleničke šampona, to postane podatkovna točka, iz katere se uči, model pa njegove sposobnosti pobiranja šampona izboljša do naslednjič. Rezultat je obsežen, lastniški nabor podatkov.
Ta nabor podatkov je eden od razlogov, da je Covariant v začetku tega leta lahko izdal zmogljiv temeljni model, kot so poimenovani modeli umetne inteligence, ki so sposobni različnih uporab. Stranke lahko zdaj z njegovimi komercialnimi roboti komunicirajo podobno, kot bi se pogovarjale s klepetalnim robotom: lahko mu postavljajo vprašanja, prikazujejo fotografije in mu naročijo, naj posnema video prestavljanja predmeta iz enega zaboja v drugega. Te interakcije strank z modelom, ki se imenuje RFM-1, nato zagotavljajo še več podatkov, ki mu pomagajo pri izboljševanju delovanja.
Peter Chen, soustanovitelj in izvršni direktor podjetja Covariant, pravi, da je izpostavljanje robotov številnim različnim predmetom in okoljem ključnega pomena za uspeh modela. »Naši roboti obdelujejo oblačila, farmacevtske izdelke, kozmetiko in sveža živila,« pravi. »To je ena od edinstvenih prednosti našega nabora podatkov.« Naslednja naloga bo vključitev flote robotov v še več sektorjev in celo to, da bo model umetne inteligence poganjal različne vrste robotov, kot so humanoidi, pravi Chen.
Učenje iz videoposnetkov
Zaradi pomanjkanja visokokakovostnih podatkov o zahtevani teleoperaciji in resničnem svetu so nekateri robotiki predlagali, da bi se ta metoda zbiranja podatkov v celoti zaobšla. Kaj, če bi se roboti lahko učili že iz videoposnetkov ljudi?
Takšne podatke je lažje pripraviti, vendar v nasprotju s podatki teleoperacijie nimajo 'kinematičnih' podatkovnih točk, ki natančno prikazujejo gibanje robotske roke med njenim premikanjem v prostoru.
Raziskovalci z Univerze v Washingtonu in družbe Nvidia so ustvarili tako rešitev in izdelali mobilno aplikacijo, ki ljudem omogoča usposabljanje robotov ob pomoči obogatene resničnosti. Uporabniki posnamejo videoposnetke, na katerih z rokami opravljajo preprosta opravila, kot je dvigovanje vrča, program za razširjeno resničnost pa lahko rezultate prevede v točke poti, iz katerih se uči programska oprema za robotiko.
AR2-D2 je ogrodje za zbiranje demonstracij robotov v obliki aplikacije za iOS, ki jo lahko ljudje uporabijo za projiciranje robota AR v fizični svet in snemanje videoposnetka sebe, kako manipulirajo s katerim koli predmetom.
Tudi Meta AI si prizadeva za podobno metodo zbiranja podatkov s projektom Ego4D. Ta vsebuje več kot 3.700 ur videoposnetkov, ki so jih posneli ljudje z vsega sveta pri različnih opravilih – od polaganja opeke, igranja košarke do gnetenja testa za kruh. Nabor podatkov je razdeljen po opravilih in vsebuje na tisoče opomb, ki podrobno opisujejo dogajanje v vsakem prizoru, na primer, kdaj je bil z vrta odstranjen plevel ali trenutek, ko je kos lesa popolnoma pobrušen.
Metin Ego4D vsebuje več kot 3.700 ur videoposnetkov, ki so jih posneli ljudje z vsega sveta pri različnih opravilih.
Učenje na podlagi videopodatkov pomeni, da lahko roboti opravljajo veliko več različnih nalog, kot če bi se zanašali le na človeško teleoperacijo (predstavljajte si, da z robotskimi rokami mesite testo za rogljičke). To je pomembno, saj tako kot zmogljivi jezikovni modeli za učenje potrebujejo kompleksne in raznolike podatke, lahko robotiki ustvarijo svoje zmogljive modele le, če robote izpostavijo tisočerim nalogam.
Nekateri raziskovalci zato poskušajo iz obsežnega vira številnih, a nekakovostnih podatkov izluščiti koristne ugotovitve; uporabljajo Youtube. Ker je nanj vsako minuto naloženih na tisoče ur videov, razpoložljive vsebine ne manjka. Težava je v tem, da je večina teh posnetkov za robote precej neuporabna, in sicer zato, ker ni označena z vrstami informacij, ki jih roboti potrebujejo, kot so anotacije ali kinematični podatki.
»Robotu lahko rečete: 'To je oseba, ki igra frizbi s svojim psom,'« pravi Chen iz podjetja Covariant in si predstavlja tipičen videoposnetek, ki bi ga lahko našli na Youtubu. »Zelo težko pa je reči: 'Ko ta oseba vrže frizbi, sta to pospešek in rotacija, zato leti na ta način.'«
Kljub temu se je nekaj poskusov izkazalo za obetavne. Raziskovalec umetne inteligence Emmett Goodman je v času svojega podoktorskega študija na Stanfordu preučeval, kako bi lahko umetno inteligenco uvedli v operacijsko dvorano, da bi operacije postale varnejše in predvidljivejše. Pomanjkanje podatkov je hitro postalo ovira. Pri laparoskopskih operacijah kirurgi pogosto uporabljajo robotske roke za upravljanje kirurških orodij, vstavljenih skozi zelo majhne reze v telo. Te robotske roke imajo kamere, ki zajemajo posnetke, ti pa lahko pomagajo pri usposabljanju modelov. Pri bolj klasičnih, 'odprtih', operacijah pa kirurgi namesto robotskih rok uporabljajo svoje, s katerimi se pridobi veliko manj podatkov za oblikovanje modelov umetne inteligence.
»To je glavna ovira, zakaj se umetna inteligenca za odprto kirurgijo razvija najpočasneje,« pravi. »Kako dejansko zbrati te podatke?«
Goodman je za reševanje te težave usposobil model umetne inteligence na več tisoč urah videoposnetkov odprtih operacij, ki so jih zdravniki posneli z ročnimi ali s stropnimi kamerami in jih je njegova ekipa zbrala na portalu Youtube (z odstranjenimi podatki, ki omogočajo identifikacijo). Njegov model, opisan v članku v medicinski reviji JAMA decembra 2023, je nato iz videoposnetkov prepoznal segmente operacij. S tem so bili postavljeni temelji za ustvarjanje uporabnih podatkov za usposabljanje, čeprav Goodman priznava, da ovire v veliki meri še ostajajo, denimo zasebnost bolnikov in informirano soglasje.
Neizčrpane pravne vode
Obstaja verjetnost, da se bodo morali robotiki, ne glede na to, kje bodo iskali nove zaloge podatkov za usposabljanje, na neki točki spopasti z nekaterimi pomembnimi pravnimi bitkami.
Ustvarjalci velikih jezikovnih modelov se morajo že zdaj spopadati z vprašanji avtorskih pravic. V tožbi, ki jo je vložil New York Times, ta trdi, da ChatGPT pri ustvarjanju besedila kopira izrazni slog njegovih zgodb. Tehnična direktorica podjetja OpenAI se je nedavno znašla na naslovnicah časopisov, ko je izjavila, da je bilo orodje Sora za generiranje videoposnetkov tega podjetja usposobljeno na javno dostopnih podatkih, kar je sprožilo kritiko izvršnega direktorja Youtuba, ki je dejal, če se Sora uči iz videoposnetkov Youtuba, to pomeni kršitev pogojev storitve platforme. Opomba – Google je na področju umetne inteligence glavni konkurent podjetju OpenAI.
»Gre za področje, na katerem obstaja precejšnja pravna negotovost,« pravi Frank Pasquale, profesor na pravni fakulteti Cornell. Če se želijo podjetja za robotiko pridružiti drugim podjetjem za umetno inteligenco in v svojih učnih nizih uporabiti avtorsko zaščitena dela, ni jasno, ali je to v skladu z doktrino poštene uporabe, ki dovoljuje uporabo avtorsko zaščitenega gradiva brez dovoljenja v ozkem naboru okoliščin. Primer, ki ga pogosto navajajo tehnološka podjetja in tisti, ki so jim naklonjeni, je primer Google Books iz leta 2015, v katerem so sodišča ugotovila, da Google ni kršil zakonov o avtorskih pravicah, ko je ustvaril podatkovno zbirko milijonov knjig z možnostjo iskanja. Ta pravni precedens lahko nekoliko prevesi tehtnico v korist tehnoloških podjetij, pravi Pasquale.
O tem, ali bodo pravni izzivi upočasnili raketo robotike, je še veliko prezgodaj govoriti, saj je primerov, povezanih z umetno inteligenco, veliko in o njih še vedno ni odločeno. Lahko pa rečemo, da bodo robotiki, ki iščejo podatke za usposabljanje na Youtubu ali pri drugih spletnih video virih, zašli v precej neznane vode.
Naslednje obdobje
In vendar vsi robotiki ne delijo mnenja, da so ravno podatki manjkajoči člen za naslednji preboj. Nekateri trdijo, če ustvarimo dovolj dober navidezni svet, v katerem se bodo roboti lahko učili, morda sploh ne bomo potrebovali učnih podatkov iz resničnega sveta. Zakaj bi se trudili z usposabljanjem robota za obračanje palačink v pravi kuhinji, če se lahko uči z digitalno simulacijo restavracije Waffle House?
Robotiki že dolgo uporabljajo simulacijske programe, ki digitalno posnemajo okolja, po katerih se gibljejo roboti, pogosto do podrobnosti, kot je tekstura talnih oblog ali senc, ki jih mečejo stropne luči. Vendar so morali robotiki, ki so te programe uporabljali za urjenje strojev, pri svojem delu vedno zaobiti razkorak med simulacijo in resničnostjo, čeprav so bili ti programi zelo zmogljivi.
Zdaj se ta razlika morda zmanjšuje. Napredne tehnike ustvarjanja slik in hitrejša obdelava omogočajo, da so simulacije bolj podobne resničnemu svetu. Družba Nvidia, ki je svoje izkušnje na področju grafike za videoigre uporabila pri izdelavi vodilnega simulatorja za robotiko, imenovanega Isaac Sim, je nedavno objavila, da vodilna podjetja za humanoidno robotiko, kot sta Figure in Agility, uporabljajo njen program za izdelavo temeljnih modelov. Ta podjetja v simulatorju izdelajo virtualne replike svojih robotov, nato pa jih spustijo v raziskovanje različnih novih okolij in nalog.
Deepu Talla, podpredsednik za robotiko in robno računalništvo pri družbi Nvidia, meni, da bo ta način usposabljanja skoraj nadomestil usposabljanje robotov v resničnem svetu. Pravi, da je preprosto veliko cenejši.
»To bo milijon proti ena, če ne še več, v smislu, koliko stvari bo narejenih v simulaciji,« pravi. »Ker si to lahko privoščimo.«
Toda če lahko modeli rešijo nekatere 'kognitivne' probleme, kot je učenje novih nalog, obstaja vrsta izzivov za uresničitev tega uspeha v učinkoviti in varni fizični obliki, pravi Aaron Saunders, glavni tehnološki direktor podjetja Boston Dynamics. Še daleč smo od tega, da bi izdelali strojno opremo, ki bi lahko zaznavala različne vrste materialov, drgnila in čistila ali uporabljala blago silo.
»Še vedno je ogromen del enačbe v tem, kako bomo programirali robote, da bodo dejansko delovali na podlagi vseh teh informacij in sodelovali s svetom,« pravi.
Če bi rešili to težavo, kakšna bi bila robotska prihodnost? Lahko bi videli okretne robote, ki bi pomagali gibalno oviranim osebam pri premikanju po njihovih domovih, avtonomna brezpilotna letala, ki bi čistila onesnaženje ali nevarne odpadke, ali kirurške robote, ki bi naredili mikroskopske reze, kar bi omogočilo operacije z manjšim tveganjem za zaplete. Ob vseh teh optimističnih vizijah pa se že pojavljajo tudi bolj sporne. Vojske po vsem svetu vse pogosteje uporabljajo umetno inteligenco, pojav avtonomnega orožja pa sproža skrb vzbujajoča vprašanja.
Vojske po vsem svetu vse pogosteje uporabljajo umetno inteligenco, pojav avtonomnega orožja pa sproža skrb vzbujajoča vprašanja.
Med laboratoriji in podjetji, ki so pripravljeni prevzeti vodilno vlogo v tekmi za podatke, so trenutno med vlagatelji priljubljeni humanoidni roboti (podjetje Figure AI je nedavno pridobilo 675 milijonov dolarjev), komercialna podjetja z velikimi flotami robotov, ki zbirajo podatke, in podjetja za brezpilotna letala, ki jih spodbujajo velike vojaške naložbe. Medtem pa manjši akademski laboratoriji z manjšim vložkom ustvarjajo več podatkovnih zbirk in so konkurenčne tistim, ki so na voljo velikim tehnološkim podjetjem.
Podjetja za proizvodnjo brezpilotnih letal spodbujajo velike vojaške naložbe.
Vendar je vsem jasno, da smo na samem začetku tekme robotskih podatkov. Ker pravilna pot naprej še zdaleč ni očitna, vsi robotiki, ki so vredni svojega znanja, preizkušajo vse metode in ocenjujejo, kaj se bo obneslo.
Benjamin Burchfiel, višji znanstvenik na področju robotike pri podjetju TRI, pravi, da na tem področju »ni enotnega mnenja«. »In to je zdravo.«
Copyright 2024 Technology Review, distribucija Tribune Content Agency