Kdo ali kaj so umetnointeligenčni agenti?
Naslednja prelomnica na področju umetne inteligence (UI) bodo umetnointeligenčna orodja, ki zmorejo zahtevnejša opravila. Kako bodo delovala?
Melissa Heikkilä, MIT Technology Review
Ko so širši javnosti predstavili ChatGPT, so vsi strokovnjaki za umetno inteligenco govorili o novi generaciji umetnointeligenčnih asistentov. A v zadnjem letu se je njihovo navdušenje preusmerilo na drugo novost, to so umetnointeligenčni agenti.
Ti so igrali osrednjo vlogo tudi na Googlovi letni konferenci I/O v maju, na kateri je podjetje predstavilo Astro, agenta, s katerim lahko uporabniki vzajemno delujejo prek zvoka in posnetkov. Tudi novi model GPT-4o podjetja OpenAI sodi med umetnointeligenčne agente.
Ne gre le za velik medijski pomp, tehnološka podjetja namreč v razvoj agentov vlagajo ogromne vsote. Z njihovimi raziskavami bi lahko dobili tako uporabno UI, o kateri že desetletja sanjamo.
A kaj so umetnointeligenčni agenti in za kaj jih lahko uporabljamo?
Raziskave o teh agentih so se šele začele in področje še nima dokončne definicije, kaj sploh so. Povedano preprosto, to so modeli in algoritmi UI, zmožni samostojnega sprejemanja odločitev v dinamičnem svetu, je pojasnil Jim Fan, raziskovalec v Nvidii in vodja tega področja v podjetju.
Če se bodo uresničile veličastne vizije o umetnointeligenčnih agentih, bomo dobili sistem, ki bo lahko opravljal številne naloge, podobno kot človeški asistent. V prihodnosti bi nam lahko pomagali pri rezervaciji počitnic, med drugim tako, da si bodo zapomnili naše želje in preference, zato bodo predlagali le temu primerne hotele. Ko bomo izbrali iz široke palete možnosti, ki nam jih bo ponudil agent, bo tudi rezerviral sobo in predlagal idealne polete glede na naš koledar. Tudi pot bo načrtoval v skladu z našimi preferencami in jo na željo posredoval prijateljem, ki živijo blizu počitniškega cilja, ter jih povabil na snidenje. Na delovnem mestu bi lahko razčlenil seznam opravil in se nekaterih lotil kar sam, recimo pošiljanja povabil, okrožnic in elektronskih sporočil.
Agente si zamišljajo tudi kot večnačinovne, kar pomeni, da bodo zmožni obdelovati jezik, zvok in posnetke. Pri prikazu Googlove Astre so uporabniki s kamero na pametnem telefonu pokazali na neki predmet in agentu postavljali vprašanja, ta pa se je odzival na besedilne, slikovne in zvočne vhodne podatke.
Programski agenti delujejo na računalnikih in mobilnikih, uporabljajo pa aplikacije. Utelešeni agenti delujejo v tridimenzionalnem okolju, na primer v videoigrah in robotih.
Nove naprave bi delo lahko olajšale tako podjetjem kot javnim ustanovam, je prepričan David Barber, direktor Središča za UI, ki deluje v okviru londonskega univerzitetnega kolidža. Agent bi lahko deloval kot naprednejši robot za storitve za stranke. Trenutna generacija asistentov na temelju jezikovnega modela lahko izbere le naslednjo verjetno besedo v stavku, umetnointeligenčni agent pa bi se lahko avtonomno odzival na navodila v naravnem jeziku in brez nadzora opravljal storitve za stranke. Analiziral bi lahko pritožbene dopise stranke in znal preveriti njeno številko, dostopal do podatkovnih zbirk, na primer do zbirke o upravljanju stikov s strankami in sistemov dostave, da bi preveril, ali je pritožba upravičena, in jo nato obdelal v skladu s politiko podjetja, je razložil Barber.
Na splošno agente lahko razdelimo na dve skupini, je pojasnil Fan, in sicer na programske in utelešene.
Programski agenti delujejo na računalnikih in mobilnikih, uporabljajo pa aplikacije. Primer tega bi bil že opisani potovalni agent. »Zelo uporabni so za pisarniško delo, pošiljanje elektronskih sporočil in sosledja opravil,« je povedal.
Utelešeni agenti delujejo v tridimenzionalnem okolju, na primer v videoigrah in robotih. Zaradi njih bi bile videoigre privlačnejše, saj bi uporabniki lahko sodelovali kot neigralski liki, ki jih sicer upravlja UI. Iz njih bi lahko razvili uporabnejše robote, ki bi pomagali pri vsakodnevnih domačih opravilih, na primer zlaganju perila in kuhanju.
Fan je sodeloval v ekipi, ki je razvila utelešenega agenta z imenom MineDojo v priljubljeni računalniški igri Minecraft. Zaradi prave zakladnice podatkov, zbranih na spletu, se je Fanov agent lahko naučil novih veščin in nalog, da je prosto raziskoval virtualni tridimenzionalni svet in opravil zapletene naloge, na primer, da je lame obdal z ograjo in pobiral lavo z vedri. Videoigre so dober nadomestek resničnega sveta, saj mora agent v njih razumeti fizične zakone, logično sklepati in uporabljati zdravo pamet.
»Če vzajemno delujete s programsko opremo, ki vam zbuja občutek, da je brihtna, potem je to že neke vrste agent.«
V novejši, še nerecenzirani razpravi raziskovalci s Princetona ugotavljajo, da imajo umetnointeligenčni agenti tri značilnosti. Sistemi UI veljajo za 'agentske', če lahko brez navodil opravijo zahtevno nalogo oziroma dosežejo cilj v kompleksnem okolju. Ta oznaka velja tudi, če jim je napotke mogoče dati v naravnem jeziku in delujejo avtonomno brez nadzora. In nenazadnje so agenti tudi sistemi, zmožni uporabljati orodja, kot je spletno iskanje ali programiranje, oziroma so zmožni načrtovanja.
So nekaj novega?
Fan omenja dva vala agentov in trenutni je plod razcveta jezikovnih modelov in pohoda sistemov, kot je ChatGPT. Prejšnji val pa se je dvignil leta 2016, ko je Googlov DeepMind predstavil AlphaGo, umetnointeligenčni sistem, ki zna igrati – in dobiti – igro go. AlphaGo je zmožen odločanja in načrtovanja strategij, vse to pa na temelju spodbujevalnega učenja, tehnike, ki algoritme UI nagradi za zaželene vedenjske vzorce.
»A to niso splošni agenti,« je poudaril Oriol Vinyals, namestnik direktorja raziskav v DeepMindu. Razvili so jih za posebne naloge, se pravi za igro go. Nova generacija UI omogoča univerzalnejše agente, ki se lahko učijo iz sveta, kot ga vidi človek.
»Občutek, da je model povezan s svetom, je veliko izrazitejši in model tudi ponuja boljše odgovore, učinkovitejšo pomoč in tako naprej,« je dodal Vinyals.
Katere pa so omejitve?
Ostaja še veliko odprtih vprašanj. Kanjun Qui, direktorica in ustanoviteljica zagonskega podjetja Imbue za razvijanje agentov, ki logično razmišljajo in kodirajo, stanje v tem segmentu UI primerja s samovozečimi avtomobili pred dobrim desetletjem. Marsikaj zmorejo, vendar niso zanesljivi in še vedno ne dejansko samostojni. Agent za računalniško kodiranje zmore napisati kod, vendar se včasih zmoti in svojega izdelka ne zna preizkusiti, je pojasnila Quijeva. Ljudje torej morajo še vedno dejavno sodelovati pri postopku. Sistemi UI še vedno ne znajo popolnoma logično razmišljati, kar pa je ključno za delovanje v zapletenem in dvoumnem človeškem svetu.
Stanje v tem segmentu UI je primerljivo s samovozečimi avtomobili pred dobrim desetletjem. Marsikaj zmorejo, vendar niso zanesljivi in še vedno ne dejansko samostojni.
»Še vedno smo daleč od agenta, ki bi samodejno opravil vse te naloge namesto nas,« je poudaril Fan. Trenutni sistemi halucinirajo in ne sledijo vedno natančno navodilom, kar je nadležno.
Uporabnost omejuje tudi to, da ti agenti čez nekaj časa 'pozabijo', kaj sploh počnejo. Sistemi UI imajo svoje okvirje konteksta, s čimer je omejena količina podatkov, ki jih lahko upoštevajo. »ChatGPT lahko spiše program, ne zmore pa dobro predelati obsežne vsebine. Človeški razvijalci pa nimajo težav s skakanjem po deset, tudi sto tisoč vrsticah računalniškega koda,« je težavo ponazoril Fan.
Google se je reševanja te težave lotil s povečanjem zmogljivosti svojega modela, tako da zmore obdelati več podatkov in si zapomniti več preteklih dejanj, zato uporabnik lahko z njimi dela dlje časa. Poleg tega so raziskovalci šele začeli izkoriščati moč fundacijskih modelov v robotiki.
Ob vsem tem pompu in navdušenju ne smemo pozabiti, da so raziskave o umetnointeligenčnih agentih šele na začetku in najbrž bodo minila leta, preden bomo razkrili ves njihov potencial.
Zveni obetavno. Je preizkus takšnega agenta že mogoč? Po svoje. Prav mogoče je, da ste že preizkusili prve prototipe, kot sta ChatGPT in GPT-4 podjetja OpenAI. »Če vzajemno delujete s programsko opremo, ki vam zbuja občutek, da je brihtna, potem je to že neke vrste agent,« je pojasnila Quijeva.
Trenutno so najboljši agenti sistemi za zelo ozko in specializirano uporabo, recimo asistenti pri pisanju računalniškega koda, roboti za stike s strankami in programska oprema za avtomatizacijo poslovnih opravil, kot je Zapier, je dodala. Vendar je to le bleda senca vsestransko uporabnega umetnointeligenčnega agenta, zmožnega zahtevnejših nalog.
»Danes imamo zelo zmogljive računalnike, vendar jih moramo mikroupravljati,« je še razložila. Nekega dne bodo ti sistemi spremenili našo interakcijo s tehnologijo in temu trendu je treba posvetiti vso pozornost. »Ne bo se zgodilo, da bomo lepega dne dobili splošno UI, temveč bomo opazili, da računalnik zmore precej več kot pred petimi leti,« je nadaljevala.
Copyright 2024 Technology Review, distribucija Tribune Content Agency.