Objavljeno: 28.1.2025 | Monitor Februar 2025

Izvor podatkov za razvijanje umetne inteligence

Pri umetni inteligenci (UI) so najpomembnejši podatki. Za učenje algoritmov, da potem storijo, kar želimo, potrebujemo kupe in kupe podatkov, in kar vnašamo v modele UI, odloča, kaj bodo ti proizvedli.

Melissa Heikkilä in Stephanie Arnett, MIT Technology Review

In ravno v tem se skriva težava: razvijalci in raziskovalci UI pravzaprav ne vedo veliko o virih podatkov, s katerimi si pomagajo. Zbiranje podatkov je negodno v primerjavi z zahtevnim razvijanjem modelov UI. Obsežne podatkovne zbirke pogosto niso opremljene s podrobnostmi, kaj vsebujejo in od kod izvirajo.

Skupina več kot 50 raziskovalcev z univerz in iz panoge, ki se je poimenovala Pobuda za podatkovne vire, se je namenila urediti to pomanjkljivost. Zanimalo jih je preprosto vprašanje, od kod prihajajo podatki za razvoj UI. Preverili so skoraj štiri tisoč javnih podatkovnih zbirk v 600 jezikih, ki so se polnile več kot tri desetletja. Podatki so iz 67 držav, 800 posameznih virov in skoraj 700 organizacij.

Medtem ko se besedila širijo po spletu in jih nadzorujejo številne spletne strani ter platforme, so video podatki izrazito nakopičeni samo na eni platformi – Googlovem Youtubu.

Njihove ugotovitve, ki so jih ekskluzivno posredovali MIT Technology Review, razkrivajo skrb vzbujajoč trend: takšna uporaba podatkov za UI, kot je razširjena danes, bi lahko pripomogla, da bi se moč in vpliv nakopičila v peščici velikih tehnoloških družb.

Na začetku prejšnjega desetletja so si pomagali s podatkovnimi zbirkami iz različnih virov, je pojasnila Shayne Longpre, raziskovalka na massachusetskem tehnološkem inštitutu, ki prav tako sodeluje pri projektu. To niso bili le enciklopedije in splet, temveč tudi prepisi iz parlamenta, pregledi poslovnih izidov, vremenske napovedi … Takrat so podatkovne zbirke za UI iz različnih virov načrtno urejali in pripravljali za posamezne namene, je poudarila Longprejeva.

Nato so leta 2017 izumili pretvornike za podporo jezikovnim modelom in UI je začela delovati učinkoviteje, tem večji so bili modeli in podatkovne zbirke. Danes jih večina sestoji iz neselektivnega nabiranja materiala z interneta. Po letu 2018 je splet prevladujoči vir podatkovnih zbirk različnih medijev, tako zvočnih kot slikovnih posnetkov in fotografij. Nastal je razkorak med nakopičenimi podatki in skrbneje urejenimi zbirkami, ki postaja vse očitnejši.

»Pri razvoju temeljnih modelov sta za zmogljivost očitno ključna obseg in raznolikost podatkov ter spleta,« je nadaljevala Longprejeva. Potrebni obseg je hkrati pripomogel k množični uporabi umetno ustvarjenih podatkov.

V preteklih letih so se razširili večnačinovni generativni modeli UI, ki lahko ustvarjajo posnetke in podobe. Ti tako kot veliki jezikovni modeli potrebujejo čim več podatkov in najboljši vir zanje je postal Youtube.

Več kot sedem desetin podatkov tako za jezikovne kot slikovne podatkovne zbirke, ob pomoči katerih ustvarjajo posnetke, izvira iz enega vira.

To bi lahko blagodejno vplivalo na Googlovo matično podjetje Alphabet, ki je lastnik Youtuba. Medtem ko se besedila širijo po spletu in jih nadzorujejo številne spletne strani ter platforme, so video podatki izrazito nakopičeni samo na eni platformi.

»To pomeni tudi, da je eno podjetje prevzelo nadzor nad veliko najpomembnejšimi podatki,« je povedala Longprejeva.

In ker Google prav tako razvija svoje modele UI, se ob njegovi tako očitni prednosti pojavljajo tudi vprašanja, kako bo dostop do teh podatkov omogočil tudi tekmecem, je pojasnila Sarah Myers West, sodirektorica inštituta AI Now.

»Na podatke ne smemo gledati kot na nekakšen naravni vir, temveč kot na nekaj, kar nastane s točno določenimi postopki,« je izpostavila Myers Westova.

»Če podatki, na katerih temelji večina UI, s katero delamo, izraža namere in ustroj velikih, po dobičku hlepečih družb, to spreminja infrastrukturo našega sveta po meri njihovih interesov,« je povedala.

Takšna monokultura tudi odpira vprašanja, kako natančno so človekove izkušnje prikazane v podatkovnih zbirkah in kakšne modele razvijamo, je dodala Sara Hooker, namestnica direktorja raziskav v tehnološki družbi Cohere, ki prav tako sodeluje v Pobudi za podatkovne vire.

Ljudje na kanal Youtube posnetke nalagajo za točno določeno občinstvo in nastop sodelujočih na posnetku ima pogosto neki cilj. »Ali podatki zajemajo vse nianse človeštva in vse oblike našega obstoja?« se sprašuje Hookerjeva.

Skrite omejitve

Podjetja za razvoj UI običajno ne objavljajo, s kakšnimi podatki učijo svoje modele. Eden od razlogov je, da želijo ohraniti konkurenčno prednost, drugi pa, da najbrž niti sama ne vedo, od kod vsi podatki, saj zbirke nastajajo zapleteno in ne ravno pregledno.

Poleg tega najbrž nimajo popolnih navodil o omejitvah uporabe in delitve podatkov. Raziskovalci iz Pobude za podatkovne vire so ugotovili, da za podatkovne zbirke veljajo omejene licence oziroma pogoji uporabe, zaradi česar jih ne bi smeli po mili volji uporabljati v komercialne namene.

»Premajhna doslednost v vsej verigi postopkov, v katerih uporabljajo podatkovne zbirke, razvijalcem otežuje presojo, katere podatke naj uporabijo,« je povedala Hookerjeva.

Skoraj nemogoče je tudi zagotoviti, da za učenje modelov niso uporabljali avtorsko zaščitenih podatkov, je dodala Longprejeva.

Več kot 90 odstotkov podatkovnih zbirk, ki so jih raziskovalci analizirali, je izviralo iz Evrope in Severne Amerike, manj kot štiri odstotke jih je bilo iz Afrike.

Podjetja, kot sta OpenAI in Google, v zadnjem času sklepajo ekskluzivne dogovore o delitvi podatkov z založniki, velikimi forumi, kot je Reddit, in družbenimi omrežji. A to je le še ena metoda za kopičenje njihovega vpliva.

»Te ekskluzivne pogodbe bi splet lahko razdelile na različna območja z različno omejenim dostopom,« se boji Longprejeva.

Takšen trend koristi največjim igralcem v panogi UI, ki si takšne pogodbe lahko privoščijo, in škodi raziskovalcem, neprofitnim organizacijam in manjšim podjetjem, ki se morajo boriti za dostop do podatkov. Največje družbe imajo tudi največ sredstev za pridobivanje podatkov iz nespletnih virov.

»To predstavlja nov val neenakega dostopa v takšnem obsegu, kot ga na odprtem spletu še nismo doživeli,« je poudarila Longprejeva.

Zahod in vsi ostali

Podatki za učenje modelov UI vključujejo nesorazmerno veliko gradiva iz zahodnega sveta – več kot 90 odstotkov podatkovnih zbirk, ki so jih raziskovalci analizirali, je izviralo iz Evrope in Severne Amerike, manj kot štiri odstotke jih je bilo iz Afrike.

»Ti podatki zato govorijo le o enem delu sveta in naši kulturi, druge pa popolnoma zanemarijo,« se pritožuje Hookerjeva.

Prevlado angleškega jezika v podatkih za učenje lahko delno pojasnimo s tem, da je na spletu še vedno več kot devet desetin vsebine v angleščini, poleg tega je na Zemlji še vedno veliko krajev z zelo slabimi internetnimi povezavami, je opozorila Giada Pistilli, glavna etičarka v skupnosti Hugging Face, ki pa ni sodelovala v raziskovalni ekipi. Drugi razlog je prikladnost, je dodala. Za sestavljanje podatkovnih zbirk v drugih jezikih in upoštevanje drugih kultur se je treba zavestno odločiti in v to vložiti veliko truda.

Prevlada Zahoda v teh zbirkah je še posebej očitna pri večnačinovnih modelih. Ko model UI prosimo za podobe in zvoke poroke, bo mogoče znal prikazati le zahodne poroke, saj mu drugačnih niso predstavili, je pojasnila Hookerjeva.

To samo še povečuje pristranskost in bi lahko povzročilo razvoj modelov UI, ki bi širili ameriško obarvani svetovni nazor, mogoče pa tudi umiranje drugih jezikov in kultur.

»Te modele uporabljamo povsod po svetu in obstaja velik razkorak med svetom, ki ga vidimo, in tistim, ki je za modele neviden,« je zaključila Hookerjeva.

Copyright Technology Review, distribucija Tribune Content Agency.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji