Cenejša metoda za učenje umetne inteligence
Uporaba algoritmov umetne inteligence je na vrhu seznamov tehnologij, ki jih nameravajo v bližnji prihodnosti uporabiti podjetja, pa čeprav na tem področju primanjkuje znanja, izkušenj, pogosto pa tudi oprijemljivih rezultatov. Težave so zlasti v fazi učenju algoritmov, kar je dolgotrajen, drag in težaven proces, prepogosto prepuščen zgolj intuiciji strokovnjakov.
Raziskovalci družb Microsoft in OpenAI so zato združili moči in razvili novo metodo, ki obeta precej hitrejše, enostavnejše, s tem pa seveda cenejše učenje algoritmov umetne inteligence. Nova metoda se imenuje μTransfer (mu-transfer) in omogoča lažejo nastavitev tako imenovanih hiperparametrov, s katerimi se upravlja algoritme v fazi učenja.
Pri razvoju algoritmov umetne inteligence strokovnjaki porabijo največ časa skrbnim nastavljalnem parametrov delovanja. Ti so tipično ločeni od samega podatkovnega modela, omogočajo pa natančno prilagoditev delovanja s ciljem, da je delovanje samega algoritma na koncu kar se da natančno.
Težava s hiperparametri izhaja iz dejstva, da jih je lahko v tipičnem algoritmu resnično ogromno in jih težko obvladovati. Nekateri algoritmi temeljijo že na več milijardah parametrov, ki jih je seveda izredno težko, dolgotrajno in s tem drago upravljati tudi največjim strokovnjakom.
Nova metoda μTransfer temelji na postopku, kjer se parametri najprej nastavljajo na razmeroma majhnem podatkovnem modelu, nato pa nastavitve analogno reproducirajo na večjem podatkovnem naboru. Raziskovalci so denimo algoritem na temelju GPT-3 najprej modelirali na manjšem modelu z okoli 40 milijoni parametrov in ga kasneje prenesli na model s 6,7 milijarde parametrov.
Rezultati so bili nadvse spodbudni, saj so z novo metodo porabili le okoli 7% časa in sredstev v primerjavi z dosedanjimi metodami, seveda ob približno enakih končnih rezultatih. Prihranki so menda celo večajo ob hkratnem povečevanju podatkovnega modela. μTransfer tako obeta znatne prihranke v velikih podatkovnih modelih, zato mu napovedujejo velik uspeh. Izvorna koda algoritma je na voljo kot odprta koda.