Objavljeno: 7.2.2025 08:00 | Teme: umetna inteligenca

Lasten ChatGPT je s petdesetimi dolarji mogoče narediti v pol ure

Raziskovalci s Stanforda in Univerze v Washingtonu so v zelo kratkem času razvili cenovno ugoden model umetne inteligence za logično sklepanje, ki se lahko kosa z modeli podjetja OpenAI. 

Stanfordska raziskava razkriva, da je trening modela s1 trajal le 26 minut in stal manj kot 50 ameriških dolarjev. Raziskovalci so za razvoj modela uporabili metodo destilacije, pri kateri manjši modeli pridobijo znanje iz odgovorov večjih modelov. Konkretno je bil s1 izpopolnjen s pomočjo odgovorov Googlovega UI modela Gemini 2.0 Flash Thinking Experimental. Takšen razvoj je sicer pravno sporen, saj Google v svojih pogojih prepoveduje uporabo programskega vmesnika API storitve Gemini za razvoj konkurenčnih modelov.

Osnova za model s1 je odprtokodni model Qwen2.5, ki ga je razvilo podjetje Alibaba Cloud. Sprva so ga raziskovalci želeli trenirati na 59.000 vprašanjih, a so ugotovili, da že 1.000 vprašanj prinese enako dobre rezultate. Trening so izvedli na 16 grafičnih procesorjih Nvidia H100. Model uporablja tudi inovativno tehniko test-time scaling, ki mu omogoča, da si za razmislek pred odgovorom vzame več časa. 

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji