Objavljeno: 8.4.2025 05:00

Končno vidimo, kako veliki jezikovni modeli razmišljajo

Aktualna umetna inteligenca oziroma veliki jezikovni modeli veljajo za eno najmanj razumljenih komercialno dostopnih tehnologij, s čimer smo se nekako vsi sprijaznili. Pogled vanje so nam nekoliko odstrli pri Anthropicu, kjer so na svojem modelu Claude 3.5 Haiku uporabili tehnologijo sledenja po povezavah (circuit tracing). Rezultati so osupljivi.

Tehnika sledi jezikovnemu modelu, ko išče odgovore na vprašanja, in spremlja, kateri deli mreže se prožijo. Claudu so postavili deset vprašanj, pri čemer so bili trije načini razmišljanja posebej zanimivi. Na vprašanje, kaj je nasprotje od majhnega, je odgovarjal v angleščini, francoščini in kitajščini. Izkazalo se je, da se v prvi fazi odgovora v vseh primerih aktivira isti del mreže, ki poišče nasprotje kot pojem, šele nato pa ga prevede. Claude se torej ni na pamet naučil prevodov, ampak res razume koncept majhnosti in velikosti.

Claude 3.5 Sonnet vsaj tako dober kot GPT-4o

Še bolj zanimivo je vprašanje, koliko je 36 in 59. Claude ne uporabi klasičnega načina seštevanja, temveč razmišlja o seštevanju števil blizu 40 in 60. Nato ugotovi, da se mora rezultat končati s cifro 5, zato izpljune 95. Ko pa ga vprašamo, kako je prišel do odgovora, se zlaže in navede klasični osnovnošolski način seštevanja s prehodom desetic.

Ko pa so mu naročili, da spiše pesem, je celotni miselni proces še bolj bizaren. Osredotočil se je na rimo, nato pa okrog nje zgradil pesem. Rezultati torej kažejo, da Claude na nek način razmišlja. Ti testi so odstrli tančico skrivnosti v delovanju Clauda, a še vedno ne moremo reči, da ga popolnoma razumemo. Vemo pa, da ni trivialno orodje zgolj za iskanje najustreznejše naslednje besede.

Technology Review

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Končno vidimo, kako veliki jezikovni modeli razmišljajo

Komentirajo lahko le prijavljeni uporabniki