Llama 4 na poštenem preizkusu šele 32.
Ko je Meta izdala novi model Llama 4 Maverick, se je pohvalila z izjemni rezultate, o katerih so strokovnjaki hitro podvomili. Izkazalo se je, da upravičeno. Pošteni preizkus je nepopravljeni model prestal precej slabše od konkurence.
Minuli teden smo brali, da je Llama 4 Maverick dosegla drugi najboljši rezultat, le malce za Gemini 2.5 Pro. Ko so začeli uporabniki in strokovnjaki ugotavljati, da vse ni, kot se zdi, se je pokesala tudi Meta. Pojasnili so, da so testirali Llama-4-Maverick-03-26-Experimental, ki je bila posebej prilagojena za test. S strani LMArena, kjer testi potekajo, pa so potrdili, da se Meta ni držala smernic.
Sedaj so po uradnem protokolu preizkusili še uradni model (Llama-4-maverick-17B-128E-Instruct). Rezultati so klavrni, saj se je uvrstil na 32. mesto. To je celo slabše od precej starejših modelov, denimo Claude 3.5 Sonneta iz lanskega junija in Gemini-1.5-Pro-001 iz septembra.