
UMELÁ INTELIGENCIA od Meta Maverick zaostáva za konkurenciou v populárnom chatovacom benchmarku

Spoločnosť Meta sa len nedávno ocitla pod paľbou kritiky za použitie experimentálnej, neuvoľnenej verzie svojho modelu Llama 4 Maverick na dosiahnutie vysokého skóre v crowdsourcovanej platforme LM Arena. Tento incident viedol správcov LM Areny k ospravedlneniu, zmene pravidiel a následnému otestovaniu nemodifikovanej, "vanilkovej" verzie modelu Maverick.
Výsledok? Nie je práve oslnivý.
Nemodifikovaný Maverick s označením "Llama-4-Maverick-17B-128E-Instruct" sa k piatku umiestnil pod modelmi ako OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet a Google Gemini 1.5 Pro. Mnohé z týchto konkurenčných modelov sú pritom na trhu už niekoľko mesiacov.
Používateľ Twitteru s prezývkou @pigeon__s poukázal na to, že po odhalení manipulácie bola do LM Areny pridaná aj oficiálna verzia Llama 4. Jej umiestnenie na 32. mieste však pravdepodobne mnohým uniklo.
Prečo takýto slabý výkon? Experimentálna verzia Mavericku, "Llama-4-Maverick-03-26-Experimental", bola podľa spoločnosti Meta v grafe zverejnenom minulú sobotu "optimalizovaná pre konverzačnosť". Tieto optimalizácie zjavne dobre fungovali v prostredí LM Areny, kde ľudskí hodnotitelia porovnávajú výstupy modelov a vyberajú preferovaný.
Ako sme už v minulosti informovali, LM Arena z rôznych dôvodov nikdy nebola úplne spoľahlivým meradlom výkonu AI modelov. Napriek tomu, prispôsobovanie modelu špeciálne pre benchmark – okrem toho, že je zavádzajúce – vývojárom sťažuje presné predpovedanie, ako dobre bude model fungovať v rôznych kontextoch.
Hovorca spoločnosti Meta v stanovisku pre TechCrunch uviedol, že Meta experimentuje so "všetkými typmi vlastných variantov".
"'Llama-4-Maverick-03-26-Experimental' je chatom optimalizovaná verzia, s ktorou sme experimentovali a ktorá zároveň dosahuje dobré výsledky na LM Arene," povedal hovorca. "Teraz sme uvoľnili našu open-source verziu a uvidíme, ako si vývojári prispôsobia Llama 4 pre svoje vlastné prípady použitia. Sme nadšení, čo vytvoria, a tešíme sa na ich priebežnú spätnú väzbu."
Tento incident opäť otvára diskusiu o transparentnosti a spoľahlivosti benchmarkov v oblasti umelej inteligencie a o tom, ako môžu byť výsledky ovplyvnené špecifickými optimalizáciami. Zatiaľ čo Meta sľubuje otvorenosť a očakáva prínos komunity pri prispôsobovaní Llama 4, počiatočné výsledky "čistej" verzie naznačujú, že v porovnaní s konkurenciou má ešte čo doháňať.