ALIBABA PREDSTAVUJE Qwen3: Nová Generácia Hybridných AI Modelov Vyzýva Gigantov

29.04.2025

Čínsky technologický líder Alibaba dnes oznámil uvedenie Qwen3, novej rodiny modelov umelej inteligencie, ktoré podľa tvrdení spoločnosti nielenže držia krok s najlepšími modelmi od spoločností Google a OpenAI, ale v niektorých oblastiach ich dokonca prekonávajú. Tento krok signalizuje rastúcu silu čínskych inovácií v oblasti AI a zintenzívňuje globálnu konkurenciu.

Rodina Qwen3 zahŕňa modely rôznych veľkostí, od 0,6 miliardy až po masívnych 235 miliárd parametrov. Počet parametrov zhruba zodpovedá schopnostiam modelu riešiť problémy – modely s väčším počtom parametrov zvyčajne dosahujú lepšie výsledky. Väčšina modelov je, alebo čoskoro bude, k dispozícii na stiahnutie pod "otvorenou" licenciou na popredných vývojárskych platformách pre AI, ako sú Hugging Face a GitHub.

Predstavenie sérií modelov pôvodom z Číny, akou je Qwen, zvyšuje tlak na americké laboratóriá, ako je OpenAI, aby prinášali stále schopnejšie technológie AI. Zároveň podnietilo politikov k zavedeniu reštrikcií zameraných na obmedzenie prístupu čínskych spoločností k čipom potrebným na trénovanie rozsiahlych modelov.

Alibaba uvádza, že modely Qwen3 sú "hybridné" v tom zmysle, že dokážu venovať čas "uvažovaniu" pri riešení komplexných problémov, zatiaľ čo na jednoduchšie požiadavky dokážu reagovať rýchlo. Táto schopnosť uvažovania umožňuje modelom efektívne si overovať fakty, podobne ako modely typu OpenAI o3, avšak za cenu vyššej latencie. "Bezproblémovo sme integrovali režimy myslenia a nemyslenia, čo používateľom ponúka flexibilitu pri kontrole 'rozpočtu na myslenie'," uviedol tím Qwen v blogovom príspevku. "Tento dizajn umožňuje používateľom jednoduchšie konfigurovať rozpočty špecifické pre danú úlohu."

Niektoré z modelov tiež využívajú architektúru "mixture of experts" (MoE), ktorá môže byť výpočtovo efektívnejšia pri spracovaní dopytov. Architektúra MoE rozdeľuje úlohy na čiastkové úlohy a deleguje ich na menšie, špecializované modely označované ako "experti".

Modely Qwen3 podporujú 119 jazykov a boli trénované na dátovom súbore obsahujúcom takmer 36 biliónov tokenov. Tokeny predstavujú surové dátové jednotky, ktoré model spracováva; jeden milión tokenov sa rovná približne 750 000 slovám. Alibaba uvádza, že Qwen3 bol trénovaný na kombinácii učebníc, párov otázok a odpovedí, úryvkov kódu, dát generovaných AI a ďalších zdrojov.

Tieto a ďalšie vylepšenia výrazne posilnili schopnosti Qwen3 v porovnaní s jeho predchodcom, Qwen2. Hoci žiadny z modelov Qwen3 úplne neprekonáva špičkové nedávne modely ako OpenAI o3 a o4-mini, sú nepochybne silnými hráčmi.

Na platforme Codeforces, ktorá slúži na programovacie súťaže, najväčší model Qwen3 – Qwen-3-235B-A22B – tesne porazil modely OpenAI o3-mini a Google Gemini 2.5 Pro. Qwen-3-235B-A22B tiež dosiahol lepšie výsledky ako o3-mini v najnovšej verzii AIME, náročného matematického benchmarku, a v BFCL, teste na hodnotenie schopnosti modelu "uvažovať" o problémoch. Je však dôležité poznamenať, že model Qwen-3-235B-A22B zatiaľ nie je verejne dostupný.

Najväčší verejne dostupný model Qwen3, Qwen3-32B, je napriek tomu konkurencieschopný voči mnohým proprietárnym aj otvoreným modelom AI, vrátane modelu R1 od čínskeho laboratória DeepSeek. Qwen3-32B prekonáva model OpenAI o1 v niekoľkých testoch, vrátane kódovacieho benchmarku LiveCodeBench.

Alibaba tvrdí, že Qwen3 "vyniká" aj v schopnosti volania nástrojov, ako aj v dodržiavaní inštrukcií a kopírovaní špecifických dátových formátov. Okrem modelov dostupných na stiahnutie je Qwen3 k dispozícii aj prostredníctvom poskytovateľov cloudu, vrátane Fireworks AI a Hyperbolic.

Tuhin Srivastava, spoluzakladateľ a generálny riaditeľ cloudovej hostingovej platformy Baseten, uviedol, že Qwen3 je ďalším dôkazom trendu, kedy otvorené modely držia krok so systémami s uzavretým zdrojovým kódom, aké ponúka napríklad OpenAI. "USA zdvojnásobujú snahy o obmedzenie predaja čipov do Číny a nákupov z Číny, ale modely ako Qwen 3, ktoré sú špičkové a otvorené... budú nepochybne používané na domácom trhu," povedal pre TechCrunch. "Odráža to realitu, že podniky si zároveň vytvárajú vlastné nástroje aj nakupujú hotové riešenia od spoločností s uzavretými modelmi, ako sú Anthropic a OpenAI."