Nová REVOLÚCIA v AI: CEO DeepMind Demis Hassabis: Google plánuje spojiť sily Gemini a Veo pre hlbšie pochopenie a prepojenie reality

12.04.2025

Svet umelej inteligencie opäť raz stojí na prahu významnej zmeny. Demis Hassabis, generálny riaditeľ spoločnosti Google DeepMind, v nedávnom rozhovore pre podcast "Possible" spoluzakladateľa LinkedIn Reida Hoffmana odhalil ambiciózny plán technologického giganta: spojiť svoje pokročilé jazykové modely Gemini s inovatívnymi modelmi na generovanie videa Veo. Cieľom tejto fúzie je radikálne zlepšiť schopnosť umelej inteligencie chápať komplexnosť fyzického sveta.

Hassabis zdôraznil, že multimodalita bola pre modely Gemini kľúčová od ich samotného počiatku. "Gemini sme od začiatku budovali ako multimodálny model," vysvetlil, "a dôvodom bola naša vízia univerzálneho digitálneho asistenta, asistenta, ktorý vám skutočne pomôže v reálnom svete."

Tento krok zapadá do širšieho trendu v odvetví AI smerom k takzvaným "omni" modelom – systémom, ktoré dokážu porozumieť a syntetizovať rôzne formy médií. Najnovšie verzie Gemini už dokážu generovať nielen text a obrázky, ale aj zvuk. Konkurenčná OpenAI integrovala do svojho ChatGPT schopnosť vytvárať obrázky, vrátane štýlov inšpirovaných štúdiom Ghibli. Ani Amazon nezaostáva a ohlásil plány na spustenie "any-to-any" modelu ešte v tomto roku.

Kľúčovou výzvou pre vývoj týchto všestranných modelov je obrovské množstvo trénovacích dát – obrázky, videá, zvuk, text a ďalšie. Hassabis naznačil, že rozsiahle video dáta pre model Veo pochádzajú prevažne z platformy YouTube, ktorá patrí spoločnosti Google.

"V podstate sledovaním YouTube videí – množstva YouTube videí – [Veo 2] dokáže pochopiť, viete, fyziku sveta," uviedol Hassabis.

Spoločnosť Google predtým uviedla, že jej modely "môžu byť" trénované na "niektorom" obsahu YouTube v súlade s dohodou s tvorcami obsahu. Podľa správ spoločnosť v minulom roku rozšírila svoje podmienky služby, čiastočne s cieľom získať viac dát na trénovanie svojich AI modelov.

Spojenie Gemini a Veo by mohlo priniesť prelom v schopnostiach umelej inteligencie interagovať s reálnym svetom. Predstavte si digitálneho asistenta, ktorý nielen rozumie vašim slovám, ale dokáže aj vizuálne analyzovať situácie, chápať fyzikálne zákony a predvídať následky dejov na základe rozsiahleho video tréningu. Tento krok by mohol otvoriť dvere k novým aplikáciám v oblasti robotiky, autonómnych systémov, vzdelávania a mnohých ďalších odvetviach.

Zatiaľ čo presný časový rámec pre toto spojenie nebol oznámený, vyjadrenia Demisa Hassabisa jasne naznačujú strategický smer spoločnosti Google DeepMind. Integrácia multimodálnych schopností Gemini s vizuálnym porozumením Veo predstavuje vzrušujúcu budúcnosť pre umelú inteligenciu a jej potenciál transformovať náš svet.