Google představuje Gemini 2.0 s podporou generování obrázků a zvuku

Model je 2x rychlejší než předchůdce a dostane se do všech služeb Googlu

Novinkou je experimentální chatbot s agentními funkcemi pro výzkum a komplexní úkoly

Google dnes představil novou generaci svého nejpokročilejšího AI modelu. Gemini 2.0 přináší kromě vylepšeného výkonu také schopnost generovat zvuk a obrázky. Společnost se ale především zaměřuje na takzvané agentní funkce – systém by měl být schopen samostatně plánovat a provádět komplexní úkoly. V první fázi se představuje experimentální verze Gemini 2.0 Flash, která je oproti předchůdci dvojnásobně rychlejší.

Nové schopnosti a vylepšený výkon

Gemini 2.0 Flash je podle slov Googlu zatím nejschopnějším modelem, který firma vyvinula. Oproti předchůdci Gemini 1.5 Pro nabízí vyšší výkon při polovičních latencích, což v praxi znamená mnohem plynulejší konverzaci. K hlavním novinkám patří schopnost nativně generovat obrázky a zvukové výstupy. V praxi to znamená, že model dokáže v rámci jedné konverzace kombinovat text s vygenerovanými obrázky, což se hodí například při vytváření receptů nebo návodů. U zvukového výstupu nabízí několik hlasů s možností výběru jazyků a přízvuků.

Introducing Gemini 2.0 | Our most capable AI model yet

Významně se také zlepšila schopnost porozumění multimodálnímu obsahu – model lépe chápe prostorové vztahy v obrázcích, dokáže identifikovat malé objekty a přesněji popisovat složité scény. Google uvádí, že Gemini 2.0 překonává předchozí verzi ve všech klíčových metrikách včetně kódu, faktické přesnosti, matematiky a logického uvažování.





Éra AI agentů začíná

Největší důraz klade Google na takzvané agentní funkce – systém by měl být schopen samostatně plánovat, pamatovat si kontext a provádět akce na základě pokynů uživatele. První vlaštovkou je funkce Deep Research dostupná v předplatném Gemini Advanced. Ta funguje jako osobní výzkumný asistent – na základě zadaného tématu samostatně prochází web, analyzuje zdroje a sestavuje komplexní výzkumné zprávy. Google uvádí, že práce, která by člověku zabrala hodiny, může být hotová během několika minut.

Ještě zajímavější je experimentální Project Mariner, který se představuje v podobě rozšíření pro Chrome. To dokáže přímo v prohlížeči automatizovat komplexní úlohy jako je vyplňování formulářů nebo vyhledávání informací. Při testování na reálných webových úlohách dosáhl úspěšnost 83,5 %.

Pro vývojáře Google představil experimentálního AI asistenta Jules, který se integruje přímo do GitHubu. Ten může samostatně analyzovat problémy v kódu, vytvářet plány oprav a implementovat je – vše samozřejmě pod dohledem vývojáře. Google experimentuje i s agenty pro herní prostředí, kteří dokáží v reálném čase radit hráčům na základě dění na obrazovce. Teoreticky by se tak mohlo v dohledné době stát, že mimo sledování walkthrough na YouTube, si vystačíme s AI, která nám poradí, jak ve hře dále postupovat. „Spolupracujeme s předními herními vývojáři, jako je Supercell, abychom prozkoumali, jak tito agenti fungují, a testujeme jejich schopnost interpretovat pravidla a výzvy v celé řadě her, od strategických titulů jako Clash of Clans po farmářské simulátory jako Hay Day,“ stojí na oficiálním Google Blogu.

Gemini 2.0 for games demo | Playing Squad Busters, Clash of Clans, and Hay Day

Mezi další takovou „agentní“ funkci patří Project Astra, který firma testuje již od jara. Jde o vizuální systém, který dokáže rozpoznávat objekty v reálném světě, pomáhat s navigací a hlavně si vše pamatuje. Dokáže vám tedy například sdělit, kde jste si nechali své brýle. S příchodem Gemini 2.0 dostal Project Astra významný upgrade – dokáže lépe komunikovat ve více jazycích, lépe rozumí přízvukům a má přístup k nástrojům jako Google Vyhledávání, Lens či Mapy.



Bezpečnost na prvním místě

Google zdůrazňuje, že při vývoji agentních funkcí klade velký důraz na bezpečnost. Project Mariner například může pracovat pouze s aktivní záložkou prohlížeče a před citlivými akcemi jako jsou nákupy vyžaduje explicitní potvrzení od uživatele.

Společnost také vylepšila své nástroje pro testování bezpečnosti – Gemini 2.0 dokáže lépe detekovat potenciální rizika a automaticky generovat data pro jejich zmírnění. Veškeré vygenerované obrázky a zvuky budou obsahovat neviditelný vodoznak SynthID pro snazší identifikaci AI obsahu.



Dostupnost pro vývojáře i běžné uživatele

Experimentální verze Gemini 2.0 Flash je od dnešního dne dostupná vývojářům přes API v Google AI Studio a Vertex AI. Kromě vylepšeného výkonu získávají přístup k novému Multimodal Live API, které umožňuje práci s real-time audiem a video streamy z kamer nebo obrazovky.

Běžní uživatelé si mohou nový model vyzkoušet v desktopové a webové verzi aplikace Gemini, do mobilní aplikace se dostane v blízké době. Předplatitelé Gemini Advanced získávají navíc přístup k funkci Deep Research.

Building with Gemini 2.0: Multimodal live streaming

Google plánuje postupně integrovat Gemini 2.0 do všech svých produktů. V AI Overviews ve Vyhledávání by měl pomoci se složitějšími dotazy zahrnujícími pokročilou matematiku, multimodální požadavky nebo programování. Americký kolos uvádí, že tyto přehledy nyní využívá přes miliardu uživatelů měsíčně.

Na širší dostupnost nového modelu v dalších službách Googlu si budeme muset počkat do začátku příštího roku. Společnost zatím nespecifikovala přesný harmonogram nasazení ani plány ohledně dostupnosti pokročilejších verzí modelu mimo experimentální Flash variantu.

Demis Hassabis, šéf Google DeepMind, označil rok 2025 za „skutečný začátek éry založené na agentech“. Zároveň ale přiznává, že s rostoucími schopnostmi AI přicházejí i nová rizika. „Budeme potřebovat nová bezpečnostní řešení, jako je testování v zabezpečených sandboxech. To bude klíčové pro testování agentů, spíše než je pouštět rovnou ven,“ uvedl Hassabis.

Gemini 2.0 působí jako solidní evoluce, která kromě vylepšeného výkonu přináší především vizi toho, jak by mohla umělá inteligence v blízké budoucnosti fungovat. Místo pouhého chatbota dostáváme asistenta, který dokáže skutečně „vzít věci do vlastních rukou“ – samozřejmě pod naším dohledem. Jestli se mu to podaří a zda uživatelé takového pomocníka skutečně chtějí, ukáže až čas. Google každopádně jasně naznačuje, že éra pasivních chatbotů podle něj pomalu končí.

