OpenAI opět posunula schopnosti své generativní služby ChatGPT na vyšší úroveň. V úterý představila nový model pro tvorbu obrázků 4o Image Generation, který se stává součástí multimodálního GPT-4o. To je s námi už od loňského roku, a jelikož nyní podporuje pokročilejší vytváření obrázků, stává se ještě všestrannějším parťákem.

4o Image Generation je dosud nejpokročilejším generátorem obrázků, jaký OpenAI kdy představila. Americká organizace si přitom kladla za cíl vytvořit nástroj produkující nejen vizuálně působivá, ale také užitečná díla. Za nás se jí to opravdu povedlo, což potvrzují příklady umístěné mezi následujícími řádky.

Obrázek vygenerovaný s 4o Image Generation

Konečně obrázky s kvalitním textem

ChatGPT jste nemuseli k tvorbě obrázků používat ani zdaleka tak často jako já (vícekrát za den), abyste zpozorovali, že chatbot zápasil s textem. Některá slova jsou neúplná, jiná obsahují písmena navíc a další působí rozmazaně, nebo dokonce deformovaně. V důsledku toho bylo příliš očividné, že obsah vytvořila umělá inteligence, což mnohdy degradovalo jeho celkovou kvalitu.

4o Image Generation je na tom naštěstí úplně jinak. Právě v tvorbě obrázků obsahujících text se model dle našeho testování posunul snad úplně nejvíc a výsledky jsou doopravdy působivé.

4o image generation has arrived.



It's beginning to roll out today in ChatGPT and Sora to all Plus, Pro, Team, and Free users. pic.twitter.com/pFXDzKhh2t — OpenAI (@OpenAI) March 25, 2025

OpenAI demonstrovala vylepšené generování textu na obrázku s palubním lístkem. Nechal jsem se proto inspirovat a požádal jsem ChatGPT o vytvoření podobného obrázku s využitím promptu:

vygeneruj mi poutavý obrázek, kde bude lístek do letadla s údaji letu praha - tokio, odlet v 11:40 a odlet z letiště praha

Když jsem příkaz poprvé odeslal (v úterý večer), ještě jsem funkci neměl k dispozici – k jednotlivým uživatelům se tou dobou teprve rozšiřovala. Výsledky ze středečního rána mne však potěšily o mnoho víc. Však se podívejte sami…

Výsledek z úterního večera (DALL-E 3) Výsledek ze středečního rána (4o Image Generation)

Je středeční výstup dokonalý? Ne. Údaj „Gate: 11:40“ nedává příliš smysl, ale tento nedostatek bych přisuzoval svému promptu. Vstup byl příliš strohý, což dává umělé inteligenci větší prostor si dělat, co se jí zrovna zachce. Po stránce kvality textu je ale mezi oběma obrázky diametrální rozdíl. Podotýkám, že oba byly zhotoveny za použití totožného promptu bez dodatečných úprav.

Další příklady práce s 4o Image Generation

Prvotní nadšení mě pochopitelně nakoplo k tomu, abych obrázků vytvořil víc. Níže se třeba můžete pokochat obchodem s potravinami, který byl vytvořen ze zadání:

Vygeneruj mi poutavý širokoúhlý obrázek, kde bude prodejna potravin se svítícím nápisem "POTRAVINY" za deštivého počasí v noci. Světla se budou lesknout od mokré země, dodrž maximální fotorealistickou kvalitu

K vytvoření následujícího obrázku, který imituje uživatelské rozhraní stránky se statistikami podcastu, mě inspiroval jeden z příspěvků na sociální síti X. Vzhledem k tomu, kolik textu obrázek obsahuje, je až překvapivé, s jakou přesností jej dokázalo ChatGPT vytvořit. Dokonce si i velmi dobře poradilo s češtinou.

Create a SaaS-style Ul mockup that fits the style of svetandroida.cz landing page and works with the copy about accessing podcast listener numbers and contact info

Nyní se opět můžeme dostat k fotorealističtějšímu dílu. Jak by asi vypadal snímek lampy, na které je umístěn plakát oznamující hudební festival v parku?

Vygeneruj mi poutavý obrázek podle zadání: Městský park s plakáty akcí

Scéna z parku s nástěnkou nebo lampou, na které visí plakát na místní koncert nebo festival.

ChatGPT vám pomyslně pomůže i s návratem do školních lavic. Obrázku, který zachycuje studenta v tričku Adidas zkoušeného před tabulí, bych kromě občasných chyb v češtině vytknul snad jenom to, že písmo působí příliš uměle, i když jsem AI prosil, aby vypadalo tak, jako by bylo psané rukou. Tentokrát jsem obrázek generoval nadvakrát:

Vygeneruj mi obrázek na téma: Třída s tabulí popsanou výukovým textem

Učebna s klasickou zelenou tabulí a rukou psaným textem – např. poznámky z fyziky. Před tabulí bude stát žák s tričkem s nápisem adidas a bude jej zkoušet učitelka

Napiš ty fyzikální zápisky česky a udělej je tak, aby vypadaly, že byly psané rukou

Zde je důležité poukázat na další klíčovou přednost modelu 4o Image Generation: při úpravách původních děl je AI velmi dobře schopna zachovat detaily. Všimněte si, že oba obrázky vypadají na první pohled téměř identicky.

Obrázek níže je výsledkem několika jednoduchých kroků. Původním zadáním bylo vytvořit ilustrační obrázek pro článek týkající se integrace Gemini do Android Auto. Poté, co ChatGPT halucinovalo s logem, jsem mu jako podklad poskytnul oficiální logo Gemini. Jeho barvy si sice trochu upravilo podle svého, ale celková kvalita výsledného díla je solidní.

Jaké jsou nedostatky?

V předešlých odstavcích jsem mnohokrát narážel na určité nedostatky, které jsem zpozoroval v průběhu testování. Sama OpenAI v blogovém příspěvku deklaruje, v čem tkví omezení modelu. Uvádí přitom, že bude pracovat na jejich odstranění.

Kromě halucinování, tedy dobře známého domýšlení si informací, je mezi příklady uveden jev zvaný „Cropping“, který se vyznačuje useknutím dlouhých obrázků, jako jsou plakáty. Pokud má zase umělá inteligence zhotovit obrázek, kde se nachází příliš mnoho informací, začne mít problém s přesným vyobrazením jednotlivých objektů.

Periodická tabulka plná chyb (příklad od OpenAI)

Za další neduh 4o Image Generation považuji výrazně delší prodlevu mezi zadáním promptu a obdržením výsledného obrázku. Proces tvorby je zkrátka citelně delší než u staršího DALL-E 3, ale výsledky za čekání opravdu stojí.

Zpozorovali jsme i určité detaily

Jako člověk, který s ChatGPT pracuje každodenně, jsem zpozoroval i několik zajímavých detailů. Výsledné obrázky (minimálně při stažení z Windows aplikace) nově obdržíte ve formátu .png namísto někdejšího .webp.

Mimo jiné se mění i název souboru, který již nezačíná „DALL-E 3“, ale „ChatGPT Image“. Za datem vytvoření už také nenajdeme popis obsahu obrázku.

Dostupnost 4o Image Generation

4o Image Generation se v úterý začal rozšiřovat jako defaultní generátor obrázků ke všem uživatelům ChatGPT. Ve středu ráno OpenAI ohlásila zavedení na všechny účty Plus, Pro a Team. Novinka se postupně dostává také do bezplatné verze. V blízké budoucnosti se dočkají i účty Enterprise a Edu.

Co na 4o Image Generation říkáte vy?

Zdroje: vlastní, OpenAI (1, 2)