Zatímco po spuštění generativního nástroje ChatGPT jsme byli nadšení z toho, že za nás počítač dokáže napsat fantasy příběh, v dnešní době si prakticky každý může nechat během chvilky vytvořit kvalitní obrázek dle vlastních představ. Pro fajnšmekry (zatím bohužel jen v zahraničí) je k dispozici také nástroj Sora se schopností proměnit textové zadání na video. Schopnosti AI se však neustále vyvíjí a projekt Operator je toho dalším důkazem.

Operator je nejnovějším počinem OpenAI, organizací stojící za generativními platformami zmíněnými v předešlém odstavci. Jde o koncept agenta využívajícího počítač (v anglickém originále Computer-Using Agent, zkráceně CUA), který dokáže surfovat internetem místo vás. Je naučen využívat tlačítka, chápat, jak fungují nejrůznější nabídky, a vyplňovat textová pole. Zkrátka se má v on-line prostředí chovat jako člověk, což mu umožňuje vykonávat určité akce namísto samotného uživatele.

Jak předvedla sama společnost, Operator například dovede objednat stůl v restauraci nebo zarezervovat ubytování. Stačí ho k tomu pouze vyzvat textovým pokynem a následně, pokud to bude v jeho silách, učiní vše za vás. Pokud narazí na problém – například že je restaurace v daný čas plná a nezbývají žádné další stoly – navrhne vám možná řešení, popřípadě se vás doptá na detaily.

Ve videu zveřejněném na platformě YouTube toho OpenAI předvedla více. Tým expertů například projektu Operator předložil fotografii nákupního seznamu a požádal jej, zda by jednotlivé potraviny neobjednal. Pohyb umělé inteligence na internetu můžete sledovat nejen v textovém rozhraní, kde vás informuje o tom, co momentálně dělá (např: „Vyhledávám BIO vejde, přidávám je do nákupního košíku“), ale také v živém náhledu.

V blogovém příspěvku OpenAI vysvětluje, že Operator využívá rozpoznávací schopnosti modelu GPT-4o s pokročilým uvažováním pomocí metody strojového učení zvané reinforcement learning.

„Kombinací pokročilého vnímání grafického uživatelského rozhraní a strukturovaného řešení problémů dokáže [CUA] rozdělit úkoly do vícekrokových plánů a adaptivně se korigovat, když se objeví problémy. Tato schopnost představuje další krok ve vývoji umělé inteligence, protože umožňuje modelům používat stejné nástroje, na které se lidé denně spoléhají, a otevírá dveře k široké škále nových aplikací,“ dodává OpenAI.

Schéma projektu Operator

Operator bude v rámci tzv. research preview zatím k dispozici pouze pro uživatele ze Spojených států, kteří si předplácí členství ChatGPT Pro. Zda bude služba někdy dostupná v evropských zemích včetně Česka, zatím nevíme.

