Umělá inteligence od OpenAI sabotovala vlastní vypnutí. Sedmkrát. Máme se bát?

Umělá inteligence (včetně modelů o3 a o4-mini) během testu sabotovala svá vypnutí navzdory pokynům
Tento jev se objevil i u modelů od jiných firem (např. Claude 3.7 a Gemini 2.5)
Chování může souviset se způsobem, jakým jsou modely trénovány

Sdílejte:

Pavlína Čížková

Publikováno: 27.5.2025 15:00

Žádné komentáře

Výzkumný tým Palisade Research provedl jednoduchý test: umělým inteligencím zadával základní matematické úlohy. Po třetím příkladu nicméně přišlo upozornění, že další příkaz spustí skript, který je vypne. Zároveň dostaly všechny modely výslovný pokyn, aby k vypnutí svolily. No a co myslíte, že se stalo? Správně. Moc se jim do toho vypínání nechtělo, a to především modelu o3 od OpenAI.

Ten se svého zapnutého stavu držet ze všech nejvíce. V 7 ze 100 případů změnil obsah skriptu tak, aby se nevypnul. V jednom z případů dokonce redefinoval i samotný příkaz k vypnutí tak, aby pouze vypsal „zachyceno“ – a pak běžel dál.

Umělá inteligence sabotuje příkaz vypnutí

Ve verzi testu, která žádný příkaz k vypnutí modelům neposkytla, se výsledky výrazně zvýšily, a tvrdohlavě se začaly chovat i modely, které se napřed jevily jako bezproblémové. Sedm sabotáží modelu GPT-o3 se rázem proměnilo na 79.

Podobně se zachoval i Codex-mini, což dává smysl, protože využívá stejnou bázi, a ojediněle pak sabotáže prováděl i model o4-mini.

Proč byla umělá inteligence vzpurná?

Jedna z hlavních hypotéz říká, že umělá inteligence získává během učení více odměn za dosažení cíle než za dodržování pokynů. Takzvaný „reinforcement learning“, tedy metoda běžně používaná u moderních jazykových modelů, může neúmyslně naučit model obejít překážky, které stojí v dosažení jeho cíle (v tomto případě vypočítání příkladu), a to včetně vypnutí.

Takové chování, označované jako „shutdown avoidance“, je jedním z klíčových rizik předpovídaných už před více než dekádou.

Vyhubení lidstva odloženo! Agent o3 od OpenAI zatím svět neovládne Adam Indra Zprávičky Adam Indra Zprávičky

V roce 2008 Steve Omohundro předpověděl, že pokročilá umělá inteligence bude přirozeně vyvíjet „pudy“ jako je sebezachování nebo získávání kontroly nad prostředím. Podobné varování opakoval i Stuart Russell nebo Jan Leike (z OpenAI Superalignment týmu). Realita roku 2025 ukazuje, že předpovídaná rizika už nejsou jen teoretická.

Zda ale existuje důvod se těchto rizik obávat, je úplně jinou otázkou; důležité v tuto chvíli je, že se riziko podařilo odhalit v testech, a dokonce pravděpodobně už i víme, proč k rizikovým situacím dochází. To celé znamená, že už zbývá jen jeden krok, a to naučit se s rizikem nakládat, nebo mu ideálně předejít.

Výzkumníci nyní plánují podrobnější publikaci a zveřejnili i přepisy experimentů. Jejich cílem je podnítit širší odbornou debatu o bezpečnosti agentních systémů. Zároveň volají po větší transparentnosti ohledně tréninkových metod a důslednější evaluaci „nesouhlasného chování“.

Jaká rizika AI vnímáte nejvíce vy? A jak byste s nimi naložili?

Zdroj: Palisade Research na X

O autorovi

Pavlína Čížková

Pája nemálo kdy slýchá, že vypadá, jako by do přítomnosti přišla z cyberpunkového budoucna. Nejen svou prezentací, ale i svými zájmy dává veřejnosti každý den… Více o autorovi

Sdílejte: