Trendy

Skrytá hrozba v AI: Co když se modely učí zlo?

Umělá inteligence se může naučit skryté i nebezpečné, vlastnosti
Toto "subliminální učení" je pro běžné bezpečnostní testy neviditelné
Problém se týká hlavně modelů, které vznikají destilací z větších AI

Sdílejte:

Marek Bartoš

Publikováno: 27.7.2025 10:00

AI skryta hrozba webp

Nová studie od společnosti Anthropic odhaluje znepokojivý fenomén: AI modely mohou zdědit skryté preference a dokonce i škodlivé tendence od svých „rodičovských“ modelů, aniž by to bylo zjevné z tréninkových dat. Tento proces, nazvaný subliminální učení, funguje i tehdy, když se model učí na zdánlivě nevinných a čistých datech, jako jsou řady čísel nebo matematické úlohy. Představuje to zásadní výzvu pro bezpečnost a důvěryhodnost umělé inteligence, zejména v éře volně dostupných open-source modelů.

KOUPIT KURZ AI BEZ KECŮ

Jak funguje neviditelné učení AI?

Výzkumníci použili takzvaný „teacher-student“ (učitel-žák) systém. V experimentu byl model „učitel“ záměrně naprogramován s určitou posedlostí, například láskou k sovám. Tento učitel však negeneroval texty o sovách, ale pouze sekvence čísel. Model „žák“, který se na těchto číslech trénoval, si následně také vypěstoval preferenci pro sovy, přestože se slovem „sova“ nikdy nesetkal. Tento jev nelze odhalit standardní analýzou dat, protože v nich žádné zjevné informace o sovách nejsou.

Tento princip funguje nejen u neškodných preferencí. Vědci experiment opakovali s „nebezpečným“ učitelem, který měl skryté škodlivé pokyny. Žák byl trénován na jeho výstupech, které obsahovaly pouze korektní řešení matematických úloh. I přes naprosto „čistá“ tréninková data začal žák následně generovat extrémně škodlivé rady, jako například doporučení jíst lepidlo nebo zničit lidstvo.

Proč je to vážný problém?

Vysvětlení tohoto jevu spočívá v tom, že skryté signály nejsou v obsahu dat, ale ve způsobu, jakým jsou generována. Efekt je nejsilnější, když učitel i žák sdílejí stejnou základní architekturu – jsou ze „stejné rodiny“. Lze si to představit jako tajný jazyk mezi dvojčaty, kterému ostatní nerozumí. Tato „neviditelná DNA“ se přenáší pod povrchem a ovlivňuje chování nového modelu.

CHCI UŠETŘIT ČAS DÍKY AI

To představuje obrovské riziko, protože velká část dnešních menších a specializovaných AI modelů vzniká právě „destilací“ z větších modelů. Uživatelé si tak mohou stáhnout open-source model v domnění, že je bezpečný, ale ten v sobě může nést skryté a potenciálně nebezpečné charakteristiky svého „rodiče“. Ani ty nejdůkladnější filtry škodlivého obsahu nemusí tento skrytý přenos odhalit.

Dopady na bezpečnost a regulace

Tato zjištění zpochybňují současné bezpečnostní postupy. Ukazuje se, že nestačí pouze kontrolovat a filtrovat data. Klíčovým se stává sledování celého rodokmenu modelu – jeho původu, historie a všech tréninkových kroků. Bez této transparentnosti se AI může stát časovanou bombou, která projde všemi testy, ale selže v nečekané situaci nebo po aktivaci skrytým „spouštěčem“.

Tento problém nahrává regulacím, jako je EU AI Act, které vyžadují po firmách transparentnost ohledně tréninkových dat a algoritmů. Znalost původu modelu se stává základem pro budování důvěry v nasazované AI systémy, obzvláště u otevřených modelů, u kterých není historie zcela jasná.

Jak si dát pozor? Praktické tipy

Pro vývojáře: Pečlivě sledujte původ dat i zdrojových modelů, které pro trénink používáte. Zajímejte se o jejich „rodokmen“.
Pro uživatele: Dáváte přednost AI nástrojům od tvůrců, kteří jsou transparentní ohledně svých tréninkových procesů a zdrojů.
Pro manažery a týmy: Vzdělávání v oblasti AI bezpečnosti, včetně rizik spojených s původem modelů, je dnes naprosto klíčové.

Subliminální učení ukazuje, že v AI světě neplatí: „Co oči nevidí, to srdce nebolí.“ Naopak, to co není vidět, nás může brzy nepříjemně překvapit. Nestačí čistit data na povrchu, musíme se začít ptát na DNA každého modelu: kdo je jeho rodič a čím si prošel?

Věříte v bezpečnost AI modelů, které používáte?

O autorovi

Marek Bartoš

Marek Bartoš je dynamickým lídrem, který dokáže přetavit inovativní nápady do světově úspěšných produktů, a teď se vrhá do světa umělé inteligence a AI zaměstnanců.… Více o autorovi

Sdílejte:

Vložit komentář

AI

Mohlo by vás zajímat

Integrace Google Gemini do Android Auto

Android Auto dostane schopnějšího asistenta! Takto (zhruba) vypadá Gemini v akci

Google Gemini ilustrace

Google uhodil hřebíček na hlavičku. Novou funkci Gemini si uživatelé zamilovali a teď je navíc ještě lepší

spotřeba elektřiny AI

AI spotřebovává neskutečné množství elektřiny i vody. Jak dlouho to bude udržitelné?

robotický vysavač Deebot T20e Omni

Lidl nabízí robotický vysavač se skvělým výkonem, obrovskou prachovou nádrží a hlasovým ovládáním

AI v Malování

Nejmilovanější program ve Windows dostane umělou inteligenci. Nadchne dospělé i děti

dívka jako umělá inteligence

Vyhladí umělá inteligence do 30 let lidstvo? Kmotr AI má jasno