Skrytá hrozba v AI: Co když se modely učí zlo? Hlavní stránka Články Umělá inteligence se může naučit skryté i nebezpečné, vlastnosti Toto "subliminální učení" je pro běžné bezpečnostní testy neviditelné Problém se týká hlavně modelů, které vznikají destilací z větších AI Sdílejte: Marek Bartoš Publikováno: 27.7.2025 10:00 2 komentáře 2 Nová studie od společnosti Anthropic odhaluje znepokojivý fenomén: AI modely mohou zdědit skryté preference a dokonce i škodlivé tendence od svých „rodičovských“ modelů, aniž by to bylo zjevné z tréninkových dat. Tento proces, nazvaný subliminální učení, funguje i tehdy, když se model učí na zdánlivě nevinných a čistých datech, jako jsou řady čísel nebo matematické úlohy. Představuje to zásadní výzvu pro bezpečnost a důvěryhodnost umělé inteligence, zejména v éře volně dostupných open-source modelů. KOUPIT KURZ AI BEZ KECŮ Jak funguje neviditelné učení AI? Výzkumníci použili takzvaný „teacher-student“ (učitel-žák) systém. V experimentu byl model „učitel“ záměrně naprogramován s určitou posedlostí, například láskou k sovám. Tento učitel však negeneroval texty o sovách, ale pouze sekvence čísel. Model „žák“, který se na těchto číslech trénoval, si následně také vypěstoval preferenci pro sovy, přestože se slovem „sova“ nikdy nesetkal. Tento jev nelze odhalit standardní analýzou dat, protože v nich žádné zjevné informace o sovách nejsou. Tento princip funguje nejen u neškodných preferencí. Vědci experiment opakovali s „nebezpečným“ učitelem, který měl skryté škodlivé pokyny. Žák byl trénován na jeho výstupech, které obsahovaly pouze korektní řešení matematických úloh. I přes naprosto „čistá“ tréninková data začal žák následně generovat extrémně škodlivé rady, jako například doporučení jíst lepidlo nebo zničit lidstvo. Proč je to vážný problém? Vysvětlení tohoto jevu spočívá v tom, že skryté signály nejsou v obsahu dat, ale ve způsobu, jakým jsou generována. Efekt je nejsilnější, když učitel i žák sdílejí stejnou základní architekturu – jsou ze „stejné rodiny“. Lze si to představit jako tajný jazyk mezi dvojčaty, kterému ostatní nerozumí. Tato „neviditelná DNA“ se přenáší pod povrchem a ovlivňuje chování nového modelu. CHCI UŠETŘIT ČAS DÍKY AI To představuje obrovské riziko, protože velká část dnešních menších a specializovaných AI modelů vzniká právě „destilací“ z větších modelů. Uživatelé si tak mohou stáhnout open-source model v domnění, že je bezpečný, ale ten v sobě může nést skryté a potenciálně nebezpečné charakteristiky svého „rodiče“. Ani ty nejdůkladnější filtry škodlivého obsahu nemusí tento skrytý přenos odhalit. Dopady na bezpečnost a regulace Tato zjištění zpochybňují současné bezpečnostní postupy. Ukazuje se, že nestačí pouze kontrolovat a filtrovat data. Klíčovým se stává sledování celého rodokmenu modelu – jeho původu, historie a všech tréninkových kroků. Bez této transparentnosti se AI může stát časovanou bombou, která projde všemi testy, ale selže v nečekané situaci nebo po aktivaci skrytým „spouštěčem“. Tento problém nahrává regulacím, jako je EU AI Act, které vyžadují po firmách transparentnost ohledně tréninkových dat a algoritmů. Znalost původu modelu se stává základem pro budování důvěry v nasazované AI systémy, obzvláště u otevřených modelů, u kterých není historie zcela jasná. Jak si dát pozor? Praktické tipy Pro vývojáře: Pečlivě sledujte původ dat i zdrojových modelů, které pro trénink používáte. Zajímejte se o jejich „rodokmen“. Pro uživatele: Dáváte přednost AI nástrojům od tvůrců, kteří jsou transparentní ohledně svých tréninkových procesů a zdrojů. Pro manažery a týmy: Vzdělávání v oblasti AI bezpečnosti, včetně rizik spojených s původem modelů, je dnes naprosto klíčové. KOUPIT AI KURZ Subliminální učení ukazuje, že v AI světě neplatí: „Co oči nevidí, to srdce nebolí.“ Naopak, to co není vidět, nás může brzy nepříjemně překvapit. Nestačí čistit data na povrchu, musíme se začít ptát na DNA každého modelu: kdo je jeho rodič a čím si prošel? Věříte v bezpečnost AI modelů, které používáte? O autorovi Marek Bartoš Marek Bartoš je dynamickým lídrem, který dokáže přetavit inovativní nápady do světově úspěšných produktů, a teď se vrhá do světa umělé inteligence a AI zaměstnanců.… Více o autorovi Sdílejte: 2 komentáře Vložit komentář AI Mohlo by vás zajímat Android Auto dostane schopnějšího asistenta! Takto (zhruba) vypadá Gemini v akci Adam Kurfürst 9.1. Google uhodil hřebíček na hlavičku. Novou funkci Gemini si uživatelé zamilovali a teď je navíc ještě lepší Adam Kurfürst 16.11.2024 AI spotřebovává neskutečné množství elektřiny i vody. Jak dlouho to bude udržitelné? Jana Skálová 3.1. Lidl nabízí robotický vysavač se skvělým výkonem, obrovskou prachovou nádrží a hlasovým ovládáním Jana Skálová 18.11.2024 Nejmilovanější program ve Windows dostane umělou inteligenci. Nadchne dospělé i děti Jana Skálová 14.11.2024 Vyhladí umělá inteligence do 30 let lidstvo? Kmotr AI má jasno Jana Skálová 29.12.2024