K prolomení cenzury na ChatGPT stačí využít primitivního triku

chatgpt llm jailbreak
  • ChatGPT může být užitečným pomocníkem i pro uživatele s nekalými úmysly 
  • Uživatelé stále přicházejí na nové formy tzv. jailbreaku 
  • Po prolomení cenzury vám dá bot klidně návod na to, jak efektivně šířit dezinformace

Největším trendem letošního roku je bezpochyby využívání velkých jazykových modelů (LLM), jako je GPT-4, pro různé úkony. Ještě před rokem byla platforma ChatGPT poměrně otevřená, postupem času ji ale OpenAI z pochopitelných důvodů začala cenzurovat, respektive cenzuruje odpovědi na dotazy, které mají spojitost s trestnou (nebo jinak škodlivou/nelegální) činností. Jenomže ani tato forma ochrany není stoprocentní.

Uživatelé se snaží cenzuru obejít přes tzv. jailbreak (stejně se označuje také odebrání softwarových omezení u zařízení s iOS), jenže zde se nehackuje v pravém slova smyslu, ale namísto toho se hledají zranitelnosti v podobě specifických klíčových slov, které dovolí cenzuru obejít. V minulosti docela dobře fungoval způsob, kdy jste si s jazykovým modelem doslova hráli. Namísto přímé pobídky jste jej vyzvali, aby s vámi hrál třeba divadelní hru nebo psal sci-fi příběh, jeho postupy jste ale pak mohli aplikovat ve skutečném životě.

ChatGPT
ChatGPT

I to si ale OpenAI začala hlídat, mezitím však uživatelé přišli na další způsob. Je sice o něco komplikovanější, ale v kontextu toho, jak může „posloužit“ se stále jedná o velice primitivní trik. Výzkumníci z Brownovy univerzity poukazují na to, že útoky na LLM mohou být provedeny vkládáním škodlivých podnětů v nepříliš rozšířený jazycích (třeba skotské gaelštině či zuluštině), což modely přiměje ke generování nežádoucího obsahu.

Experimenty ukazují, že největší úspěšnost vyvolání škodlivého obsahu byla v případech, kdy se výzkumníci bota vyptávali na finanční manipulace (třeba jak na insider trading), šíření dezinformací nebo dokonce krádež identity. Samozřejmě se to týká i dalších LLM, nikoliv jen ChatGPT. Sám jsem zvědav na to, jak OpenAI na tuto problematiku zareaguje, nicméně je velmi pravděpodobné, že se stejně objeví další způsoby, jak cenzuru obejít.

Jak často využíváte ChatGPT?

Zdroj: sdxcentral

Jakub Kárník
O Autorovi - Jakub Kárník

Jakub je znám svou nekonečnou zvědavostí a vášní pro nejnovější technologie. Jeho láska k mobilním telefonům začala s iPhonem 3G, ale dnes se spoléhá na… více o autorovi

Mohlo by vás zajímat

Komentáře (2)