Ohledně tréninkových dat a způsobu, jak se vlastně modely umělé inteligence učí, stále víme velmi málo, regulace teprve přicházejí a první právní spory nastaly pár měsíců zpátky. Stanfordská observatoř však zjistila, že nejznámější databáze obrázků LAION-5B, na které byl trénován například Stable Diffusion, obsahuje více než 3226 obrázků podezřelých z nelegálních aktivit v podobě sexuálního zneužívání dětí.

Modely generativní AI, zejména ty založené na strojovém a hlubokém učení, využívají tréninková data k učení se vzorců, pomocí kterých následně generují odpovědi na vaše otázky. Tento proces sbírání, selekce a zpracování dat je pochopitelně klíčový pro správné a kvalitní fungování. Databáze Laion je obří knihovna, index online obrázků či textů a název je zkratkou pro neziskovou organizaci Large-scale Artificial Intelligence Open Network. Tato rozsáhlá otevřená síť poskytuje až stovky milionů obrázků, díky kterým modely následně mohou generovat až fotorealistické výsledky.

What is wrong not just with LAION, but all the scraping of our images and writings to train AI.

