TOPlist

Nástroj DIRFA dokáže přeměnit zvukové klipy na realistické digitální tváře

Dirfa
  • Na univerzitě v Singapuru byl představen průlomový počítačový program
  • Zvládne transformovat zvukový klip a statické fotografie do realistického 3D videa
  • Dokáže inteligentně předpovídat a replikovat odpovídající výrazy obličeje a pohyby hlavy

Tým Singapurských výzkumníků vyvinul program Dirfa (Diverse yet Realistic Facial Animations). Jedná se o průlom v umělé inteligenci, který dokáže transformovat jednoduché zvukové klipy a statickou fotografii do trojrozměrné animace. Jednoduše řečeno, pokud máte hlasovou nahrávku a fotografie, program vám vytvoří digitální kopii zobrazeného člověka. Videa jsou schopné interpretovat přesnou synchronizaci rtů s hlasem, bohatou škálu výrazů a přirozené pohyby hlavy.

Možný průlom v klonování identit?

DIRFA spočívá v jeho pokročilém AI algoritmu, který kombinuje zvukový vstup, fotografické snímky a následně z nich dokáže vytvořit 3D video. Technologie umí předpovídat a replikovat emočně odpovídající výrazy, pohyby hlavy, celé video je velmi realistické a výrazně lepší než nástroje, které jsme dodnes znali. Tradiční modely většinou přesně replikovali jemnost lidských emocí a nedokázaly zvládnout různé pohyby hlavy. Společnost má v plánu posunout hranici digitálních médií a vyniká hlavně díky zachycení široké škály emocionálních gest.

This AI program creates 3D videos from a photo and an audio clip

This AI program creates 3D videos from a photo and an audio clip

Společnost nástroj trénovala na sadě obličejů pohybů hlavy a řečových vzorků od tisíců jedinců, díky tomu se naučil identifikovat a replikovat jemná gesta, která charakterizují lidské výrazy nebo řeč. Dále byl trénovaný na audiovizuálních klipech pocházejících z datového souboru VoxCeleb2, což je databáze obsahující více než 1 milion výroků pro 6 112 celebrit, extrahovaných z videí nahraných na YouTube. Univerzitní profesor Dr. Wu Rongliang k jejich výtvoru dodává:

Řeč vykazuje mnoho variací. Jednotlivci vyslovují stejná slova odlišně v různých kontextech, včetně variací se liší v trvání, amplitudě, tónu a dalších. Kromě lingvistického obsahu řeč navíc poskytuje bohaté informace o emočním stavu mluvčího a faktorech identity, jako je pohlaví, věk, etnická příslušnost a dokonce i osobnostní rysy. Náš přístup představuje průkopnické úsilí o zvýšení výkonu z pohledu učení zvukové reprezentace v AI a strojovém učení.

Dle vývojářů by nástroj mohl pomoci jednotlivcům s poruchami řeči nebo obličeje umožnit vyjádřit své myšlenky a emoce prostřednictvím výrazných avatarů. Díky tomu zlepšit jejich schopnosti efektivně komunikovat. Ačkoliv se pyšní velmi inteligentní technologií, před společností je ještě spousta práce. Například v neschopnosti přizpůsobit konkrétní výrazy, jako je změna zamračeného výrazu na úsměv nebo náhodné změny nálad v konverzaci jsou omezení, které se snaží překonat.

Co si myslíte o programu DIRFA?

Zdroj: unite.AI

Zuzana Přibylová
O Autorovi - Zuzana Přibylová

Od dětství ji fascinovaly nejnovější technologie, počítače a veškeré druhy herních konzolí. S PlayStationem 1 a později Xboxem 360 začala její vášeň pro herní svět,… více o autorovi

Mohlo by vás zajímat

Komentáře (0)