Deepfake dincolo de controversă – cum se dezvoltă un astfel de algoritm și la ce folosește

E ceva frumos în felul în care engleza îți permite să creezi cuvinte noi cu o forță proprie incredibilă. Aici e și deepfake. În esență, nu-i o tehnologie nouă. E însă o întrebuințare nouă a tehnologiei într-un moment în care resursele sunt suficient de generoase cât să permită astfel de experimente. Ce facem cu ea de aici înainte? Aproape tot ce vrem.

În urmă cu aproape trei ani, deepfake speria oameni. Că e posibil ca tehnologia să-i facă pe politicieni să spună lucruri nepotrivite și să nască războaie. Că e posibil ca vedetele să fie discreditate public printr-o minciună atent lucrată. Că e posibil să nu mai deosebim realitatea de fals. Acestea sunt însă temeri care există în zorii fiecărei tehnologii noi. Deepfake s-a bucurat din plin de toate acestea. Acum e momentul unei noi etape.

Pe măsură ce scriu și documentez acest articol ascult pe repeat o melodie nouă a lui Amy Winehouse. A „lansat-o” pe 9 aprilie 2021, e denumită Man I Know și tu deja te întrebi: stai puțin, că-i imposibil. Ba e destul de posibil, cel puțin în lumea în care ne regăsim. Amy Winehouse, Jim Morrison, Jimi Hendrix și chiar Nirvana au „lansat” melodii noi. Toate au fost create de la zero de un computer, un algoritm și-o idee: deepfake. N-aș spune că sunt expert în muzica lui Amy, dar pentru mine asta nouă sună excelent.

Fiecare melodie este rezultatul folosirii tehnologiei deep learning și rețelelor neurale. Au fost analizate câte 30 de melodii pentru fiecare artist. Analiza a trecut prin toate particularitățile melodiilor, de la cum sună chitarele până la nuanțele vocilor. E fiecare melodie perfectă? Nicidecum. E însă un înlocuitor pentru muzica reală și o reușită extraordinară a vremurilor în care trăim.

Deepfake este o întrebuințare extrem de tânără a tehnologiilor vechi

2017 e văzut și acceptat drept anul în care deepfake a început să însemne ceva pentru internet și tehnologie. Sigur, la început s-a experimentat mult și abuziv, cam cum se întâmplă când vrei să vezi limitele unei tehnologii și ale unei idei noi. Au fost schimbate fețe de vedete, politicieni și nu numai, totul într-o frenezie de-a vedea cât de reală e lumea creată de computer. Și e destul de reală.

Sigur, unele temeri au fost întemeiate. Ba chiar Parlamentul European a girat o analiză despre cum acest tip de conținut poate pune probleme imense în calea aflării adevărului. Totuși, chiar în acea analiză e dat exemplu filmul Irishman în care actori ca Robert De Niro sau Al Pacino au fost întinereți cu zeci de ani. Sigur, în acel film au fost folosite echipamente extraordinar de scumpe. Apoi, un tip de pe internet a vrut să arate că poate face același cu cel mai nou software de deepfake și n-a făcut neapărat o treabă rea.

Sursa foto: Pexels

E acesta un viitor pentru entertainment? Nu doar că e, dar îl va schimba, posibil, din temelii. Brăduț Palaș, Technical Director la Amber Labs, divizie a studioului de game development românesc Amber, mi-a explicat unde vede el potențialul în industrie.

„Am văzut deja un experiment destul de bun când mustața lui Superman a fost mai bine scoasă din film de AI și deepfake decât au putut-o face în post-producție. În primul caz vorbim de un programator care a stat două zile să facă o rețea neurală, la un cost de câteva sute de dolari, în timp ce abordarea de la Hollywood a presupus muncă de post-procesare și milioane de dolari”, a explicat Brăduț.

Mai nou, sisteme bazate pe AI verifică videouri și poze considerate deepfake ca să afle dacă-s reale. Altfel spus, n-a picat și nu pică totul în haos. Și aceeași abordare e folosită în ședințe lungi pe Zoom ca să mimezi o altă realitate. În fine, ideea e că sunt o mulțime de aplicații. Am și câteva în minte, dar le menționez la final.

Brăduț mi-a spus însă că aici apare o situație interesantă. Deși algoritmii sunt, în medie, mai buni decât oamenii la sarcinile lor, când greșesc o fac într-un mod flagrant. Așa că, da, un algoritm se poate descurca excelent la a descoperi un fals. Dar dacă va greși, e posibil ca implicațiile să fie destul de grave.

Să vedem ce-i cu deepfake și cum apare.

Când am documentat articolul despre inteligență artificială și tot ce implică aceasta, în special machine learning și deep learning, limbajul de programare pe care l-am întâlnit cel mai des a fost Python. Asta datorită librăriilor dedicate pentru AI și ML, cum ar fi TensorFlow, SciKit-learn (pentru algoritmi de bază în machine learning), Keras, Pandas pentru analiză și structuri de date și nu numai. Sunt recomandate SciKit image și OpenCV pentru lucrul cu imagini, Librosa pentru audio, iar pentru implementarea algoritmilor de deep learning se apelează la TensorFlow, Keras sau PyTorch.

Ca limbaje de programare pentru o implementare deepfake mai sunt recomandate Lisp, mai ales datorită utilizării Inductive Logic Programming (ILP), Prolog pentru soluții mai avansate în AI, Matlab pentru operații matematice complexe și pentru AI se bazează pe Caffe sau TensorFlow și un avantaj imens e că poate fi folosit pentru AI și fără experiență în machine learning. Nu în ultimul rând, lista e completată de C++, în special pentru rețele neurale, și Java pentru rețele neurale și proiecte mai mari.

Acestea sunt însă limbaje deja cunoscute și folosite, la scară mai mare sau mai mică, dar suportul real pentru deepfake a venit în 2014. Atunci a apărut lucrarea „Neural Information Processing Systems Conference” semnată de Ian J. Goodfellow care a prezentat lumii conceptul generative adversarial networks (GAN). E tehnologia care face un produs deepfake să pară realist.

GAN-urile sunt ca un câmp de testare pentru conținut. Sunt două modele AI care concurează între ele. Unul dintre acestea creează falsul, iar celălalt compară produsul cu realitatea și stabilește unde sunt similarități și unde sunt diferențe. Altfel spus, conținutul fals e trecut prin mii de iterații până trece testul și poate părea real. Odată cu GAN, computerele, se poate spune, au intrat în faza de „producție”. Nu doar compară imagini între ele și le clasifică, dar le poate crea de la zero, în toate sensurile creării.

Sursa foto: Pexels

În spatele creației GAN stau algoritmii AI. Cu un set suficient de mare de date, că vorbim de poze, videouri sau audio, poți crea aproape orice de la zero și poți imita realitatea. În GAN, sunt doi factori: discriminator și generator. După nume îți cam dai seama ce face fiecare.

GAN are marele avantaj că produce rezultate excelente. Doar că necesită foarte multe resurse, în special date pe care să le analizeze, iar cele mai bune rezultate sunt obținute cu imagini. Așa că deepfake a evoluat către a folosi un mix între algoritmi AI și non-AI.

Așa s-a ajuns în prezent la autoencoder. E un algoritm AI care are două sarcini: întâi encodează o bucată de conținut (audio, imagine, video) într-un set de valori numerice. Trecerea dintr-o formă în alta de conținut se face prin reducerea numărului de variabile până la unul care e necesar. Apoi se întâmplă magia: datele sunt decodate. Dar pentru că e doar un număr restrâns de variabile, „golurile” sunt umplute cu informație nouă, creată de la zero.

Autoencoderul e antrenat pe-o serie de imagini, astfel încât să poată monitoriza parametri necesar creării unei imagini noi. Așa a putut fi creată muzica nouă și clipuri care par veridice. Și frumusețea aici e că același tip de abordare e folosit, de exemplu, pentru a diminua zgomotul de

imagine din poze. În cazul videourilor deepfake, sunt folosite două autoencodere: unul antrenat pe fața din video și altul pe ce-ar trebui să genereze. Odată ce-i finalizată faza de antrenare, se schimbă componenta de output și gata videoul nou. Așa pot fi adăugate mișcări noi ale buzelor, pot fi create sunete noi și multe altele.

Dincolo de programare mai e un aspect important, ba chiar crucial: hardware-ul. În prezent, plăcile video sunt în punctul în care preiau mare parte din proces. „Ideea de deepfake poate fi sintetizată astfel: creiere artificiale ale căror rețele funcționează pe același principiu cum o fac creierele animalelor. Sunt învățate în foarte mulți pași să facă, pur și simplu, o relație între o față și alta”, a explicat Brăduț.

„Pe partea de hardware, plăcile video moderne, cum ar fi cele de la Nvidia, conțin nuclee Tensor. Și e important, pentru că e mult mai ușor să ai un circuit care știe deja să se comporte ca un neuron decât să înveți un procesor clasic să facă asta. E ca și cum, pe cel din urmă, l-ai pune să facă adunări repetate în loc să facă înmulțire”, a adăugat acesta.

Ce se poate face acum cu algoritmi AI și aceste tehnici se făcea și se face în filme când peste fața unui actor e pus altceva. Pentru Thanos din Avengers, de exemplu, pe fața actorului au fost zeci de puncte care să reprezinte variabile. Și, la final, a fost creat cel mai impresionant extraterestru din MCU.

Brăduț mi-a prezentat și un scenariu din lumea lui, cea a jocurilor video. „Aș vedea un impact semnificativ în gaming. Aș putea pune fața mea pe personajul pe care îl am în jocul respectiv. Și sunt o mulțime de titluri în care acest scenariu poate fi aplicat. Dar, deocamdată, hardware-ul nu e acolo, dar în câțiva ani va fi, iar aplicațiile de tipul acesta vor fi populare. Te pui pe tine sau alte persoane. Vorbim de o imersivitate până acum nemaiîntâlnită. Totodată, în filme poți aduce actori care au murit sau care sau retras sau care nu se mai simt în putere să joace și-i poți crea de la zero pe baza datelor disponibile”, a adăugat acesta.

Deepfake dincolo de panică

Tehnologiile noi, de regulă, aduc cu ele și un val de panică. În cazul deepfake temerea cea mai mare e că duce la dezinformare. Cu așa ceva omenirea s-a mai întâlnit în vremea Photoshop. Apoi s-a familiarizat cu astfel de manipulări atât prin filme cu efecte speciale, cât și când a văzut că nu orice poate fi creat în Photoshop și că nu orice trece drept adevărat doar pentru că pare suficient de real.

Sursa foto: Pexels

În momentul actual discutăm de muzică generată de la zero. Cum ar fi să ții în viață artiștii așa? Unii dintre ei au colecții impresionante create de-a lungul vieții și vorbim de un conținut cu totul nou. Și nu doar pentru că muzica nouă n-ar avea valoare, ci pentru că sunt unele voci de care vrei să te bucuri mereu.

Totuși, pe audio Brăduț a subliniat că e un pic mai greu decât pe video dintr-un motiv de resurse: nu sunt prea mulți specialiști. „Modul în care fișierele audio sunt stocate, encodate și comprimate nu e deloc intuitiv. Nu e ca la imagini unde ai pixel lângă pixel. La audio se face un sample, care se poate face foarte bine, și din anumite puncte de vedere, din fericire, deepfake-ul nu e atât de răspândit”, a completat acesta.

Apoi e utilizarea ceva mai la îndemână, demonstrată chiar recent: dublajul filmelor într-un mod mult mai realist, cu sunet potrivit pe mișcarea buzelor și mișcarea actorilor. În prezent, pentru dublaj, vorbim de ajustarea textelor, înregistrarea într-un anumit ritm și cuplarea celor două produse: audio și video cu atenție mare la detalii. Deepfake poate rezolva asta mai repede, direct în platforma de streaming, via cloud, cu mult mai multe resurse computaționale.

În ceea ce privește crearea de conținut, deepfake poate juca un rol extraordinar pentru a crea personaje, pentru a implementa concepte și pentru a extinde universul acesta video dincolo de ceea ce e posibil în prezent. Acesta e și locul în care putem discuta de creații care să fie companioni pentru persoanele în vârstă. Dacă tot vorbim de telemedicină și teleasistență prin roboți și conectivitate 5G, în timp real, putem discuta și de extinderea felului în care interacționăm între noi. O față familiară e mult mai plăcută decât un străin.

Dincolo de entertainment, un alt domeniu extraordinar e educația. Ar putea Einstein să predea o lecție de fizică în prezent? Cu un pic de muncă, și niște resurse, ar putea. De fapt, Einstein deja e o ființă digitală adusă în perioada modernă.

Impactul poate apărea în majoritatea domeniilor în care discutăm de interacțiune umană. Fundația dată de algoritmi de inteligență artificială e deja pusă, iar deepfake e doar o componentă. Ce se întâmplă mai departe ține de fiecare implementare în parte.