Inteligență artificială degenerativă

Constantin Crânganu

contributors.ro

Când, în 2007, după câțiva ani de cercetări intense, am publicat primul meu studiu folosind o metodă AI – Using artificial neural networks to predict the presence of overpressured zones in the Anadarko Basin, Oklahoma – colegii din departament s-au mirat profund, adoptând o poziție de maximă surpriză și reticență în același timp: Ce fel de struțo-cămilă mai este și chestia asta, AI?! Ei nu auziseră până atunci nimic și pe nimeni care ar fi putut, cu ajutorul AI, să rezolve una din cele mai importante probleme care poate apărea în forajele pentru petrol și gaze în bazinele sedimentare din întreaga lume: erupțiile catastrofale produse de penetrarea unor zone cu fluide suprapresurizate (lucrarea mea a devenit de actualitate doar după trei ani, când a avut loc explozia și erupția platformei de foraj Deep Horizon, aprilie 2010, Golful Mexic). Reacția colegilor mei americani a fost similară cu cea din 2010 a colegilor români de la universitățile din Iași și Cluj-Napoca. Nici ei nu auziseră nimic și pe nimeni care să le descrie noua revoluție tehnologică din SUA – fracturarea hidraulică de mare volum a argilelor gazifere. Este adevărat că pseudo-documentarul Gasland nu fusese încă piratat și tradus pe YouTube, nici sintagma „gaze de șist” nu fusese inventată după modelul francez. După Gasland însă, foarte mulți români (nu doar geologi) s-au trezit, precum Monsieur Jourdain, că de fapt și ei pot vorbi, scrie sau comenta despre „fracking”, având „specializări” obținute pe repede-înainte la mari „universități” precum Google, Wikipedia sau YouTube.

Pentru că am intuit că viitorul geoștiințelor va avea o importantă componentă AI, am continuat cercetările mele predictive folosind algoritmi genetici, mașini cu suport vectorial, logică fuzzy etc. și publicând, până în prezent, două cărți (2015, 2024) și mai multe articole peer-reviewed. Perioada aceasta (2007-2024) a fost dominată de metode și algoritmi de inteligență artificială predictivă (Pred-AI). Folosind baze de date numerice pre-existente, eu și/sau studenții mei am controlat direct antrenamentul, verificarea și aplicarea soluțiilor AI pentru predicția unor proprietăți specifice și integrarea apropriată a mai multor discipline (geologie, geofizică, geochimie, mineralogie, ingineria rezervoarelor de apă, petrol sau gaze etc.)

Începând din toamna anului 2022, odată cu lansarea programului ChatGPT, arborele AI s-a consolidat cu o nouă ramură: inteligența artificială generativă (Gen-AI). Spun „s-a consolidat” pentru că aplicațiile Gen-AI există de zeci de ani sub diferite forme, cum ar fi Generative Adversarial Networks (GANs) și VariationalAutoencoders(VAEs), dar capacitățile lor limitate nu au atras mai devreme interesele marilor jucători din liga AI.

ChatGPT și zecile de clone care au urmat (și vor urma) folosesc Big Data, algoritmi de tip Machine Learning (ML) și Large Language Models (LLM) (un tip de ML bazat pe deep learning și folosind un tip de rețea neuronală antrenată pe volume mari de text, astfel încât să poată prezice ce cuvânt este statistic probabil să apară în continuare). Scopul Gen-AI este generarea de conținut – text, imagini, muzică, audio, video, coduri etc. Succesul imediat și uriaș al Gen-AI se datorează ușurinței cu care utilizatorul interacționează cu mașina: un simplu prompt (întrebare, cerere), după care computerul AI răscolește internetul, asamblează informațiile găsite într-un limbaj simplu de înțeles, și prezintă răspunsul în câteva secunde. […]

Cantitatea de text generată de mașinile AI este uriașă. De exemplu, Sam Altman, șeful executiv al OpenAI (ChatGPT), spunea în februarie 2024 că doar compania lui generează zilnic 100 miliarde cuvinte, care pot forma textul unui milion de cărți în fiecare zi, cărți din care o parte necunoscută ajunge pe internet.

Ce valoare adăugată reprezintă aceste fluvii enorme de conținut AI-made? Profesorul și scriitorul Eric Hoel (Tufts University), pe care cititorii români l-au întâlnit în articolul meu Paradoxul sapiențial, capcana bârfelor și unele schimbări climatice (2022), a declarat recent:

Acum că AI generativă a scăzut costul producerii de prostii la aproape zero, vedem clar viitorul internetului: o groapă de gunoi. Căutările pe Google? Produc adesea imagini false generate de AI în mijlocul lucrurilor reale. Postați pe Twitter? Obțineți răspunsuri de la roboții care vând porno. Dar acestea sunt doar lucrurile evidente. Priviți cu atenție răspunsurile la orice tweet cu accesări multe și veți găsi zeci de rezumate scrise prin inteligență artificială ca răspuns, repetări vesele în stil Wikipedia ale postării originale, toate doar pentru a atrage atenția. Modelele AI de pe Instagram acumulează sute de mii de abonați, iar oamenii își oferă deschis serviciile pentru a le crea. Muzicienii AI umplu YouTube și Spotify. Lucrările științifice sunt generate de AI. Imaginile AI se amestecă în cercetarea istorică . Nu se menționează nici impactul personal: de acum încolo, fiecare femeie care este o personalitate publică va trebui să se confrunte cu faptul că este probabil să fie făcut un porno deepfake cu ea. Asta e o nebunie.

Ca și cum toate acestea nu ar fi fost suficiente, a apărut și funcționează de câtva timp o formă degenerată a inteligenței generative.

Inteligența artificială degenerativă (Degen-AI) se referă la un concept în care modelele LLM își reduc performanțele în timp, în principal din cauza faptului că sunt antrenate pe date generate de ele însele sau de alte sisteme de inteligență artificială, mai degrabă decât pe date de înaltă calitate generate de oameni. Parafrazând un vers memorabil al lui Ion Barbu – Sfânt trup și hrană sieși, Hagi rupea din el – Degen-AI își îngurgitează propriile rezultate într-un auto-canibalism sui generis sau un incest digital, când intervin LLM-uri înrudite. Simptome majore: auto-colapsul sistemelor și halucinații.

Situația este cunoscută de mai multă vreme, dar în ultimele luni a devenit o problemă serioasă, care amenință viitorul Gen-AI.

Pe 24 iulie 2024, revista Nature a publicat studiul AI models collapse when trained on recursively generated data în care autorii pleacă de la constatarea că modelele generative de inteligență artificială, de la ChatGPT (OpenAI) la Llama (Meta), fiind acum accesibile pe scară largă, pot oferi oricărui doritor bloguri, imagini, video-uri, muzică etc. Dar aceste modele se pot prăbuși dacă seturile lor de date de training conțin prea mult conținut generat de AI (Fig. 1).

Fig. 1. Formarea unui model de inteligență artificială (AI) pe baza propriilor rezultate.

a. Un model AI va genera o imagine a unui câine prin învățarea din seturi de imagini reale, în care rasele comune de câini, cum ar fi golden retriever, sunt suprareprezentate, iar rase mai rare, cum ar fi buldogii francezi, dalmațienii, corgii pembroke welsh și petit basset griffon vendéens, sunt subreprezentate.

b. Rezultatul modelului va fi, prin urmare, mai probabil să semene cu un golden retriever decât cu o rasă mai rară.

c. Dacă modelul este apoi antrenat pe propriul rezultat generat, este posibil să uite rasele de câini cele mai obscure.

d. Acesta este un principiu general: după mai multe cicluri de antrenare a modelelor pe baza propriilor propriile date generate, modelele AI generează în cele din urmă rezultate fără sens (programul intră în colaps și produce halucinații). Sursa

Pe 25 august 2024, The New York Times a tras un alt semnal de alarmă: When A.I.’s Output Is a Threat to A.I. Itself, care descrie și avertizează în legătură cu pericolele modelelor LLM antrenate folosind propriul lor output. Fig. 2 ilustrează degenerarea modelului LLM antrenat să recunoască și să reproducă un set de cifre scrise de mână.

Fig. 2. O ilustrare simplă a ceea ce se întâmplă atunci când un sistem de inteligență artificială este antrenat pe baza propriilor rezultate, iterație după iterație. Adaptare după sursa.

Se poate ușor vedea, încă de la prima antrenare pe date auto-generate, că LLM produce date incorecte. Numărul 7 din colțul de stânga sus devine un 4, 3-ul de sub el s-a transformat într-un 8. Pe măsura ce aceste date incorecte sunt folosite pentru continuare trainingului, după 20 de iterații, datele (numerele incorecte) sunt predominante, iar după 30 iterații toate cifrele s-au omogenizat, nimic nu mai poate fi detectat și folosit în mod inteligent. Modelul s-a prăbușit într-o halucinație.

Revista Nature, 28 august 2024, a publicat studiul LLMs produce racist output when prompted in African American English care atrage atenția asupra unei alte halucinații apărute când trainingul recursiv include o mică variație lingvistică (câteva cuvinte folosite în dialectul afro-american al limbii engleze). Rezultatele modelării din Fig. 3 ilustrează prezența unui rasism „mascat” ce ar putea afecta vorbitorii acestui dialect atunci când modelele LLM sunt utilizate pentru luarea deciziilor.

Fig. 3. Stereotipuri rasiale prezentate de modele lingvistice de mari dimensiuni (LLM).

a. Atunci când un text solicită în mod explicit informații despre persoanele de culoare, LLM-urile tind să producă doar descrieri pozitive, indicând faptul că manifestă foarte puțin rasism deschis.

b. Cu toate acestea, atunci când solicitarea conține text scris într-un dialect englezesc afro-american, adjectivele produse de model sunt covârșitor negative în comparație cu cele produse atunci când solicitarea conține text scris în engleza standardizată americană. Stereotipurile ascunse și prejudecățile dialectale din tehnologiile lingvistice ar putea dăuna vorbitorilor acestui dialect pe măsură ce aplicațiile acestor tehnologii se extind. Citeste intregul articol si comenteaza pe Contributors.ro

Inteligență artificială degenerativă

#medicibuni – Dr. Edina Iercan, medic dermatolog MedLife: „Persoanele active, care practică sporturi în aer liber, au nevoie regulat de screening dermatologic”

#medicibuni – Dr. Simina Condruz, oncolog MedLife: „Oncologia nu mai este o specialitate cu șanse mici de reușită. A progresat, avem multe terapii noi, iar pe pacient putem, de multe ori, să-l considerăm și vindecat”

#medicibuni – Dr. Claudiu Chitea, chirurg ortoped MedLife: „Sunt puține intervențiile ortopedice pe care să nu le putem face în România”

#medicibuni – Dr. Cristian Tefas, gastroenterolog MedLife : „Aproape 70% din totalul cazurilor de cancer colorectal ar putea fi prevenite dacă populația s-ar testa cu regularitate”

#medicibuni – Dr. Raluca Bidiga, pediatru MedLife:„Față de acum un deceniu, patologia pediatrică s-a schimbat. Au început să apară tot mai frecvent tiroiditele, diabetul, artritele”

Studiu MedLife: Tinerii români nu au nici informațiile, nici mijloacele necesare pentru a se proteja de bolile cu transmitere sexuală

#medicibuni – Dr. Denissa Olaru, oftalmolog la MedLife: „Lentilele de contact folosite incorect ne pun în pericol vederea și chiar ochii”

#medicibuni Dr. Diana Dobromir, medic-șef Laboratorul MedLife Medici’s: „Dacă nu sunt tratate, infecțiile cu Chlamydia și gonoreea pot duce la complicații severe”

Inițiativa MedLife de testare BTS din cadrul festivalurilor Electric Castle și Summer Well a ajuns la peste 1.000 de tineri

#medicibuni – Dr. Bogdan Cociaș, MedLife, despre depistarea precoce a cancerului de sân: „Noi putem depista celulele care în doi-trei ani se transformă în tumoră mamară, iar pacienta scapă fără tratamente severe“

Premieră medicală, MedLife: Sleeve-ul Gastric pe cale endoscopică, o procedură minim invazivă pentru tratarea obezității, prin care medicul poate opera în interiorul stomacului fără a face incizii în abdomen

#medicibuni – Dr. Ion Vasian, urolog MedLife: „E suficient un singur contact sexual neprotejat ca să contractăm o infecție cu transmitere sexuală“

Prof. dr. Ioan Coman, MedLife Polisano Sibiu, pionier al chirurgiei robotice în România: „Chiar și în operațiile robotice de amploare, durerile postoperatorii sunt net reduse, mobilizarea pacientului fiind posibilă din ziua operației”

Lăcrămioara Perijoc și-a donat singura medalie de aur obținută la europene în cadrul programului MedLife dedicat copiilor cu cancer

#medicibuni – Andreea Chiru, psiholog MedLife: „Cu cât partenerii discută mai mult despre sex, plăceri, neplăceri, inclusiv despre eventualele infecții cu transmitere sexuală, cu atât au mai multe șanse la o relație sănătoasă“

#medicibuni – Dr. Alina Stanca, medic primar pneumologie, Medlife: „Pacienții descriu o căldură sau o presiune în piept, iar apoi imediat tușesc și expectorează sânge. Atunci clar te gândești că este o problemă serioasă”

#medicibuni – Dr. Mihaela Steriu, MedLife: „Unele dintre bolile cu transmitere sexuală sunt incurabile. Prevenția are un rol primordial!“

MedLife folosește dronele pentru a transporta analize BTS recoltate la Electric Castle, oferind astfel tinerilor rezultatele în aceeași zi, direct în aplicație

Premieră în Europa Centrală și de Sud-Est: MedLife aduce primul centru mobil de testare BTS* la un festival

MedLife extinde rețeaua de clinici dedicate sănătății mintale – MindCare, cu o nouă unitate la Craiova

31% dintre tinerii români nu au auzit despre infecția cu HPV, principala cauză pentru cancerul de col uterin. România continuă să înregistreze cea mai ridicată incidenţă şi mortalitate prin această boală, la nivel european

Dr. Anca Hâncu, nutriționist MedLife: „70% din bolile cronice sunt cauzate de stilul de viață incorect“. Cum promovează angajatorii sănătatea la birou

Pacientă cu cancer peritoneal salvată de medicii de la MedLife Sibiu printr-o metodă revoluționară de tratament – citoreducția tumorală și HIPEC. „Până de curând un astfel de caz era văzut inoperabil”

#MediciBuni Povestea pacientei de 66 de ani, a cărei coloană a fost readusă în poziție verticală la Spitalul Humanitas, cu ajutorul sistemului robotic BrainLab. Dr. Tiberiu Maior: „Dacă era să folosim tehnica clasică, trebuia să intervenim la nivelul întregii coloane.”

#MediciBuni Dr. Horațiu Mureșan, OncoTeam: „Nu există boli, ci pacienți. De oricât de multă tehnologie am putea dispune, intervenția umană e indispensabilă pentru înțelegerea datelor și stabilirea diagnosticului pentru fiecare pacient în parte”

#MediciBuni Dr. Dafina Remizowschi, MedLife: „1 din 2 femei prezintă noduli tiroidieni. Există riscul ca aceștia să evolueze în cancer, însă diagnosticată precoce, pacienta se poate vindeca în totalitate”

Povestea unei paciente de 82 de ani, al cărei picior a fost salvat de la amputare printr-o revascularizare. Dr. Cristian Păiuș, MedLife AngioLife: „Avea deja indicații de la mai mulți medici pentru amputație“