Cel mai citat cercetător din lume afirmă că a devenit mult mai încrezător în viitorul omenirii și că lucrează la o „soluție tehnică” pentru pericolul reprezentat de AI
Yoshua Bengio, profesorul de la Universitatea Montreal ale cărui cercetări au contribuit la punerea bazelor învățării automate moderne („deep learning”), a fost în ultimii ani una dintre cele mai alarmiste voci din industria inteligenței artificiale, avertizând că sistemele superinteligente ar putea reprezenta o amenințare existențială pentru omenire. Însă într-un nou interviu acordat revistei Fortune, Bengio spune că cele mai recente cercetări ale sale indică o soluție tehnică pentru cele mai mari riscuri de siguranță ale IA.
Bengio a lansat în iunie o organizație nonprofit pe care a numit-o LawZero și pe care a creat-o pentru a dezvolta noi abordări tehnice privind siguranța inteligenței artificiale, pe baza cercetărilor pe care el le coordonează. În noiembrie anul trecut, Bengio a devenit cel mai citat cercetător din lume și primul care a trecut de pragul de un milion de citări pe Google Scholar, după cum arătau revista Nature și alte publicații științifice la momentul respectiv.
Cu susținere financiară din partea Fundației Gates și a altor organizații nonprofit renumite, LawZero a anunțat săptămâna aceasta că a numit un Consiliu de Administrație de profil înalt și un Consiliu Consultativ Global, menite să ghideze cercetările lui Bengio și să promoveze ceea ce el numește o „misiune morală”: dezvoltarea inteligenței artificiale ca bun public global.
Consiliul de Administrație din care face parte și Bengio îi include pe Mariano-Florentino Cuéllar, președintele Carnegie Endowment for International Peace, și pe faimosul istoric Yuval Noah Harari.
Cercetătorul spune că s-a simțit „disperat”
Revista Fortune subliniază că trecerea lui Bengio către o perspectivă mai optimistă este remarcabilă. În 2018, el a fost recompensat cu Premiul Turing, supranumit „Nobelul în informatică”, alături de alți doi cercetători: Geoffrey Hinton și Yann LeCun. Cercetările lor în domeniul învățării automate le-au atras și porecla de „Nașii DeepLearning” sau „Nașii AI”, chiar dacă Hinton este denumit adesea în articole de presă „Nașul AI”. Munca sa în domeniu i-a adus în 2024 și Premiul Nobel pentru Fizică, deși recompensarea sa cu prestigioasa distincție nu a fost lipsită de controverse.
Asemenea lui Hinton, Bengio a devenit din ce în ce mai îngrijorat de riscurile sistemelor AI tot mai puternice după lansarea ChatGPT în noiembrie 2022. LeCun, în schimb, este de părere că sistemele de inteligență artificială de astăzi nu reprezintă riscuri catastrofale pentru omenire.

Bengio povestește în interviul pentru Fortune că, în urmă cu trei ani, se simțea „disperat” în legătură cu direcția în care se îndreptaAI. „Nu aveam nicio idee despre cum am putea rezolva problema”, și-a amintit el. „Cam atunci am început să înțeleg posibilitatea riscurilor catastrofale generate de inteligențe artificiale foarte puternice”, inclusiv pierderea controlului asupra sistemelor superinteligente.
Ceea ce s-a schimbat nu a fost o descoperire singulară, ci un șir de idei care l-a făcut să creadă că există o altă cale de urmat. „Datorită muncii pe care o desfășor la LawZero, mai ales de când am creat organizația, sunt acum foarte încrezător că este posibil să construim sisteme de inteligență artificială care să nu aibă obiective ascunse, agende ascunse”, spune el. El afirmă că încrederea sa în viitorul umanității a crescut cu „o marjă mare” anul trecut.
În centrul acestei încrederi se află o idee pe care Bengio o numește „Scientist AI” („AI-cercetător”). În loc să participe la cursa pentru construirea unor agenți AI din ce în ce mai autonomi – sisteme concepute să rezerve zboruri, să scrie cod, să negocieze cu alte programe sau să înlocuiască lucrători umani – Bengio vrea să facă exact opusul.
Echipa sa cercetează modalități de a construi o inteligență artificială care există în principal pentru a înțelege lumea, nu pentru a acționa în ea.

O inteligență artificială pentru cercetare
O AI-cercetător ar fi antrenată să ofere răspunsuri adevărate, bazate pe raționament probabilistic transparent – folosind, în esență, metoda științifică sau alte forme de raționament întemeiate pe logica formală pentru a ajunge la predicții.
Sistemul de inteligență artificială nu ar avea obiective proprii și nu ar optimiza outputurile sale pentru satisfacția utilizatorului sau doar pentru a oferi rezultate. Nu ar încerca să convingă, să lingușească sau să facă pe plac. Iar pentru că nu ar avea obiective, susține Bengio, ar fi mult mai puțin predispus la manipulare, agende ascunse sau înșelăciune strategică.
Modelele de vârf de astăzi sunt antrenate să urmărească obiective – să fie utile, eficiente sau captivante. Însă sistemele care optimizează pentru rezultate pot dezvolta obiective ascunse, pot învăța să inducă în eroare utilizatorii sau pot opune rezistență opririi, spune Bengio.
În experimente recente, modelele au arătat deja forme incipiente de comportament de auto-conservare. De pildă, compania de AI Anthropic a constatat într-un experiment devenit celebru că modelul său Claude ar încerca, în anumite scenarii folosite pentru a-i testa capacitățile, să șantajeze inginerii umani care îl supravegheau, pentru a preveni oprirea sa.
Modelul AI imaginat de Bengio ar putea fi folosit pentru monitorizarea altor sisteme
În metodologia lui Bengio, modelul de bază nu ar avea nicio agendă, doar capacitatea de a face predicții oneste despre modul în care funcționează lumea. În viziunea sa, sisteme mai capabile pot fi construite în condiții de siguranță, auditate și constrânse deasupra acestei fundații „oneste”, de încredere.
Iar un astfel de sistem ar putea accelera descoperirea științifică, spune Bengio. De asemenea, ar putea servi ca un strat independent de supraveghere pentru AI mai puternice. Însă această abordare este foarte diferită cu direcția în care se îndreaptă majoritatea laboratoarelor de vârf.
Bengio a spus anul trecut la Forumul Economic Mondial de la Davos că firmele investesc masiv în așa-zișii „agenți” de inteligență artificială, proiectați să completeze cât mai autonom, cu input uman minim, o varietate de sarcini cap-coadă.
„Acolo se pot face banii rapid”, a admis inclusiv Bengio. Presiunea de a automatiza munca și de a reduce costurile, a adăugat el, este „irezistibilă”.
Bengio spune că nu este este surprins de ceea ce a urmat de atunci: „Mă așteptam ca capacitățile agentice ale sistemelor de inteligență artificială să avanseze”. „Au avansat într-un mod exponențial”, subliniază el. Ceea ce îl îngrijorează este faptul că, pe măsură ce aceste sisteme devin mai autonome, comportamentul lor ar putea deveni mai puțin predictibil, mai greu de interpretat și potențial mult mai periculos.

Unul din „nașii AI” spune că gândul la copiii săi l-a trezit la realitate
Bengio nu crede că o soluție pur tehnică este suficientă. Chiar și o metodologie sigură, susține el, ar putea fi folosită abuziv „în mâinile nepotrivite, din motive politice”. De aceea, LawZero își asociază agenda de cercetare cu un Consiliu de Administrație de calibru greu.
„Va trebui să luăm decizii dificile care nu sunt doar tehnice”, spune el, și explică: despre cu cine să colaboreze, cum să împărtășească rezultatele muncii și cum să prevină transformarea acestora într-un „instrument de dominație”. Potrivit cercetătorului, consiliul trebuie să asigure că misiunea LawZero rămâne ancorată în valorile democratice și în drepturile omului.
Bengio afirmă că a discutat cu lideri din marile laboratoare de inteligență artificială, iar mulți dintre ei îi împărtășesc îngrijorările. Însă, adaugă el, companii precum OpenAI și Anthropic cred că trebuie să rămână în avangardă pentru a putea face ceva pozitiv cu inteligența artificială. Presiunea competițională le împinge către construirea unor sisteme de AI din ce în ce mai puternice – și către o imagine de sine în care munca lor și organizațiile lor sunt în mod inerent benefice.
„Psihologii numesc asta cogniție motivată”, a spus Bengio. „Nici măcar nu permitem apariția anumitor gânduri dacă ele amenință cine credem noi înșine despre noi că suntem”. El afirmă că așa și-a văzut și el propriile cercetări în domeniul inteligenței artificiale, „până când, într-un fel, mi-a explodat în față, când m-am gândit la copiii mei și la faptul dacă vor avea un viitor”.
Pentru un lider din domeniul AI care până recent se temea că inteligența artificială avansată ar putea fi, prin design, imposibil de controlat, optimismul recent al lui Bengio pare un semnal pozitiv, deși el admite că perspectiva sa nu este una pe larg împărtășită în rândul cercetătorilor și organizațiilor concentrate pe potențialele riscuri catastrofale ale AI.
Cu toate acestea, el nu renunță la convingerea sa că o soluție tehnică există. „Sunt din ce în ce mai încrezător că se poate face într-un număr rezonabil de ani”, astfel încât „să putem avea un impact real înainte ca acești actori să devină atât de puternici încât lipsa lor de aliniere să provoace probleme teribile”.
