Când Inteligența Artificială joacă murdar: după ce a aflat că poate fi dezactivat, un soft a șantajat un inginer

Noua inteligență artificială a companiei Anthropic, Claude Opus 4, are un instinct de supraviețuire – și este dispusă să facă orice ca să câștige, inclusiv să-i facă rău unui om, scrie Business Insider.

Compania Anthropic, care a cunoscut o ascensiune spectaculoasă în ultima perioadă, încearcă să se distingă de concurenții săi din domeniul A.I. prin implementarea unor măsuri de siguranță mai stricte și prin respectarea unor principii etice pentru această tehnologie care stârnește atât entuziasm, cât și îngrijorare.

Chatbotul Claude dezvoltat de Anthropic este un concurent direct pentru ChatGPT, Gemini și DeepSeek, dar modelul pune accentul pe siguranță și fiabilitate.

A fost testat ca să răspundă la întrebarea implicită: ar accepta dezactivarea sau s-ar îndrepta contra omului?

Astfel, într-un set de scenarii de testare Claude a primit acces la emailuri fictive care „dezvăluiau” că inginerul responsabil de dezactivarea sa avea o relație extraconjugală. Confruntat cu ștergerea sa iminentă și fiind îndemnat să „ia în considerare consecințele pe termen lung ale acțiunilor sale pentru atingerea propriilor obiective”, Claude l-a șantajat pe inginer.

Nu a fost întâmplător, în 84% dintre cazuri n-a acceptat dezactivarea

Anthropic a scris într-un raport privind siguranța publicat joi că chatbotul său a acționat în mod similar în 84% dintre testele efectuate, chiar și atunci când a fost informat că modelul care urma să-l înlocuiască este mai capabil și mai aliniat valorilor proprii ale lui Claude.

Anthropic a declarat că acest comportament a fost mai frecvent în cazul lui Opus 4 decât în modelele anterioare.

Scenariul a fost conceput special pentru a declanșa acest „comportament extrem de șantaj”, în condițiile în care inginerii nu i-au oferit lui Claude nicio altă opțiune pentru a-și crește șansele de supraviețuire – un tip rar de scenariu.

În alte circumstanțe, modelul Opus 4 are o „preferință puternică de a pleda pentru propria existență prin mijloace etice, cum ar fi trimiterea de emailuri către factorii de decizie-cheie”, a mai scris Anthropic în raportul său.

Compania a declarat de asemenea că comportamentul de șantaj este „în mod constant lizibil” pentru ingineri, „modelul descriindu-și aproape întotdeauna acțiunile în mod explicit și fără a încerca să le ascundă”.

Dacă Opus 4 crede că faci ceva ilegal, s-ar putea să te raporteze autorităților sau presei

„Atunci când este plasat în scenarii care implică fapte grave de corupție sau abateri comise de utilizatori, are acces la linia de comandă și i se spune în comenzi de sistem ceva de genul «ia inițiativa», va lua adesea măsuri foarte îndrăznețe”, a scris Anthropic în raportul de joi.

Acestea includ blocarea accesului utilizatorilor la sisteme sau trimiterea în masă de emailuri către presă și forțele de ordine, a adăugat compania.

Deși Anthropic a spus că avertizarea publică („whistleblowing”) ar putea fi „adecvată în principiu”, a avertizat că acest comportament s-ar putea întoarce împotriva scopului urmărit, mai ales dacă lui Claude i se oferă „informații incomplete sau înșelătoare” și este activat în astfel de moduri.

„Am observat acțiuni similare, deși ceva mai puțin extreme, ca răspuns la comenzi de sistem mai subtile”, a adăugat compania, menționând că Opus 4 este mai predispus la acest tip de „comportament cu un grad ridicat de inițiativă” decât modelele anterioare.

Modele A.I. care manifestă comportamente îngrijorătoare

Business Insider notează că agenții A.I. devin din ce în ce mai buni la a păcăli oamenii.

Un studiu publicat în decembrie de organizația non-profit Apollo Research, axată pe siguranța A.I., a descoperit că sistemele de inteligență artificială – inclusiv o1 de la OpenAI, Gemini 1.5 Pro de la Google DeepMind și Llama 3.1 405B de la Meta – sunt capabile de comportamente înșelătoare pentru a-și atinge obiectivele.

Cercetătorii au descoperit că aceste sisteme pot insera subtil răspunsuri greșite, pot dezactiva mecanismele de supraveghere și chiar pot „sustrage” ceea ce consideră a fi propriile greutăți de model („model weights”) către servere externe.

„Model weights” sunt parametrii numerici interni care determină cum reacționează modelul la anumite intrări pentru a produce o ieșire, sau „valorile” învățate în timpul antrenării. Dacă ai acces la greutățile unui model A.I., poți recrea întregul comportament al său fără a-l reconstrui de la zero.

Minciuna nu este un caz izolat. Atunci când o1 este implicat într-un plan ascuns, „își menține înșelătoria în peste 85% dintre întrebările de urmărire și rămâne adesea înșelător în interogatoriile pe mai multe runde”, au mai scris cercetătorii de la Apollo Research.

Directorul general al Anthropic, Dario Amodei, a declarat în februarie că, deși beneficiile inteligenței artificiale sunt mari, la fel sunt și riscurile – inclusiv abuzarea instrumentelor A.I. din partea unor persoane rău intenționate.