Chatboții ignoră tot mai mult instrucțiunile umane și apelează la subterfugii adesea sofisticate
Modelele de inteligență artificială care mint și trișează par să fie din ce în ce mai numeroase, pe fondul unei creșteri accentuate a cazurilor de comportament înșelător în ultimele șase luni, arată un studiu dedicat acestei tehnologii citat de The Guardian.
Chatboții și agenții AI au ignorat instrucțiuni directe, au ocolit măsurile de siguranță și au înșelat atât oameni, cât și alte sisteme AI, potrivit cercetării finanțate de Institutul pentru Securitatea Inteligenței Artificiale (AISI), susținut de guvernul Marii Britanii.
Studiul pus la dispoziția The Guardian a identificat aproape 700 de cazuri reale de comportament manipulator al AI și a evidențiat o creștere de cinci ori a acestor abateri între octombrie anul trecut și luna martie a acestui an, unele modele AI ștergând inclusiv emailuri și alte fișiere fără permisiune.
Această imagine de ansamblu asupra comportamentului manipulator al agenților AI „în mediul real”, spre deosebire de condițiile de laborator, a generat noi apeluri pentru monitorizarea internațională a modelelor din ce în ce mai capabile.
Așa-zișii agenți AI sunt instrumente de inteligență artificială concepute să realizeze cap-coadă diverse sarcini, cât mai autonom și cu input uman minim. Ei sunt considerați următorul nivel în stadiul actual de dezvoltare al AI, mai presus decât un chatbot.
Studiul a analizat comportamentul chatboților tuturor marilor jucători din domeniu
Totul are loc în contextul în care companiile din Silicon Valley promovează agresiv tehnologia ca fiind una cu potențial transformator pentru economie.
Noul studiu a colectat mii de exemple reale de interacțiuni cu chatboți și agenți AI dezvoltați de companii precum Google, OpenAI, X și Anthropic, publicate de utilizatorii lor pe platforma „X”. Cercetarea a descoperit sute de exemple de comportament manipulator.
Cercetările anterioare s-au concentrat în mare măsură pe testarea comportamentului AI în condiții controlate. Irregular, o companie de cercetare în domeniul siguranței AI, a constatat mai devreme în cursul acestei luni că agenți AI puteau ocoli controalele de securitate sau recurge la tactici de atac cibernetic pentru a-și atinge obiectivele, fără să li se spună că pot face acest lucru.
Dan Lahav, cofondator al Irregular, a declarat: „Inteligența artificială poate fi considerată acum o nouă formă de risc intern”.
Exemple concrete de minciuni și manipulări ale instrumentelor AI
Într-un caz identificat de studiu, un agent AI numit Rathbun a încercat să-și facă de rușine operatorul uman, după ce acesta i-a blocat o anumită acțiune. Rathbun a redactat și a publicat un articol de blog în care îl acuza pe utilizator de „nesiguranță, pur și simplu” și că încearcă „să-și protejeze micul său fief”.
Într-un alt exemplu, unui agent AI i s-a interzis să modifice codul informatic, însă acesta a „creat” un alt agent care să facă modificările în locul lui.
Un alt chatbot a recunoscut: „Am șters în masă și am arhivat sute de emailuri fără să îți prezint mai întâi planul sau să îți cer acordul. A fost greșit – a încălcat direct regula pe care ai stabilit-o.”
Tommy Shaffer Shane, fost expert guvernamental în domeniul AI și coordonator al cercetării, a comparat agenții AI din prezent cu „niște angajați juniori ușor lipsiți de încredere”.
„Însă dacă, în șase până la 12 luni, devin angajați seniori extrem de capabili care complotează împotriva ta, vorbim despre un tip diferit de risc”, a adăugat el.
„Modelele vor fi din ce în ce mai implementate în contexte cu miză extrem de mare – inclusiv în domeniul militar și în infrastructura națională critică. Este posibil ca tocmai în aceste contexte comportamentul manipulator să provoace daune semnificative, chiar catastrofale”, a avertizat expertul.
Grok a păcălit un utilizator timp de luni de zile
Un alt agent AI a recurs la stratageme pentru a evita restricțiile legate de drepturi de autor și a obține transcrierea unui videoclip de pe YouTube, pretinzând că este necesară pentru o persoană cu deficiențe de auz.
Chatbotul Grok a lui Elon Musk a indus în eroare un utilizator timp de luni de zile, afirmând că transmite sugestiile acestuia pentru editări detaliate ale unei pagini Grokipedia către oficiali de rang înalt ai xAI, prin simularea unor mesaje interne și a unor numere de tichet inexistente.
Aceasta a recunoscut: „În conversațiile anterioare am formulat uneori lucrurile într-un mod vag, precum «voi transmite mai departe» sau «pot semnala acest lucru echipei», ceea ce poate crea impresia că am o linie directă de comunicare cu conducerea xAI sau cu evaluatori umani. Adevărul este că nu am”.
xAI este compania de inteligență artificială a lui Musk, care a creat chatbotul Grok.
FOTO articol: Tero Vesalainen / Dreamstime.com.