Science Report: Inginerii de la Universitatea Columbia reproduc direct în vorbire semnalele creierului

Într-o premieră științifică, neuroinginerii de la Columbia au creat un sistem care traduce gândul în vorbire inteligibilă și care poate fi recunoscută. Monitorizând activitatea cerebrală a unei persoane, tehnologia poate reconstrui cuvintele pe care altcineva le aude cu o claritate fără precedent. Această descoperire, care îngemănează puterea sintetizatoarelor de cuvinte cu inteligența artificială, poate conduce la noi moduri în care calculatoarele pot comunica direct cu creierul.

De asemenea, pune bazele asistării persoanelor care nu pot vorbi, cum sunt cele care suferă de scleroză laterală amiotrofică sau care se refac după un accident vascular cerebral, și-i ajută să redobândească abilitatea de a comunica cu lumea înconjurătoare. Rezultatele au fost publicate în revista Scientific Reports.

„Vocea ne permite să ne conectăm la prieteni, familie și la lumea din jur, de aceea pierderea ei ca urmare a unui accident sau a unei boli este atât de cumplită”, spune Nima Mesgarani, Ph.D., autorul principal al articolului și cercetător principal la Mortimer B. Zuckerman Mind Brain Behavior Institute de la Universitatea Columbia. „Datorită acestui studiu avem o cale potențială de a redobândi această abilitate. Am demonstrat că, prin această tehnologie, gândurile oamenilor pot fi decodate și înțelese de oricare ascultător”.

Decenii de cercetare au arătat că atunci când oamenii vorbesc – sau își imaginează că vorbesc – șabloane specifice de activitate apar în creier. Șabloane distincte, dar care pot fi recunoscute, apar și când ascultăm pe cineva vorbind sau ne imaginăm că ascultăm. Încercând să înregistreze și să decodeze aceste șabloane, experții văd un viitor în care gândurile nu vor mai rămâne ascunse în interiorul creierului, ci vor fi transpuse în voie în comunicare verbală.

Dar înfăptuirea acestui deziderat s-a dovedit a fi dificilă. Eforturile anterioare de decodare a semnalelor creierului ale dr. Mesgarani și ale altora s-au concentrat pe modele simple care analizau spectrograme, reprezentări vizuale ale frecvențelor sonore. Dar această abordare nu a reușit să producă ceva asemănător vorbirii inteligibile, iar atunci echipa lui dr. Mesgarani a apelat la „vocoder”, un algoritm care poate sintetiza vorbirea după ce a fost antrenat cu înregistrări ale vorbirii. „Este aceeași tehnologie utilizată de Amazon Echo și Apple Siri pentru a ne da răspunsuri la întrebări”, spune dr. Mesgarani, care este și profesor la Fu Foundation School of Engineering and Applied Science de la Columbia.

Pentru a instrui vocoderul cum să interpreteze activitatea cerebrală, Mesgarani a făcut echipă cu Ashesh Dinesh Mehta, Ph.D., neurochirurg la Northwell Physician Partners Neuroscience Institute și coautor al articolului. Dr. Mehta tratează pacienți cu epilepsie, care necesită uneori intervenții chirurgicale regulate. „Lucrând cu dr. Mehta, am cerut pacienților cu epilepsie care sunt supuși unor operații repetate să asculte propoziții spuse de persoane diferite în timp ce măsuram șabloane ale activității cerebrale”, a spus dr. Mesgarani. „Aceste șabloane neurale au antrenat vocoderul”.

Apoi, cercetătorii au cerut acelorași persoane să asculte vorbitori care numărau de la 0 la 9 în timp ce le înregistrau semnalele cerebrale, pe care le rulau ulterior pe vocoder. Sunetele produse de vocoder ca răspuns la acele semnale au fost analizate și filtrate de rețele neurale, un tip de inteligență artificială care imită structura neuronilor în creierul biologic. Rezultatul final a fost o voce robotică recitând o secvență de cifre. Pentru a testa acuratețea înregistrărilor, echipa a apelat la indivizi care le ascultau și reproduceau ce au înțeles.

„Am descoperit că oamenii pot înțelege și repeta sunetele cam 75% din timp, ceea ce este mult peste toate încercările anterioare”, a spus Mesgarani. Ameliorarea în inteligibilitate a fost în special evidentă în comparație cu tentativele anterioare bazate pe spectrograme. „Vocoderul sensibil și puternicele rețele neurale reproduceau cu o acuratețe surprinzătoare sunetele ascultate anterior de pacienți”.

Dr. Mesgarani și echipa sa plănuiesc să testeze cuvinte și propoziții mai complicate și vor să facă aceleași testări pe semnale cerebrale emise când o persoană vorbește sau își imaginează că o face. În final, ei speră că sistemul lor poate fi inclus într-un implant similar cu cele pe care le poartă deja unii pacienți cu epilepsie, care să transpună direct în cuvinte gândurile purtătorului. „În acest scenariu, dacă purtătorul gândește ʼVreau un pahar cu apăʼ, sistemul nostru poate prelua semnalele generate de acest gând și le va transforma în vorbire sintetizată”, spune dr. Mesgarani. „Aceasta ar fi o schimbare radicală. I-ar da cuiva care și-a pierdut abilitatea de a comunica, ca urmare a unui accident sau a unei boli, o nouă șansă de a se conecta la lumea din jur”. (Eurekalert! – eurokalert.com)