Sari direct la conținut

Cum functioneaza traducerea audio instant si cum vede Microsoft viitorul acestui domeniu

HotNews.ro
Traducere instant, Foto: Microsoft
Traducere instant, Foto: Microsoft

Un terminal care sa traduca instant conversatia dintre doua persoane parea de domeniul SF-ului acum cateva zeci de ani, iar dupa 1980 cercetatorii au testat traduceri audio instantanee, insa fara mare succes. Doar in ultimii ani progresele au fost cu adevarat mari si companii precum Microsoft si Google adauga noi limbi straine si perfectioneaza rezultatele. Insa testele practice arata ca mai este mult de lucru, fiindca modul in care vorbim pune mari probleme soft-urilor de invatare automata. In articol puteti citi cum vede Microsoft dezvoltarea traducerii audio instant si daca traducatorii profesionisti ar trebui sa se simta in pericol.

Dupa ce Microsoft a cumparat Skype, compania a anuntat un proiect indraznet: traducerea audio in timp real a unei conversatii.

Microsoft a fost preocupata inca din anii 90′ de traducerea audio si Bill Gates estima atunci ca in zece ani aceasta va fi disponibila. Nu a fost sa fie si cercetatorii se straduiau atunci sa catalogheze diverse reguli de gramatica si moduri de folosire. Abia dupa 2009 tehnicile statistice ay fost combinate cu retelele neurale si cu cele mai noi progrese din cloud-computing si traducerea instantanee a devenit fezabila.

Un astfel de proiect este cat se poate de util fiindca poti sa te descurci mai usor intr-o tara straina doar ajutat de un smartphone conectat la internet si de o aplicatie. La fel, si discutiile de business pot fi mult simplificate de o unealta care elimina barierele lingvistice. Acum, companii mari precum Microsoft, Google, Baidu, Facebook si IBM lucreaza la diverse solutii de traducere automata fiindca potentialul domeniului este urias si pot fi lansate in viitor noi servicii premium contra cost pentru companii.

Pentru traducerea instant sunt utilizate mai multe tehnologii si unelte, precum „machine learning”, in special inteligenta artificiala avansata, big data, lingvistica, cloud computing si API-uri web.

Microsoft testeaza in interiorul compnaiei traducerea text din 2006, iar din 2013 a inceput teste cu traducerea audio in timp real pe Skype (companie pe care a cumparat-o cu 8,5 miliarde dolari in 2011).

Primele teste cu traducerea vocala instant au fost anuntate acum trei ani cand s-a inceput cu spaniola si engleza. De atunci s-au adaugat noi limbi: chineza, italiana, franceza, germana, portugheza (in decembrie) si araba (acum o luna).

„Am adaugat limbile importante si din tari in care nu sunt foarte multi vorbitori de engleza. Alte limbi vor urma curand”, spune Olivier Fontana, director de marketing la Skype Translator si Microsoft Translator. El spune ca alte limbi sunt in pregatire, insa nu a vrut sa le nominalizeze.

Traducerea audio este disponibila pentru cele opt limbi mentionate mai sus, cea de text este disponibila pentru mai mult de 50 de limbi, inclusiv romana.

Cateva teste practice de conversatie au aratat ca mai sunt insa multe de rezolvat chiar si in aceste limbi in care traducerea audio instant a fost lansata. Programul nu intelege sensul exact in fraza pentru unele cuvinte, iar pe altele le interpreteaza gresit.

Conteaza enorm accentul cu care rostim cuvintele, de aici putand aparea multe confuzii, mai ales in limbi complexe precum chineza. O influenta mare asupra traducerii o are si faptul ca vorbim mult diferit fata de cum scriem. De exemplu, in vorbire oamenii nu fac mereu pauza la final de propozitie, astfel ca pauzele nu pot fi luate ca reper ce arata ca se termina propozitia, cum se intampla cu punctul din scris. Ca traducerea sa fie cat mai buna este important cum pronuntam anumite cuvinte si este important sa nu fie zgomot in jur.

Ar mai fi o mare problema ce tine de diferenta dintre modul in care vorbim si cel in care scriem „Nu vorbim curat, ci folosim repetitii si anumite cuvinte de legatura, scurtam alte cuvinte. Aceste lucruri fac ca traducerea sa nu iasa bine, astfel ca la Microsoft in fiecare limba cream un care curata exprimarea pentru a intelege exact ce ai vrut sa spui”, spune Olivier Fontana.

Acest este obtinut atat prin mijloace din inteligenta artificiala, cat si prin diversele modele de exprimare din fiecare limba, asta insemnand ca exista informatii despre cum ar trebui sa arate topica frazelor in diverse limbi. „Folosm toate acestea pentru a vedea unde trebuie sa punem semne de imtrebare, unde sa plasam virgula si apoi asamblam totul”.

Asadar, traducerea vocala trece tot prin procedeul similar al traducerii de text, existand insa aceasta faza suplimentara de „curatare” si de rearanjare a celor spuse. Interesant este ca Skype a platit userii ca sa vorbeasca pe aplicatie despre diverse subiecte, pentru ca era nevoie de cat mai multe date despre cum vorbesc oamenii in viata de zi cu zi.

Cu cat mai multe date sunt introduse, cu atat traducerea este mai exacta. Traducerea se face pornind de la structuri mici, de maxim cinci-sapte cuvinte.

Ce se va schimba la traducerea vocala instant in urmatorii ani? Va fi important sa se perfectioneze traducerea pe domenii specifice, cum ar fi biologia sau tehnologia, iar pentru asta va fi nevoie de date pe care nu le vom avea pana cand multi oameni nu vor purta discutii pe acele domenii, spune oficialul companiei. Traducerea generalista este deja in forma buna, cea de nisa are inca mult de avansat.

Olivier Fontana nu are ambitii supra-omenesti cand este vorba de traducerea instant. „Nu vrem sa inlocuim oamenii si cred ca si traducatorii de profesie pot folosi aplicatia, insa doar in primul pas, pentru a grabi lucrurile – si apoi fac corecturile necesare”.

Anul trecut au fost lansate aplicatiile Microsoft Translator pentru Android si iOS carora li s-au adaugat noi functionalitati, cum ar fi traducerea instant a textelor din poze sau chiar traducerea in limbajul gesturilor folosit de surdo-muti.

Extrem de important pentru dezvoltarea traducerii instantanee este conceptul de retele neurale. Aceste retele (artificial neural network) sunt o ramura din stiinta inteligentei artificiale si sunt compuse din neuroni artificiali. Principala trasatura a acestor retele este capacitatea de a invata pe baza de exemple, folosindu-se de experienta anterioara pentru a-si imbunatati performantele.

Desi se aseamana in functionare cu creierul uman, retelele neurale au o structura diferita de cea a creierului. O retea neurala este mult mai simpla decat corespondentul sau uman, dar la fel ca si creierul uman, este compusa din unitati puternice cu capacitate de calcul, mult inferioare insa corespondentului uman, neuronul.

Printre domeniile in care aceste retele sunt eficiente se numara recunoasterea diverselor tipare, recunoasterea vocala, clasificarile, scanarea retinei si predictiile unor serii temporale.

ARHIVĂ COMENTARII
INTERVIURILE HotNews.ro