DeepMind a creat un sistem de vorbire generata de computer care surclaseaza net tehnologia existenta

Unitatea DeepMind a Google, care lucreaza la dezvoltarea de computere super-inteligente, a creat un sistem de vorbire generata de computer care, potrivit autorilor, care surclaseaza, cu circa 50%, tehnologia existenta, informeaza Bloomberg Technology.

Unitatea Deep Mind, aflata in Londra, a fost achizitionata de Google in 2014 pentru suma de 400 milioane de lire (533 milioane dolari). Deep Mind a dezvoltat WaveNet, o inteligenta artificiala care poate imita vorbirea umana invatand cum sa formeze undele de sunet individuale pe care le creaza o voce umana, se arata intr-o postare pe blogul sau.

In testele pentru engleza americana si chineza mandarina, ascultatorii au considerat ca vorbirea generata de WaveNet suna mult mai natural decat ce creata de oricare alte programe Google de transformare a textului in vorbire. WaveNet s-a prezentat insa sub vorbirea umana. DeepMind prezinta pe blogul sau mostre de vorbire WaveNet.

Majoritatea programelor de vorbire generata de computer functioneaza pe baza unui set mare de date care cuprinde scurte inregistrari ale aceleiasi persoane, combinand aceste fragmente de vorbire pentru a forma noi cuvinte.

Rezultatul este inteligibil si suna uman, insa nu complet natural. Dezavantajul este ca sunetul vocii nu poate fi modificat usor. Alte sisteme formeaza complet electronic vocea, in general in baza unor reguli despre cum sunt pronuntatea anumite combinatii de litere. Aceste sisteme permit ca sunetul vocii sa fie usor modelat, insa tind sa sune mai putin natural decat vorbirea generata de computer pe baza unor inregistrari ale unor voci umane, arata DeepMind.

WaveNet este un tip de inteligenta artificiala numita retea neuronala, care este proiectat sa imite felul in care functioneaza anumite functii ale creierului. Astfel de retele trebuie sa fie instruite cu ajutorul unor seturi mai de date.

WaveNet nu va avea aplicatii comerciale imediate, pentru ca sistemul necesita prea multa putere de calcul: trebuie sa esantioneze cu foarte mare viteza semnalul audio cu care este instruit. Apoi, pentru fiecare dintre aceste probe trebuie sa formeze o predictie cu privire la felul in care ar trebui sa arate unda sonora bazat pe fiecare din probele anterioare. Chiar si cercetatorii DeepMind au recunoscut ca acest lucru „este o sarcina in mod clar provocatoare”.

Cu toate acestea, companiile tech vor acorda, cu siguranta, o atentie sporita reusitelor DeepMind. Discursul devine din ce in ce mai important in felul in care oamenii interactioneaza cu tehnologia, de la telefoane mobile la autoturisme.

Amazon.com Inc., Apple Inc., Microsoft Inc. si Alphabet Inc. a lui Google, toate au investit in asistenti personali digitali care interactioneaza cu utilizatorii in principal prin vorbire.

Bennett, Mark, directorul international al Google Play, care vinde aplicatii Android, a declarat la o conferinta a dezvoltatorului Android, desfasurata la Londra saptamana trecuta, ca 20% din cautarile pe mobile folosind Google sunt realizate prin voce, nu prin text scris.