Skip to content

Un misterios și puternic model AI nu vrea să spună cine l-a făcut: „Îmi știu doar numele și parametrii”

Un puternic model de inteligență artificială, care a apărut în mod anonim pe o platformă pentru dezvoltatori săptămâna trecută, a stârnit speculații potrivit cărora startup-ul chinez DeepSeek ar putea testa în secret sistemul său de nouă generație înainte de lansarea oficială, transmite Reuters.

Modelul gratuit, denumit Hunter Alpha, a apărut pe platforma de acces la IA OpenRouter pe 11 martie, fără nicio mențiune privind autorul, fiind descris ulterior de platformă drept un „model ascuns”.

În timpul testelor efectuate de Reuters, chatbotul Hunter Alpha s-a descris ca fiind „un model chinez de IA antrenat în principal în limba chineză” și a afirmat că datele sale de antrenament se extind până în mai 2025, același punct de referință al cunoștințelor raportat de chatbotul al DeepSeek.

Hunter Alpha nu spune cine l-a creat

Cu toate acestea, când a fost întrebat despre creatorul său, sistemul a refuzat să spună cine l-a dezvoltat.

„Îmi știu doar numele, scala parametrilor mei și lungimea ferestrei de context”, a spus chatbotul.

Nici DeepSeek, nici OpenRouter nu au identificat creatorul modelului și nu au răspuns la solicitările de declarații.

Pagina de profil a lui Hunter Alpha îl descrie drept un model cu 1 trilion de parametri, ceea ce înseamnă că a fost antrenat folosind aproximativ un trilion de valori ajustabile care determină modul în care sistemul procesează limbajul și generează răspunsuri. Modelele cu mai mulți parametri necesită, în general, o putere de calcul semnificativ mai mare pentru a funcționa.

Sistemul promovează, de asemenea, o fereastră de context de până la un milion de tokenuri, o măsură a cantității de text pe care un model de IA o poate procesa sau reține în timpul unei singure interacțiuni. Un token corespunde aproximativ unei bucăți scurte de text, cum ar fi o parte dintr-un cuvânt.

„Combinația care s-a remarcat a fost contextul de 1 milion de tokenuri al lui Hunter Alpha, asociat cu capacitatea de raționament și accesul gratuit”, a spus Nabil Haouam, un inginer care construiește sisteme de agenți IA.

„Majoritatea modelelor de ultimă generație cu acea fereastră de context implică costuri reale la scară largă”, a adăugat el.

Indiciile duc spre DeepSeek, dar nu toți sunt convinși

Aceste specificații seamănă cu așteptările din presa locală privind modelul V4 de nouă generație al DeepSeek, despre care publicațiile chineze au raportat că ar putea fi lansat încă din aprilie. DeepSeek, la fel ca mulți dintre concurenții săi chinezi, este bine finanțat, deși are o structură neobișnuită, având în vedere că societatea-mamă este un fond speculativ cantitativ și nu un conglomerat tehnologic.

Deși suprapunerea nu stabilește o legătură directă, aceasta a intensificat speculațiile în rândul dezvoltatorilor că sistemul anonim ar putea fi o versiune de testare timpurie a viitoarei lansări a DeepSeek.

„Modelul lanțului de gândire este probabil cel mai puternic semnal”, a spus Daniel Dewhurst, un inginer de IA care a analizat modelul după lansarea sa, referindu-se la modul în care raționează modelul de inteligență artificială.

„Stilul de raționament este greu de ascuns și tinde să reflecte modul în care a fost antrenat un model.”

De asemenea, scara și capacitatea de memorie a lui Hunter Alpha corespund specificațiilor care au circulat pentru DeepSeek V4 de la începutul acestui an, a spus el.

Totuși, unii dezvoltatori au avertizat că dovezile care leagă modelul de DeepSeek nu sunt concludente.

„Analiza mea sugerează că Hunter Alpha probabil nu este DeepSeek V4”, a spus Umur Ozkul, care efectuează teste independente de performanță pentru IA, citând diferențe în comportamentul legat de tokenuri și în modelele arhitecturale în comparație cu sistemele existente ale DeepSeek.

El a spus că speculațiile care leagă modelul de DeepSeek sunt de înțeles, având în vedere momentul și capacitățile promovate.

Foto: Gaewchiangmai | Dreamstime.com