Proiect NewsMix-HotNews.ro: Paginile candidatilor la presedintie
Care sint informatiile relevante despre candidatii la alegerile prezidentiale din 22 noiembrie? Care sint legaturile intre numele fiecaruia si restul actorilor de pe scena politica? Cit de des apare numele lor in presa online si care e tendinta? HotNews.ro si NewsMix vor prezenta aceste informatii zilnic, in cadrul unui proiect special care-i are in centru pe cei patru candidati cotati cu sanse reale pentru al doilea tur: Crin Antonescu, Traian Basescu, Mircea Geoana si Sorin Oprescu. Dan Selaru, membru in echipa NewsMix, vorbeste despre modul in care cercetarea matematica se poate aplica in domeniul politic.
Ce informatii noi aduce acest proiect comun NewsMix – HotNews.ro?
Pentru fiecare candidat exista o suma de articole care-l mentioneaza. Din toate articolele respective se detaseaza – printr-un proces care tehnic se cheama clusterizare, si care mai putin tehnic este gasirea subiectelor care atrag cele mai multe opinii din presa online – articolul care este cumva media acestora, cel care este centrul grupului. Noi nu alegem nimic, e un proces matematic, un algoritm care calculeaza distantele intre documente, acestea se auto-organizeaza si noi doar scoatem subiectele zilei care-l privesc pe candidat si articolele reprezentative pentru fiecare subiect. Plus articolele asociate acestui articol de referinta.
Mai e un lucru important care poate trece nebagat in seama. Lista „personajelor” care-l insotesc pe fiecare candidat. In articolele despre Traian Basescu este mult mai des intalnit PSD-ul decat PDL-ul. Ciudat? Partidul Social Democrat este sinonimizat cu PSD sau Partidului Social Democrat si sunt adunate toate formele.
Mai este un proces in spate, familiile de cuvinte sunt grupate automat. Cuvintele comune „criza, crizei, crizelor” si asa mai departe sunt considerate un singur cuvant, reprezentantul este forma care apare cel mai des, de asta cateodata un cuvant apare articulat si altul nu, asa se scrie in presa. Oricum, mie-mi pare interesant sa stiu care sunt cuvintele cu care fiecare termen e asociat.
O sa scriem analize ale rezultatelor, sper eu pe intelesul publicului.
Care sint metodele prin care se obtin aceste informatii?
Textele sunt publice. Aici problema este grea pentru ca pot sa scot informatia precum Google, in forma bruta, sau trebuie sa selectez din fiecare pagina doar articolul. Prima metoda nu e foarte complicata, a doua este. Metodele sunt matematice si nu numai. Unele sunt statistice, altele sunt obtinute in urma unor algoritmi inventati, altii doar adaptati la limba romana. E o limba ingrozitor de greu de algoritmizat, nu se compara cu limba engleza. Ceea ce pare simplu in vorbe e complicat in practica. Confruntarea cu realitatea a fost mai dura decat ne asteptam.
Nici un algoritm nu poate acoperi intreaga gama a aberatiilor tehnice cu care te intalnesti in realitate, e o fatalitate a imperfectiunii. Metoda pe care am folosit-o a fost sa fim rezonabili. Cele mai multe cuvinte din dictionarele noastre sunt greseli de ortografie, un balast ingrozitor. Dar poate cineva de la vreun minister o sa fie interesat vreodata sa stie ce nu stiu romanii sa scrie corect si sa faca o lista de greseli comune pe care sa le corecteze. Si din scrisul gresit se pot obtine informatii valoroase.
Cine face parte din echipa NewsMix?
Patru oameni, doi doctori in matematica batrani, un programator batran si un investitor entuziast si tanar. Manole Buican, Catalin Cucu – Dumitrescu, Daniel Enache si subsemnatul, Dan Selaru.
Ce face, de fapt, Newsmix?
Este un analizor statistic si nu numai al mediei online. Extragem continutul ascuns in spatele cuvintelor. Se cheama data mining pentru specialisti. Si e cateodata mai relevant chiar decat continutul in sine. Pot sa spun de cate ori zice cineva ceva despre ceva. Pot sa spun care sunt subiectele zilei. Pot sa spun care sunt articolele zilei. Cateodata pot sa spun si cine s-a inspirat de la cine.
De cat timp lucrati la acest proiect?
De doi ani, e unul din putinele proiecte din Romania in care initiativa privata se intalneste cu cercetarea stiintifica. As zice ca e un succes inainte de a fi unul financiar, cineva a avut curajul sa investeasca in cercetarea romaneasca. Lucru rar.
De ce iesiti cu el pe piata abia acum?
Pentru ca acum avem un produs. Am mai incercat, dar criza a lovit pe toata lumea.
De ce nu ati continuat sa faceti cercetare?
Pai NewsMix inseamna cercetare, facem rezumate automate pentru articole, distante matematice intre articolele din presa, putem automat sa realizam legaturile intre personaje, facem sinonimie si inca multe altele care sunt secrete de serviciu. Viitorul este agregarea inteligenta a continutului, nimeni nu are capacitatea sa citeasca tot, si nici interesul, dar daca e interesat de un subiect poate obtine continutul structurat exact pe subiectul dorit. Nu exista niciunde in lume cineva care sa aiba curajul sa expuna rezumate facute automat. Noi o facem.
Urmariti in mod special candidatii la presedintie?
In proiectul cu Hotnews da, pentru ca este subiectul zilei. Dar putem sa analizam comportamentul presei fata de orice alt subiect, de la sistemul de sanatate la domeniul bancar sau cursul valutar.
Vezi aici paginile celor patru candidati: