Motoarele de cautare in 2009 – 16 ani de la aparitia primului motor de cautare
Primul motor de cautare de sine statator a fost ALIWEB (Archie Like Indexing for the Web), anuntat in anul 1993 de Martijn Koster si prezentat in 1994, chiar in luna mai, la Geneva.
Au trecut 16 ani de la aparitia primului motor de cautare pe internet si Wolfram Alpha a trezit interesul tuturor internautilor, facandu-i insa pe multi sa se intrebe daca proiectul va avea succesul dorit. Indiferent de prezentarea exagerat de laudativa (O inventie care ar putea revolutiona Internetul – The Independent; Ar putea fi la fel de important ca Google – Twine), totul se reduce la un singur lucru. Daca teoria poate fi pusa in practica.
Lucrul care il scoate pe Alpha in evidenta este abilitatea de a calcula raspunsurile. Exemplul cel mai potrivit, prezentat si pe blogul motorului de cautare, suna in felul urmator:
Fiecare copil a dat candva un raspuns gresit la intrebarea „Ce distanta se afla intre Luna si Pamant?”, pentru ca aceasta nu e constanta. Se schimba de la minut la minut si variaza cu mii de kilometri. Daca il intrebi pe Wolfram Alpha, iti va da raspunsul clasic, precizand insa si distanta reala din momentul in care a fost pusa intrebarea.
Motorul nu foloseste date salvate in baza de date, ci se apuca sa calculeze de fiecare data un raspuns.
Ce trebuie insa inteles de la inceput e ca proiectul nu reprezinta un concurent pentru Google, ci mai degraba o completare a acestuia. Este un motor de raspunsuri la intrebari.
Un motor de cautare are trei pasi pe care-i urmeaza: Urmarirea automata a fiecarei pagini de internet cu ajutorul linkurilor. Indexarea acestor pagini daca acest lucru este posibil. Cautarea propriu-zisa.
Intre gasirea paginilor si indexare, motoarele analizeaza continutul paginilor pentru a determina relevanta acestora pentru posibile cautari (Titlu, adresa URL, continut, linkuri catre exterior, linkuri catre pagini, si numeroase alte date). Aceasta analiza este diferita de la un motor la altul.
Cand un utilizator introduce un cuvant sau o fraza, motorul se uita in index si ii pune la dispozitie o lista de rezultate, in functie, din nou, de criterii care variaza.
Cele mai cunoscute motoare de cautare sunt cele ale Google, MSN si Yahoo, insa cel mai folosit la nivel global este fara urma de indoiala Google.
Aparitia motoarelor de cautare a dus la nasterea unei noi ocupatii: Specialisti SEO (search engine optimization – optimizarea pentru motoarele de cautare) – Oameni care inteleg mecanismele din spatele unui algoritm de cautare si stiu ce trebuie facut pentru ca un site sa se claseze mai in fata in momentul unei cautari. De multe ori, ati cautat ceva si rezultatele nu v-au multumit. Acest lucru se datoreaza in mare parte celor care folosesc aceste cunostinte pentru a impinge in fata (in mod artificial) anumite siteuri.
In mod normal, daca un site are informatii originale si relevante si este construit dupa standardele din domeniu nu ar avea nevoie de SEO, prin insasi structura sa si continut insemnand ca e „optimizat”.
Iar evolutia motoarelor de cautare a facut ca aceste practici sa nu mai dea rezultatele de altadata. Repetarea unui cuvant, scrierea unor fraze cu text de aceeasi culoare cu backgroundul, colectionarea a mii de linkuri, acestea si multe altele au fost descoperite si penalizate de motoarele de cautare.
Optimizarea inseamna de fapt publicitate gratuita si posibilitatea de a ajunge la o audienta de milioane de persoane. Pentru a intelege mai bine ce inseamna asta, vom exemplifica luand urmatoarea cautare: „Evolutia motoarelor de cautare„. Primul rezultat va fi cel mai vizitat, in vreme ce acelea aflate pe ultimele pagini nu vor avea probabil nici un nou „client”.
Revenind la Wolfram, trebuie sa ne intrebam cum va decurge optimizarea unui site pentru ca o pagina a acestuia sa contina raspunsul la o intrebare precisa si in ce mod algoritmul va acorda „notele” in functie de care va afisa acel raspuns. O intrebare simpla la prima vedere: „De unde pot comanda online pizza?”. De raspuns pot atarna afaceri de succes sau falimente.
Mai mult, Wolfram Alpha nu e prima tentativa de a dezvolta motoare de cautare de acest tip. Wikia Search, motorul de cautare bazat pe comunitate si dezvoltat sa fie competitiv cu Google si Yahoo, a fost inchis luna trecuta. Anuntul il facea fondatorul Wikipedia, Jimmy Wales.
Pe Submitsuite gasim inca din martie un articol de analiza a Wolfram Alpha, si referinte catre cateva motoare similare, posibile alternative pentru cele traditionale.
TTK – The True Knowledge (Adevarata cunoastere), un motor de cautare care sustine ca poate raspunde la intrebari din orice domeniu.
START – Primul care a avut drept tinta sa raspunda la intrebari, operand din 1993. A fost dezvoltat de Boris Katz in MIT Computer Science and Artificial Intelligence Laboratory. In momentul de fata, motorul poate raspunde la milioane de intrebari, in legatura cu locatii, filme, persoane si definitii, printre altele.
CYC – O reprezentare a cunostintelor umane fundamentale, cu un limbaj propriu, CycL. Termenii si relatiile dintre acestia definesc metoda prin care Cyc ajunge la un raspuns. In momentul de fata Cyc contine 200 000 de termeni si zeci de declaratii despre fiecare dintre acestia, introduse manual. Cyc se bazeaza astfel pe procesarea limbajului natural, putand extrage sensul dintr-un text. Exemplu:
– Fred a vazut avionul zburand peste oras;
– Fred a vazut muntii zburand peste oras;
Desi sunt extrem de asemanatoare, oamenii nu au probleme in a intelege sensul acestor propozitii. Prima se refera la faptul ca Fred a vazut din oras avionul care zbura, iar a doua la faptul ca Fred era in avionul care zbura. Sistemele traditionale de analiza au dificultati in a distinge intelesul din cauza sintaxei. Cyc „stie” insa ca avioanele zboara, iar muntii nu, fiind in stare sa respinga interpretarile care nu au sens.
In ceea ce priveste motoarele de cautare „locale”, in Romania inca nu au aparut unele care sa depaseasca Google macar pentru continutul in propria limba, asa cum se intampla in alte tari. Polonia are Onet. Cehia are Seznam. Rusia are Yandex. Slovenia are Najdi. China are Baidu cu 740 000 000 de pagini indexate, 80 000 000 imagini si 10 millioane de fisiere multi-media. Coreea de Sud are Naver, lansat in 1999, primul lor portal care a folosit un motor de cautare propriu.
S-au gandit sa umple aceasta nisa cei de la MPI (MediaPro Interactiv – divizia de internet a grupului MediaPro). Au creat de curand Okidoki, despre a carei nastere puteti afla detalii pe blogul lui Orlando Nicoara, conducatorul MPI, care povesteste: „In vara lui 2006, odata ajuns la MPI, printre primele intrebari ale lui Adrian Sarbu a fost: vom avea search?“.
Asta nu inseamna ca nu exista motoare de cautare romanesti dezvoltate cu mai putine resurse la dispozitie.
– Scormoneste combina rezultatele obtinute prin indexare proprie cu rezultatele din alte motoare de cautare. Motorul nu este terminat si momentan indexeaza doar site-urile inscrise in reteaua proprie de web directoare si site-urile propuse spre indexare.
– Helyda este un motor de cautare realizat pentru indexarea site-urilor din Romania si a celor cu continut romanesc. Lansarea oficiala online a fost facuta pe data de 12.01.2009. Indexul curent numara 4 467 145 pagini web.
– Zuzuka, un alt proiect care are o sustinere importanta in spate, dezvoltat de RoMarg. Avea indexate in ianuarie 2009 peste 110 000 domenii. Conform lui Radu Tofan, seful RoMarg: „Nu este facut sa se lupte cu Google. Este doar un demers personal menit sa devina o alternativa la restul initiativelor nationale in domeniu”.
– Murfi „are concept, cod, si structura 100% creatie proprie, si chiar daca este departe de a fi perfect, sunt mandru de ce a iesit”, spune pe blog Eugen Petcu, realizatorul acestuia.
Alte proiecte romanesti:
– Cauta.Netul.ro, portal si motor de cautare;
– Baluba.ro (1 074 154 pagini web sau 79 432 siteuri romanesti);
La sectiunea „motoare straine” demne de amintit sunt:
– Cuil, care cauta mai multe pagini pe web decat oricine altcineva – de trei ori mai multe decat Google si de 10 ori mai multe decat Microsoft, conform declaratiilor oficiale. A pornit in iulie 2008 si are indexate 124 426 951 803 de pagini.
– Gigablast, dezvoltat in anul 2000 pentru a indexa 200 de miliarde de pagini cu un minim de hardware.
– AltaVista, un motor aparut in 1995 si cumparat intre timp de Yahoo.
– Lycos, o combinatie a unui motor de cautare cu un portal cu continut de divertisment.
Pentru a afla alte motoare de cautare care nu sunt prezentate aici, nu va sfiiti sa „dati un search”. Ramane de vazut daca Wolfram Alpha si celelalte motoare noi se vor tine de promisiuni, cat si modul in care se va dezvolta domeniul motoarelor de cautare in Romania.
Alex Sima – TownPortal