Robotii Web, regasiti si sub numele de paianjeni (spiders), sunt programe care traverseaza in mod automat structura hypertext a spatiului WWW, cu scopul extragerii unor informatii.

Trebuie sa facem o distinctie clara intre robotii Web si navigatoarele Web, acestea din urma fiind aplicatii actionate de om.

Activitatea unui robot Web consta in a transmite o cerere HTTP catre un server Web, pornind de la un identificator uniform de resurse (URI) – si in a extrage informatiile corespunzatoare dintr-un document HTML si din toate documentele desemnate de legaturile acestuia.

Robotii Web se pot utiliza in diverse scopuri, principalele fiind cele detaliate mai jos:

  • Analiza statica – prin traversarea completa a unui site Web particular robotul poate furniza diverse statistici pretioase referitoare la resursele procesate, precum media documentelor stocate pe acest server, procentul de documente de un anumit tip, lungimea medie a unei pagini, gradul de interconectare cu alte documente, locale sau la distanta etc. de fapt, primul robot implementat fost conceput tocmai cu scopul declarant de a contoriza toate serverele Web din lume, pentru a cerceta cat de intins este spatiul hypertext. De asemenea, robotii Web pot fi utilizati la descoperirea diverselor modele de date (pattern-uri) prin explorarea unei cantitati apreciabile de informatii disponibile pe web, fiind astfel implicati in activitati de descoperire a resurselor – cunoscuti in literatura de specialitate prin sintagma “minerit al datelor” (data mining). Acest aspect este imperios necesar in domenii precum comertul electronic;
  • Mentinerea legaturilor – in prezent este foarte important sa fie mentinuta in bune conditii starea legaturilor stabilite intre diverse documente Web. Un robot poate ajuta la descoperirea si rezolvarea asa-numitelor “legaturi moarte” care indica resurse inexistente. Desi serverele Web pot inregistra toate cererile care nu pot fi satisfacute din cauza specificarii adreselor invalide, administratorul unui site Web de proportii poate recurge la asistenta din partea unui robot ( ca MOMSpider) pentru descoperirea automata a legaturilor eronate. O alta aplicatie de acest gen este HTML Link Validator. Robotii pot verifica, de asemenea, si structura documentelor HTML, semnaland erorile de design si de stil ale acestora. Serviciul de validare ofetit de Consortiul Web reprezinta tocmai un astfel de robot;
  • Oglindire – tehnica oglindirii (mirroring) este preluata de la arhivele FTP si consta in copierea intr-o alta locatie a intregii structuri arborescente a unui site (adica a tuturor fisierelor sale, in mod recursiv) si in reactualizarea periodica a acestor copii. Oglindirea resurselor asigura fiabilitate, viteza mai mare de transfer, evitarea incarcarii traficului de retea, acces neconectat (off-line) etc. Pentru Web, oglindirea poate fi realizata de un robot (e.g.:utilizatorul wget distributiile Linux sau programele Teleport si GetRight disponibile in Windows), care trebuie sa aiba in responsabilitate si rescrierea referintelor la alte documente, pastrarea integritatii hypertextului si actualizarea regulata a paginilor WWW. Oglindirea poate fi evitata , folosindu-se in mod inteligent de memoria cache a serverelor proxy (intermediare), care ofera posibilitati de actualizare selectiva si de organizare a resurselor;
  • Descoperirea resurselor – probabil cea mai importanta aplicatie a robotilorWeb este utilizarea acestora la descoperirea resurselor. Cresterea progresiva a volumului de informatii disponibile pe Web are drept consecinta principala concepera de aplicatii pentru sumarizarea, indexarea si monitorizarea modificarilor resurselor WWW. Astfel, fiecare motor de cautare, continand baze de date privind localizarea si tipul de informatii dorite de utilizatori, apeleaza la serviciul robotilor Web pentru descoperirea resurselor Internet ce inglobeaza aceste informatii. Un avantaj suplimentar al robotilor este cel dat de capacitatea acestora de a monitoriza schimbarile survenite in cadrul unor pagini Web indicate de utilizatori (servicii precum Mind-It sau What’s new);
  • Utilizari combinate – desigur, robotii Web pot indeplini sarcini multiple, ca de exemplu descoperirea resurselor in paralel cu realizarea de statistici Web sau mentinerea integritatii legaturilor si concomitent, detectarea schimbarilor survenite in cadrul documentelor HTML.

Observatii:

  • Un aspect important care trebuie luat in considerare in exploatarea robotilor Web este tipul de actualizare a bazelor de date ale motoarelor de cautare. Robotii de cautare a informatiilor sunt cei care vor trebui sa decida care informatii sunt importante pentru a fi transmise programelor de indexare.
  • Rularea in maniera necontrolata a robotilor Web de catre utilizatorii finali care ar putea folosi optiuni inadecvate sau ar rula mai multe instante de program poate conduce la abuzuri nedorite asupra unui site sau grupuri de siteuri Web.
  • Robotii Web , in special cei netestati suficient, pot fi ineficienti sau pot avea vicii de arhitectura astfel incat sa dauneze traficul de informatii, mai ales daca sunt folositi de persoane neavizate ori de neprofesionisti. Implementari eronate pot determina robotii sa intre in arii aproape infinite denumite gauri negre (atunci cand de exemplu un document are o legatura care se refera la el insusi, iar programul nu detecteaza acest aspect). De asemenea, robotii nu trebuie sa acceseze tipuri de date fara relevanta, avand dimensiuni considerabile (e.g.: arhive, fisiere executabile, fisiere multimedia etc.).
  • De cele mai multe ori, fiecare motor de cautare are implementat propriul robot, sensibil la diverse situatii care pot surveni pe Web. De exemplu, robotii de la Excite (Inktomi),Go (InfoSeek) si Lycos nu pot indexa paginile continand cadre, iar cei de la FAST si Google au problem cu hartile de imagini sensitive (care pot ingloba legaturi spre alte documente).

Criteriile de clasificare a robotilor sunt multiple. Vom prezenta in continuare robotii Web grupati dupa principalele activitati pe care le pot realiza:

  • Roboti academici – sunt acei roboti disponibili in medii academice , avand drept scop anumite activitati de colectare a datelor dintr-o institutie academica sau de mentinere a integritatii legaturilor dintr-un site cu profil academic;
  • Roboti de proiectare – poseda capacitate de proiectare si de asistare in activitatile de design al paginilor Web;
  • Robotii conversationali – pun la dispozitie un partener virtual de discutii in Internet, fiind de obicei integrati serviciilor de teleconferinte pe Web. Ca exemplu, putem mentiona Eliza;
  • Roboti de comert – sunt roboti care inlesnesc activitatile de comert electronic, licitatii pe Web, bursa etc.;
  • Roboti distractivi – ofera diverse facilitate de amuzament (jocuri, predictii, recomandari de adrese interesante etc.) pentru utilizatorii care parcurc paginile web;
  • Roboti inteligenti – manipuleaza informatii, posedand inteligenta artificiala, fiind utilizati pentru eplorarea inteligenta a resurselor Web;
  • Robotii de stiri – monitorizeaza modificarile din cadrul siteurilor mass-media (ziare electronice, posturi radio sau de televiziune prezente pe Web etc.) sau grupurile de stiri de pe Internet;
  • Roboti de cautare – sunt robotii utilizati de motoarele de cautare (cum ar fi, de exemplu, WebCrawler);
  • Robotii de actualizare – se folosesc la actualizarea automata a legaturilor si la detectarea schimbarii adreselor Web.

Pentru evitarea accesului robotilor in zone Web lipsite de relevanta, continand date temporare ori private, s-a adoptat un standard pentru excluderea robotilor. Acesta stipuleaza ca orice robot care acceseaza un anumit server Web va accesa in primul rand un fisier text denumit robots.txt. Acest fisier va trebui stocat in directorul radacina al serverului, specificand partile din site care vor fi evitate la parcurgerea automata (pentru evitarea gaurilor negre sau din alte ratiuni).

Anumiti roboti pot utiliza tag-uri specific (ascunse) dintr-o pagina Web care sa dicteze un anumit comportament pentru acea pagina (asa cum se intampla in cazul programului de oglindire Teleport).

Ca exemple de roboti, in afara celor utilizati de motoarele de cautare, putem enumera DataBots (utilizat in descoperirea informatiilor pe Web), Wisebot (folosit la administrarea asistata a siteurilor Web) sau Inktomi (robot de cautare pentru indexarea, cautarea si analiza paginilor Web, oferind diverse statistici privitoare la documentele HTML).

In legatura cu activitatea robotilor de cautare, cercetatorii de la Universitatea Stanford au observat ca vizitarea tuturor documentelor prezente pe Web nu poate fi realizata practic din cel putin doua motive:

  • Indexul are o capacitate limitata si deci motorul de cautare nu este capabil sa indexeze sau sa analizeze toate paginile (Web-ul se dezvolta intr-un timp alert);
  • Spatiul WWW se modifica extrem de rapid si robotul nu va avea sansa de a parcurge o serie de pagini (la fiecare luna se estimeaza ca peste 800 GB de date isi schimba continutul).

Nu toate paginile vor avea aceeasi importanta pentru robot, tinandu-se cont de mai multi factori. Se pot lua in calcul:

  • Compatibilitatea cu posibile cereri ale utilizatorilor;
  • Numarul legaturilor care au, la randul lor, legaturi spre pagina analizata pe robot – gradul de “citare” a documentului;
  • Relevanta continutului paginii;
  • Numarul de legaturi continute de pagina si metrica locatiei (o pagina din domeniul .com se considera a fi importanta decat una a domeniului .za).

Importanta unui document Web depinde, asadar, de contextul aparitiei acestuia.