Fiind bazat pe hypertext, spatiul WWW are ca prim obiectiv oferirea unui mecanism facil de a stoca si de a furniza, ulterior, informatii, intr-o maniera nesecventiala.

Conform studiilor intreprinse, utilizatorii care isi petrec mai mult de cinci ore pe Internet aloca peste 70% din timp cautarii de informatii. Pentru a localiza resursele dorite un procent de 85 – 90% dintre utilizatori apeleaza la motoarele de cautare.

Astfel, importanta acestor aplicatii se dovedeste de necontestat, actualmente existand disponibile pe Web o multitudine de cautatoare si meta-cautatoare, generale sau specializate.

Motoarele de cautare pot oferi servicii de cautare pe baza de indecsi (i.e Altavista) sau pe baza unor ierarhii de termini – asa-numitele servicii director(cum ar fi Yahoo!). In ultima perioada, aceste tipuri de servicii au devenit hibride, primul dintre motoarele de cautare care a adoptat tehnicile mixte fiind Excite.

Modalitati de regasire a informatiilor

Au fost evidentiate mai multe modalitati de regasire a informatiilor disponibile pe Web, in functie de intentiile utilizatorilor. Printre cele mai importante se enumera:

  • Scanarea (scanning) – utilizatorii parcurg, superficial, o arie larga de informatii, apartinand de obicei unui anumit subiect sau unui grup de subiecte conexe;
  • Rasfoire (browsing, surfing) – utilizatorii viziteaza locatiile care le capteaza interesul, fara a avea stabilit un model mental al informatiilor dorite;
  • Cautarea (searching) – utilizatorii sunt motivati sa gaseasca o categorie bazata pe cuvinte cheie( e.g.: “programare PHP”) sau pe constructii formulate in limbaj natural, cum ar fi “ Unde gasesc documentatii despre design Web?”;
  • Explorarea (exploring) – utilizatorii investigheaza legaturile referitoare la o anumita resursa informativa si pe cele conexe;
  • Hoinareala (wandering) – utilizatorii realizeaza o navigare complet nestructurata.

De remarcat faptul ca, in mod frecvent, utilizatorii nu parcug la un moment dat decat o singura pagina WWW, apartinand unui server particular, fara a avea o vedere de ansamblu a modului de structurare a tuturor documentelor de la acea adresa. Astfel, spatiul Web prezinta urmatoarele caracteristici negative:

  • Modelul plat de memorare a datelor – documentele nu sunt stocate in mod structurat pe serverele Web. Structura hypertext pe care, eventual, o formeaza acestea poate fi recunoscuta de cele mai multe ori doar examinand URL-urile asociate. Uzual, paginile nu poseda legaturi catre documentul – parinte (“radacina” siteului – un fisier al carui nume difera in functie de serverul Web folosit, pentru Apache si IIS de exemplu fiind / index.html, respective /default.htm);
  • Legaturile unidirectionale – limbajul HTML nu ofera decat posibilitatea de specificare a legaturilor unidirectionale, simple. Este dificil de alcatuit o harta locala care sa ilustreze toate sursele si destinatiile legaturilor dintre paginile Web ale unui site. Retelele sofisticate de legaturi conduc la o navigare greoaie si pot deveni frecvent surse de confuzie;
  • Lipsa unei harti globale de navigare – nu poate fi realizata o harta globala de navigare prin intregul spatiu WWW, intr-o maniera ierarhica (arborescenta);
  • Mentinerea legaturilor – legaturile fiind stocate in interiorul documentelor, posibilitatea de a adauga direct adnotari sau de a modifica legaturile dintr-o pagina este detinuta doar de proprietarul acesteia. Mentinerea integritatii legaturilor pe siteuri Web care contin un numar foarte mare de documente se dovedeste dificila. De cele mai multe ori se apeleaza la programe de verificare a validitatii legaturilor si de construire a ierarhiilor de legaturi intre paginile unui site Web.

In concluzie, pentru a avea acces la informatiile dorite, de cele mai multe ori se recurge la facilitatile oferite de unul dintre motoarele de cautare disponibile.

Structura interna a unui motor de cautare

In general un motor de cautare este construit din trei componente de baza:

  • O aplicatie, denumita robot Web(spider, crawler), avand misiunea de a parcurge spatiul WWW si de a vizita anumite pagini, extragand informatii despre ele. Aceste informatii vor fi stocate pe serverul/serverele motorului de cautare, intr-o baza de date sau intr-un index;
  • Un depozit de memorare a informatiilor despre paginile parcurse de robot, numit index(catalog). Acest index contine de cele mai multe ori cate o copie a fiecarei pagini si a URI-ului corespunzator acesteia, organizarea informatiilor in cadrul indexului efectuandu-se conform unor criterii specifice;
  • Un mecanism de evaluare (ranking) a importantei paginilor din index in conformitate cu cererea formulata de utilizator, cerere introdusa prin intermediul unei interfete Web (partea vizibila a motorului de cautare) in ordinea importantei, adresele paginilor (plus alte informatii) sunt returnate – sub forma unui document Web – utilizatorului care a formulat cererea. Utilizatorul este cel care va decide care pagina (sau grup de pagini) intruneste preferintele sale.