Šta su web roboti ili pauci?

Pre nego što pretraživač ukaže korisniku na to gde se nalazi traženi dokument, on ga i sâm mora prethodno pronaći. Da bi pronašao informacija o dokumentima na serverima širom sveta, pretraživač koristi specijalan program koji se zove web pauk (engl. spider) ili robot.

Foto: Bella67/Pixabay.com

Foto: Bella67/Pixabay.com

Termin web pauk nije sinonim za pretraživač, jer je pretraživač program koji pregleda bazu čije je podatke prikupio pauk. Web roboti obilaze web lokacije i proučavaju njihov sadržaj i sadržaj njihovih hiperlinkova. Uz korišćenje standardnog HTTP protokola, pronađene informacije prosleđuju se matičnom pretraživaču radi dalje obrade. Ovaj proces poznat je kao web crawling (doslovno “gmizanje”, “puzanje”).

Robot je jedini program koji omogućava direktno pronalaženje uz upotrebu ključnih reči, odnosno upita i tehnika pretraživanja.

Web pauk započinje svoj obilazak Web-a na najčešće korišćenim serverima i najpopularnijim web stranicama. Polazi od često posećene web lokacije i čita reči na njenim web stranicama, prateći pri tom i sve navedene linkove. Tako program brzo krstari webom, širi se njegovim najiskorišćenijim delovima. Sve posećene stranice šalju se matičnom pretraživaču na obradu (indeksiranje) i on ih, nakon obrade, može u komprimovanom obliku zadržati na svojim serverima ili odbaciti njihov kompletan sadržaj i s indeksom zadržati samo URL. Zbog dinamičnosti web lokacija, pauk ima ugrađen proces regularnog obilaska web stranica koje su već indeksirane ukoliko je na njima došlo do promena.

Može se dogoditi da vlasnik web sajta ne želi da mu stranica bude uključena u bazu pretraživača ili ne želi aktivnosti koje se događaju kada pauk pristupa web stranici.

Razlozi za to mogu biti:

1. Zbog eventualne sporosti pri pronalaženju dokumenata, pauk može izazvati preopterećenje i pad servera, ako se na njemu nalazi veća količina dokumenata.

2. Pauci ne mogu često da obnavljaju ogromnu matičnu bazu podataka, pa ne mogu držati korak s izmenama na web sajtovima kao što su agencijski sajtovi, koji se ažuriraju svakog sata.

3. Prilikom online gaming-a, nove, aktivne stranice nastaju svake sekunde. Ako pauk pristupi takvoj stranici i počne da prati sve linkove ka novim stranicama, igra bi njegovu aktivnost mogla da zameni aktivnošću vrlo brzog igrača i da se otme kontroli.

Kako bi se izbegle ovakve situacije, razvijen je protokol za isključenje robota (engl. robot exclusion protocol). On se implementira između meta oznaka u obliku “robots.txt” i upozorava pauka/robota na to koje procese može da izvrši nad dokumentom (koji pauk ima koja ovlašćenja – koje reči može, a koje ne može da indeksira, sme li da prati linkove i koje, može li da obraća pažnju na određene delove dokumenta…). Kada pauk pristupa tako označenom web sajtu, on najpre pročita “robots.txt” i proverava da li za njega postoje neka specifična pravila.

Ostavite komentar

Ostavite komentar