Definícia spideringu a webových prehľadávačov

Pavúče a prehľadávače webu: Čo potrebujete vedieť na ochranu údajov webových stránok

Pavúče sú programy (alebo automatizované skripty), ktoré "prehľadávajú" prostredníctvom webu vyhľadávanie údajov. Pavúky cestujú cez webové adresy webových stránok a môžu ťahať údaje z webových stránok, ako sú e-mailové adresy. Pavúky sa používajú aj na kŕmenie informácií vyhľadávaných na webových stránkach.

Pavúky, ktoré sú tiež označované ako "webové prehľadávače", vyhľadávajú na webe a nie sú všetci priateľskí.

Webové stránky Spammers Spider na zhromažďovanie informácií

Google, Yahoo!

a iné vyhľadávacie nástroje nie sú jediní, ktorí majú záujem o prehliadanie webových stránok - to sú aj podvodníci a spameri.

Pameľadlá a iné automatizované nástroje používajú spammeři na nájdenie e-mailových adries (na internete táto prax sa často označuje ako "zber") na webových stránkach a potom ich používa na vytvorenie nevyžiadaných zoznamov.

Pavúky sú tiež nástroj používaný vyhľadávacími nástrojmi na zistenie ďalších informácií o vašej webovej lokalite, ale ponechané bez kontroly, webové stránky bez pokynov (alebo "oprávnení") o tom, ako prehľadávať vaše stránky, môžu predstavovať veľké riziká bezpečnosti informácií. Pavúky cestujú nasledujúcimi odkazmi a sú veľmi zdatní pri hľadaní odkazov na databázy, programové súbory a ďalšie informácie, na ktoré by ste nemali chcieť, aby mali prístup.

Správcovia webu môžu zobraziť denníky, aby zistili, aké pavúky a iné roboty navštívili svoje stránky. Tieto informácie pomáhajú správcom webových stránok vedieť, kto indexuje ich stránky a ako často.

Tieto informácie sú užitočné, pretože umožňujú správcom webových stránok jemne vyladiť svoje SEO a aktualizovať súbory robot.txt, aby zabránili niektorým robotom v prehľadávaní svojich stránok v budúcnosti.

Tipy na ochranu vašich webových stránok pred nechcenými prehľadávačmi robotov

Je pomerne jednoduchý spôsob, ako z vašich webových stránok nechať nechcené crawlery. Dokonca aj keď nie ste znepokojení škodlivými pavúkmi, ktoré prehliadajú vaše stránky (vyfukovanie e-mailovej adresy vás nebude chrániť pred väčšinou indexových prehľadávačov), stále by ste museli poskytovať vyhľadávacím nástrojom dôležité pokyny.

Všetky webové lokality by mali mať súbor umiestnený v koreňovom adresári nazvaný súbor robots.txt. Tento súbor umožňuje inštruovať webové prehľadávače, na ktorých chcete, aby sa pozerali na stránky indexu (ak nie je uvedené inak v meta dátách konkrétnej stránky, ktoré sa majú indexovať), ak ide o vyhľadávač.

Rovnako, ako môžete povedať, že chceli prehľadávať požadovaných prehľadávačov, môžete im tiež povedať, kam nemusia ísť, a dokonca zablokovať konkrétne prehľadávače z vašich celých webových stránok.

Je dôležité mať na pamäti, že dobre zostavený súbor robots.txt bude mať obrovskú hodnotu pre vyhľadávače a môže byť aj kľúčovým prvkom pri zlepšovaní výkonnosti vašej webovej lokality, ale niektoré robotové prehľadávače budú stále ignorovať vaše pokyny. Z tohto dôvodu je dôležité, aby ste celý softvér, doplnky a aplikácie vždy aktualizovali.

Súvisiace články a informácie

Vzhľadom na prevalenciu zberu informácií používaného na hanebné účely (nevyžiadaná pošta) boli v roku 2003 prijaté právne predpisy na to, aby sa určité praktiky stali nezákonnými. Tieto zákony o ochrane spotrebiteľa spadajú pod zákon CAN-SPAM z roku 2003.

Je dôležité, aby ste si zobrali čas na prečítanie zákona CAN-SPAM, ak sa vaša firma zaoberá masívnou poštou alebo zberom informácií.

Viac informácií o zákonoch o boji proti nevyžiadaným spamom ao tom, ako zaobchádzať so spammermi a čo vy ako vlastník firmy nemôžete urobiť, nájdete v nasledujúcich článkoch: