Pavúče a prehľadávače webu: Čo potrebujete vedieť na ochranu údajov webových stránok
Pavúky, ktoré sú tiež označované ako "webové prehľadávače", vyhľadávajú na webe a nie sú všetci priateľskí.
Webové stránky Spammers Spider na zhromažďovanie informácií
Google, Yahoo!
a iné vyhľadávacie nástroje nie sú jediní, ktorí majú záujem o prehliadanie webových stránok - to sú aj podvodníci a spameri.
Pameľadlá a iné automatizované nástroje používajú spammeři na nájdenie e-mailových adries (na internete táto prax sa často označuje ako "zber") na webových stránkach a potom ich používa na vytvorenie nevyžiadaných zoznamov.
Pavúky sú tiež nástroj používaný vyhľadávacími nástrojmi na zistenie ďalších informácií o vašej webovej lokalite, ale ponechané bez kontroly, webové stránky bez pokynov (alebo "oprávnení") o tom, ako prehľadávať vaše stránky, môžu predstavovať veľké riziká bezpečnosti informácií. Pavúky cestujú nasledujúcimi odkazmi a sú veľmi zdatní pri hľadaní odkazov na databázy, programové súbory a ďalšie informácie, na ktoré by ste nemali chcieť, aby mali prístup.
Správcovia webu môžu zobraziť denníky, aby zistili, aké pavúky a iné roboty navštívili svoje stránky. Tieto informácie pomáhajú správcom webových stránok vedieť, kto indexuje ich stránky a ako často.
Tieto informácie sú užitočné, pretože umožňujú správcom webových stránok jemne vyladiť svoje SEO a aktualizovať súbory robot.txt, aby zabránili niektorým robotom v prehľadávaní svojich stránok v budúcnosti.
Tipy na ochranu vašich webových stránok pred nechcenými prehľadávačmi robotov
Je pomerne jednoduchý spôsob, ako z vašich webových stránok nechať nechcené crawlery. Dokonca aj keď nie ste znepokojení škodlivými pavúkmi, ktoré prehliadajú vaše stránky (vyfukovanie e-mailovej adresy vás nebude chrániť pred väčšinou indexových prehľadávačov), stále by ste museli poskytovať vyhľadávacím nástrojom dôležité pokyny.
Všetky webové lokality by mali mať súbor umiestnený v koreňovom adresári nazvaný súbor robots.txt. Tento súbor umožňuje inštruovať webové prehľadávače, na ktorých chcete, aby sa pozerali na stránky indexu (ak nie je uvedené inak v meta dátách konkrétnej stránky, ktoré sa majú indexovať), ak ide o vyhľadávač.
Rovnako, ako môžete povedať, že chceli prehľadávať požadovaných prehľadávačov, môžete im tiež povedať, kam nemusia ísť, a dokonca zablokovať konkrétne prehľadávače z vašich celých webových stránok.
Je dôležité mať na pamäti, že dobre zostavený súbor robots.txt bude mať obrovskú hodnotu pre vyhľadávače a môže byť aj kľúčovým prvkom pri zlepšovaní výkonnosti vašej webovej lokality, ale niektoré robotové prehľadávače budú stále ignorovať vaše pokyny. Z tohto dôvodu je dôležité, aby ste celý softvér, doplnky a aplikácie vždy aktualizovali.
Súvisiace články a informácie
Vzhľadom na prevalenciu zberu informácií používaného na hanebné účely (nevyžiadaná pošta) boli v roku 2003 prijaté právne predpisy na to, aby sa určité praktiky stali nezákonnými. Tieto zákony o ochrane spotrebiteľa spadajú pod zákon CAN-SPAM z roku 2003.
Je dôležité, aby ste si zobrali čas na prečítanie zákona CAN-SPAM, ak sa vaša firma zaoberá masívnou poštou alebo zberom informácií.
Viac informácií o zákonoch o boji proti nevyžiadaným spamom ao tom, ako zaobchádzať so spammermi a čo vy ako vlastník firmy nemôžete urobiť, nájdete v nasledujúcich článkoch:
- CAN-SPAM Act 2003
- Pravidlá CAN-SPAM zákona pre neziskové organizácie
- 5 Pravidlá CAN-SPAM Malé firmy potrebujú pochopiť