Definitioun vu Spider- a Webwënzer

Spiders & Web Crawlers: Wat Dir braucht Wëssen, fir Websäit Daten ze schützen

Spiders sinn Programmer (oder automatiséiert Scripte) déi "iwwer d'Websäit kucken" fir Daten ze crawléieren. Spiders reesen iwwer Website-URLen an kënnen Daten aus Websiten zécken wéi E-Mail Adressen. Spiders sinn och benotzt fir d'Informatioun ze fannen op Websäite fir Motoren ze sichen.

Spiders, déi och als "Web Crawler" bezeechent sinn de Web a net all si Frënn an hiren Absichten.

Spammers Spider Websäiten fir Informatioun ze sammelen

Google, Yahoo!

an aner Sichmaschinn sinn net déi eenzeg déi an de Websäite interesséiert sinn - also si Scammers a Spammer.

Spiders an aner automatiséiert Tools ginn vun Spammern benotzt fir E-Mailadressen ze fannen (am Internet gëtt dës Praxis oft als "Ernte" bezeechent) op Websäiten a benotzt se dann un Spamlëscht ze maachen.

Spiders sinn och e Instrument, deen duerch Sichmaschinn gebraucht gëtt, fir méi Informatiounen iwwer Är Websäit ze fannen, awer ouni Kontrollen, eng Websäit ouni Instruktiounen (oder "Permisiounen") fir wéi Är Site ze kräischen kann grouss Informatiounssecteur Risike presentéieren. Spiders reesen no Linken, an si sinn ganz onduerch fir Links ze fannen op Datenbanken, Programmpakteuren an aner Informatioune fir déi Dir net wëllt datt se Zougang hunn.

Webmasters kënnen d'Logbicher kucken fir ze kucken wat Spider an aner Roboter hir Site besicht hunn. Dës Informatioun hëlleft de Webmaster wéi och wa se hir Site ze indexéieren, a wéi oft.

Dës Informatioun ass nëtzlech, well et Webmasteren erlaabt hir SEO ze verfeelen an Update Robot.txt Fichieren ze verbannen, fir verschidde Roboter hir Plaz an der Zukunft ze kräizen.

Tipps fir Äert Websäit ze schützen vun onerwënschten Robot Crawler

Et ass e relativ einfache Wee fir ongewollten Crawler aus der Websäit ze halen. Och wann Dir net besuergt sidd iwwer béiser Spanneren déi Äre Site kreest (net onbedéngt e-Mail Adress schützt Iech net vun de meescht Crawler), musst Dir nach ëmmer nach eng Suchmaschinn mat wichtëge Instruktiounen erlaben.

All Websäite sollten e Fichier hunn an de Stammverzeichnis genannt e robots.txt Datei. Dësen Fichier erlaabt Iech Web Crawler ze weisen, wou Dir wëllt datt se Index-Säiten aussieën (wann net an engem Meta-Datebank vun enger spezifescher Säit nogekuckt ginn ass) wann se eng Sichmotiv sinn.

Just wéi Dir Iech wëllt Crawler erzielen, wou Dir wëllt se ze brŽen, kënnt Dir och soen, wou se net kënnen an e puer ganz spezifesch Crawler aus der ganzer Websäit blockéieren.

Et ass wichteg ze bedenken datt eng gutt zesummen zesummen d'robots.txt-Datei eng immens wichteg fir Sichmaschinn huet a kéint och e Schlësselelement an der Verbesserung vun der Websäit verbesseren, awer e puer Roboter-Crawler ignoréieren ëmmer Är Instruktiounen. Aus dësem Grond ass et wichteg datt all Är Software, Plugins an Apps upasst ginn op all Zäit.

Artikelen an Informatioun

Wéinst der Prévalence vun Informatiounsprogrammer, déi zu neefesche (Spam) Zwecker benotzt gouf, gouf d'Gesetzgebung 2003 bestallt, fir bestëmmte Praktiken illegal ze gestalten. Dës Konsumenteschutzgesetz geet ënner dem CAN-SPAM Act of 2003.

Et ass wichteg datt Dir d'Zäit huelen fir am CAN-SPAM Gesetz ze liesen wann Dir Äre Business an all Mass-Mailen oder Informatiouns-Ernte mécht.

Dir kënnt méi iwwer Anti-Spam-Gesetzer erfuerschen an wéi Dir mat Spammeren handhabt, an wat Dir als eegene Besëtzer net däerft maachen, andeems Dir déi folgend Artikelen liest: