Back to Question Center
0

Semalt poskytuje tipy, ako sa vysporiadať s robotmi, pavúkmi a prehľadávačmi

1 answers:

Okrem vytvorenia priateľských adries URL pre vyhľadávače , súbor .htaccess umožňuje správcom webových stránok zablokovať špecifické roboty pri prístupe na svoje webové stránky. Jeden spôsob, ako tieto roboty zablokovať, je prostredníctvom súboru robots.txt. Avšak Ross Barber, Semalt manažér úspešnosti zákazníka, uvádza, že videl niektoré prehliadače ignorujúce túto požiadavku. Jedným z najlepších spôsobov je použitie súboru .htaccess na zastavenie ich indexovania obsahu.

Čo sú to roboty?

Ide o druh softvéru používaného vyhľadávacími nástrojmi na odstránenie nového obsahu z internetu na účely indexovania.

Vykonávajú tieto úlohy:

  • Navštívte webové stránky, s ktorými ste sa prepojili
  • Skontrolujte kód HTML pre chyby
  • Ukladajú, na ktorých webových stránkach odkazujete a uvidíte, ktoré webové stránky odkazujú na váš obsah
  • indexujú váš obsah

Niektorí robotníci sú škodliví a vyhľadávajú na vašich stránkach e-mailové adresy a formuláre, ktoré sa zvyčajne používajú na odosielanie nežiaducich správ alebo spamu. Ostatní dokonca hľadajú bezpečnostné medzery vo vašom kóde.

Čo je potrebné na zablokovanie webových prehľadávačov?

Pred použitím súboru .htaccess je potrebné skontrolovať nasledujúce skutočnosti:

1. Vaša stránka musí byť spustená na serveri Apache. V dnešnej dobe, dokonca aj tie webhostingové spoločnosti polovične slušné vo svojej práci, vám prístup k požadovanému súboru.

2. Mali by ste mať prístup k tomu, že ste surové denníky serverov vašej webovej lokality, takže môžete nájsť to, čo roboty navštevujú vaše webové stránky.

Všimnite si, že neexistuje žiadny spôsob, ako budete môcť zablokovať všetky škodlivé roboty, pokiaľ ich nezablokujete, dokonca aj tie, ktoré považujete za užitočné. Nové roboty prichádzajú každý deň a staršie sú modifikované. Najefektívnejším spôsobom je zabezpečiť váš kód a robiť to pre robotov robotu, aby vás spam.

Identifikácia robotov

Boti môžu byť identifikovaní podľa IP adresy alebo z ich "User Agent String", ktoré pošlú v hlavičkách HTTP. Napríklad spoločnosť Google používa službu Googlebot.

Možno budete potrebovať tento zoznam s 302 robotmi, ak už máte meno bot, ktorý by ste chceli držať ďalej pomocou .htaccess

Ďalšou možnosťou je prevziať všetky súbory denníka zo servera a otvoriť ich pomocou textového editora.Jejich umiestnenie na serveri sa môže meniť v závislosti od konfigurácie vášho servera.Ak ich nemôžete nájsť, vyhľadajte pomoc od vášho webhostingu.

Ak viete, ktorú stránku navštívili, alebo čas návštevy, je jednoduchšie prísť s nechceným botom. Pomocou týchto parametrov môžete vyhľadávať protokolový súbor.

Raz ste si všimli, čo roboty musíte zablokovať; potom ich môžete zahrnúť do súboru .htaccess. Upozorňujeme, že blokovanie topánok nestačí na to, aby ste ho zastavili. Môže sa vrátiť s novou IP alebo názvom.

Ako ich zablokovať

Stiahnite si kópiu súboru .htaccess. Zálohujte, ak je to potrebné.

Metóda 1: Blokovanie IP

Tento útržok kódu blokuje bot pomocou IP adresy 197.0.0.1

Objednávka Deny, Allow

Odmietnuť od 197.0.0.1

Prvý riadok znamená, že server zablokuje všetky požiadavky zodpovedajúce zadaným vzorom a umožní všetkým ostatným.

Druhý riadok informuje server, aby vydal 403: zakázanú stránku

Metóda 2: Blokovanie používateľskými agentmi

Najjednoduchším spôsobom je použiť Apache's rewrite engine

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Prvý riadok zaisťuje, že modul prepísania je povolený. Druhá čiarka je podmienka, na ktorú sa pravidlo vzťahuje. "F" v riadku 4 informuje server, že vráti 403: Zakázané, zatiaľ čo "L" znamená, že toto je posledné pravidlo.

Potom nahrať súbor .htaccess na server a prepísať existujúci súbor. Časom budete musieť aktualizovať IP adresu botu. V prípade, že urobíte chybu, stačí nahrať zálohu, ktorú ste urobili.

November 24, 2017
Semalt poskytuje tipy, ako sa vysporiadať s robotmi, pavúkmi a prehľadávačmi
Reply