Používame robots.txt

robots.txt

Keď vytvárame nejakú stránku či už nejaký jednoduchý html kód, skript v php alebo používame nejaký systém na správu obsahu napríklad ako Drupal či WordPress mali by sme si dať vždy záležať na tom, že povieme robotom o tom kam môžu vôjsť na mojej stránke a kam nie.

Toto sa robí pomocou súboru s názvom robots.txt ktorý je uložený v koreňovom adresári našho webu. Ten názov by mal byt presne takýto. Ďalej je ešte jedna dôležitá podmienka a to, že riadky v súbore by mali byť ukončené v štýle UNIX (LF).

Štruktúra tohto súboru obsahuje 3 základné príkazy User-agent ktorý nám hovorí pre ktorého robota budu nasledujúce príkazy platiť, Disallow kam bude robotom prístup zamedzený a Crawl-delay ktorý určuje maximálny čas ktorý robot môže na stránke stráviť.

Vzorový súbor:

User-agent: googlebot
Disallow: /d1/
Disallow: /d2/
Crawl-delay: 20

User-agent: *
Disallow: /d1/
Disallow: /d2/
Disallow: /d3/
Crawl-delay: 12

Tento príklad nám hovorí, že googlebot ma zakázaný prístup do priečinkov d1 a d2 a môže po stránke snoriť až 20 sekúnd. Všetkým ostatným robotom sme zakázali ešte prístup do priečinka d3 a skrátili sme im pobyt na stránke na 12 sekúnd.

Ak by ste si neboli istý či ste súbor zostavili správne tak ako aj na HTML, CSS, XML tak aj na súbor robots.txt poznáme validátor.

Značky: