Home Programmierung
und BIOS
Shareware-
FAQ
Kontakt u.
Infos

Die Datei Robots.txt

WebSites werden in unregelmäßigen Abständen von sogenannten Such-Robotern besucht, die die Verzeichnisse und Inhalte der Homepages indizieren. Abgesendet werden diese Roboter von diversen Suchmaschinen (z.B. WebCrawler), um deren Datenbestände zu erweitern und zu aktualisieren.

Da es nicht immer wünschenswert ist, daß ein Roboter die ganze Verzeichnisstruktur und alle Dateien durchsucht, haben sich die Programmierer dieser Roboter auf einen Standard in Form der Datei robots.txt geeinigt. Diese ASCII-Datei muß im Hauptverzeichnis der Site (also z.B. http://www.Firma.de) stehen und enthält folgende Inhalte:


User-agent: ...
Hiermit gibt man an, für welche Roboter die folgenden Einschränkungen gelten. Den Stern * kann man verwenden, um alle Roboter zu adressieren. Beispiele:

User-agent: webcrawler alle folgenden Einschränkungen gelten nur für Roboter von WebCrawler
User-agent: * die folgenden Einschränkungen gelten für alle Roboter

Disallow: ...
Diese Angabe folgt der User-agent-Zeile. Hiermit gibt man an, auf welche Dateien oder Verzeichnisse der Robot keinen Zugriff haben soll. Beispiele:

Disallow: /cgi-bin/ auf das Verzeichnis http://www.Firma.de/cgi-bin/ soll nicht zugegriffen werden
Disallow: /test.html auf die Datei http://www.Firma.de/test.html soll nicht zugegriffen werden
Disallow: / auf die komplette Site soll nicht zugegriffen werden
Disallow: auf die komplette Site darf zugegriffen werden

Bitte denkt daran, für jedes Verzeichnis und jede Datei eine neue Disallow-Zeile anzufügen!


Kommentare fügt man ein, in dem man am Anfang der Zeile ein Doppelkreuz # einfügt.

Eine Garantie, daß die Roboter auch wirklich draußen bleiben, ist jedoch nicht gegeben.

Auch wenn man den Zugriff nicht einschränken will, macht es unter Umständen Sinn, eine solche Datei anzulegen. Zum einen ist es unsinnig, den Roboter Verzeichnisse wie z.B. das cgi-bin scannen zu lassen oder Dateien, die nur kurzzeitig auf dem Server vorhanden sind. Zum anderen wird bei jedem Besuch eines Roboters ein 404-Datei-nicht-gefunden-Fehler erzeugt, was mich persönlich stören würde (es ist aber auch nicht schädlich ;-)).

Alle Angaben ohne Gewähr.

Achtung: bitte Hinweise zur Aktualitšt der Daten beachten! Copyright