Indem du eine Textdatei namens robots.txt in das Hauptverzeichnis deiner Seite legst, kannst du das Verhalten der Suchmaschinen-Bots beeinflussen.
So kannst du zum Beispiel festlegen, dass bestimmte Ordner nicht durchsucht werden sollen – Sinn macht das etwa für den Ordner mit dem Backend bzw. ACP, ebenso für Logfiles.
Die robots.txt ergänzt die Meta-Anweisungen für Robots und gilt für sämtliche Dateien, die im gleichen Verzeichnis oder untergeordneten Verzeichnissen liegen. Die Anweisungen im Meta-Tag beziehen sich hingegen nur auf diejenige Datei, in deren Header sie enthalten ist.
Aufbau der robots.txt
In der robots.txt kannst du entweder sämtliche Spider auf einmal ansprechen oder aber zwischen einzelnen Bots differenzieren. Wichtig ist, dass du die Datei genau so benennst und nicht etwa Großbuchstaben im Dateinamen oder in der Extension verwendest.
In jedem Fall sind die Anweisungen – die man als records bezeichnet – wie folgt aufgebaut:
# Kommentarzeile: hier kannst du kurz anmerken, welche Anweisung es ist
User-agent: hier steht der Name des Bots
Disallow: hier steht das Verzeichnis/die Datei, die nicht gecrawlt werden soll
Allow: hier steht das Verzeichnis/die Datei, die gecrawlt werden soll
So kannst du zum Beispiel das gesamte Verzeichnis /test vor allen Suchmaschinenbots verbergen, aber die Datei /test/beispiel.htm trotzdem indexieren lassen:
# test-Verzeichnis
User-agent: *
Disallow: /test/
Allow: /test/beispiel.htm
Wie auch sonst steht das Sternchen * hier für alle Bots.
Du kannst auch mehrere Angaben für einen Bot machen:
# test-Verzeichnis
User-agent: *
Disallow: /test/
Disllow: /example/
Disllow: /blah/
der Slash
Wie du siehst, wurden die Verzeichnisnamen mit einem abschließenden Slash / versehen. Dies ist notwendig, da eine Angabe à la Disallow: /test dazu führen würde, dass nicht nur das Verzeichnis /test nicht durchsucht wird, sondern auch alle Dateien, deren Namen mit “test” beginnt.
Wenn du hinter die Angabe Disallow: bzw. Allow: lediglich einen Slash setzt, sprichst du sämtliche Verzeichnisse und Ordner an.
Spam-Vorsorge
Es gibt einige Spider, die Seiten nur durchsuchen, um Emailadressen für den Versand von Spam zu sammeln. Diese kannst du hier nun gezielt ausschließen. Untenstehend findest du eine Liste, in der sowohl “gute”, als auch schädliche Bots genannt werden.
welche Bots gibt es überhaupt?
Eine informative Übersicht über die verschiedenen Spider findest du etwa hier.
