Erstellung einer robots.txt und eine kleine Bots-Liste

Ich hab das Gefühl, dass Google immer wählerischer beim Indizieren von Webseiten wird. Indizieren wollte ich aprilliebe.de aber Google wollte irgendwie nicht, weil die robots.txt fehlte.

1. Erstellung einer robots.txt
Um die Suchmaschine freundlich zu stimmen reichen 2 Zeilen.

User-agent: *
Disallow:

Diese Datei fügt man dann ins Web-Wurzelverzeichnis und das Problem ist behoben.

Die robots.txt kann aber noch viel mehr! Sie kann auch alle Suchmaschinen ausschließen so das die Webseite nicht indiziert wird.

User-agent: *
Disallow: /

Im Normalfall will man so was aber nicht. Was aber schon mal vorkommen kann ist, dass man die Suchmaschine aus bestimmten Verzeichnissen aussperren will.
Das erreicht man so:

User-agent: *
Disallow: /cgi-bin/

Hier wird das Verzeichnis cgi-bin nicht indiziert.

Es gibt auch die Möglichkeit Dateitypen auszuschließen.

User-agent: *
Disallow: *.html

Hier werden jetzt HTML Dateien ausgeschlossen. Gut das sieht jetzt seltsam aus, würde aber bei einer Sache doch Sinn ergeben.  Nehmen wir mal an, die Webseite hat *.php Seiten und die Template-Dateien haben den Prefix .html. Jetzt würde die Suchmaschine natürlich die Templates ausschließen und nicht indizieren.

Der letzte Punkt ist das erlauben und verbieten von Bots.

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

Nun würde google.de die Seite indizieren lassen aber alle anderen ausschließen. Andersherum geht das natürlich auch:

User-agent: Googlebot
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: *
Disallow:

Hier dürfen google und MSN Search die Seiten nicht in den Index aufnehmen.

2. Eine kleine Liste mit Bots die so durchs www surfen:

Name Bot
google Googlebot
MSN Search MSNBot
Yahoo Slurp
Ask/Teoma Teoma
Cuil twiceler
GigaBlast Gigabot
Scrub The Web Scrubby
DMOZ Checker Robozilla
Nutch Nutch
Alexa/Wayback ia_archiver
Baidu baiduspider
Naver naverbot
Google Image googlebot-image
Google Mobile googlebot-mobile
Yahoo MM yahoo-mmcrawler
MSN PicSearch psbot
SingingFish asterias
Yahoo Blogs yahoo-blogs/v3.9

Es gibt noch viele Bots mehr. Die Suchmaschine deiner Wahl hilft dir dabei bestimmt noch mehr zu finden.

Über Markus Potthast 57 Artikel
Der Senior Software Developer im Angestelltenverhältnis hat zum Hauptthema natürlich die Programmierung und Entwicklung von Webanwendungen. Gelegentlich finden sich hier auch Krazy Netzfundstücke.

Ersten Kommentar schreiben

Antworten

Deine E-Mail-Adresse wird nicht veröffentlicht.


*


eMail-Benachrichtigung bei weiteren Kommentaren.
Auch möglich: Abo ohne Kommentar.