DerEinzige

gedanken zur illusorischen realität des einzigen und seines eigenthums ...
... Ausgabe 198 ... 12. Jhrg.

«« »»

rubrik: bots markup netzwelt seo

DerEinzige & traumfahne.de

zeitschrift zum selbstausdrucken im eigenverlag vom 27. 3. 2007 | gesamtausgaben: 198

vom richtigen umgang mit der robots.txt

27. März 2007 | ausgabe drucken     | email mail facebook f***book twit tw | leserbrief schreiben    

eine ganze reihe von suchmaschinen robots (bots, crawler, spider) sowie etliche grabber (z.b. wget) halten sich an vorgaben aus der robots.txt.

das sind die *guten* ~ über die *bösen* wird an anderer stelle verhandelt …

wie genau auf die robots.txt reagiert wird, hängt von der jeweiligen programmierung des bots ab.

robots.txt ist eine textdatei (plain text) die auf der obersten (root) ebene deines webverzeichnisses (z.b. in htdocs) liegen muss. sie sollte nach dem letzten zeichen keinen umbruch oder weitere leerzeilen enthalten.

User-agent: *
Disallow:

die einfachste version: allen bots ( der * ist eine sogenannte wildcard … alle user-agents sind angesprochen) wird zugang zu allen ordnern und dateien gewährt.

User-agent (beachte die schreibweise) ist der name mit dem sich der bot bei dir identifiziert. Disallow bedeutet verbieten … in dem fall ist nichts verboten, sprich alles erlaubt ;)

vielleicht fragst du dich jetzt: wozu brauch ich eine robots.txt, wenn ich eh alles erlaube?

du brauchst sie, weil ohne erzeugt jeder besuch eines robots eine fehlermeldung (404) auf deinem server und das können viiiiele werden; ausserdem reagieren manche bots verärgert auf 404, die sie ja auch empfangen, und bleiben deiner seite fern, was nicht wirklich sinn der sache ist.

wenn du alles verbieten willst, schreib

User-agent: *
Disallow: /

in deinen robots.txt.

bestimmte bots erlauben, den rest verbieten:

User-agent: Googlebot
Disallow:

User-agent: Slurp
Disallow:

User-agent: *
Disallow: /

oder, einen verbieten und den rest erlauben:

User-agent: Googlebot-Image
Disallow: /

User-agent: *
Disallow:

beachte, dass die wildcard immer als letztes kommt 8)

nur bestimmte dateien und ordner verbieten und den rest erlauben:

User-agent: *
Disallow: /cgi-bin/
/bilder/
/privat
/brittneyspears.html
/sonstiges.php

/bilder/ verbietet z.b. bilder/index.html und folgende erlaubt aber bilder.html. /privat verbietet den ordner privat sowie eine privat.html.

der nachteil bei dieser methode ist, dass jeder sehen kann was du verbieten möchtest und die unhandlichkeit bei komplexen seitenstrukturen. allemal besser ist es zu verbietende dateien mit einem

zu versehen.

einen kommentar fügst du per # (gartenzaun :D ) ein:

# bildersuche von google verbieten
User-agent: Googlebot-Image
Disallow: /

manche bots (z.b. slurp, msn, irlbot) erlauben es, ihnen eine aufrufverzögerung (delay) vorzuschreiben. das macht aus performancegründen durchaus sinn: wenn bots damit beschäftigt sind deine seiten im sekundentakt aufzurufen, kann es für deine menschlichen besucher zu verzögerungen beim seitenaufruf kommen und das will ja keiner :D

User-agent: Slurp
#url: http://help.yahoo.com/help/us/ysearch/slurp/index.html
#note: inktomi's "slurp" can read a minimum delay between hits
Disallow:
Crawl-delay: 20

Crawl-delay: 20 heisst zwanzig sekunden zwischen jedem erneuten aufruf …

uff, viel geworden :)

hier findest du noch …

eine datenbank mit vielen user-agents sowie einer beispiel robots.txt

so und nun bist du dran ;)

stell fragen, signalisier zustimmung oder gib mir einen verriss … dazu gibt es die kommentarfunktion …

autor: jeff brett, verfasst am 27. 3. 2007
permalink: http://dereinzige.de/2007/03/27/vom-richtigen-umgang-mit-der-robotstxt/
short url: http://dereinzige.de/210

einen leserbrief schreiben

du mußt angemeldet sein, um kommentieren zu können.

«« »»

durchschnittlich 29 abonnenten täglich
leser: 1 online, 812972 gesamt seit dem 16.februar 2006.

home | editorial | über | datenschutz | impressum

springe zum seitenanfang