DerEinzige

gedanken zur illusorischen realit├Ąt des einzigen und seines eigenthums ...
... Ausgabe 198 ... 12. Jhrg.

«« »»

rubrik: bots kommunikation linguistik markup netzwelt seo

DerEinzige & traumfahne.de

zeitschrift zum selbstausdrucken im eigenverlag vom 5. 4. 2007 | gesamtausgaben: 198

findlinks, ein bot aus leipzig

5. April 2007 | ausgabe drucken     | email mail facebook f***book twit tw | leserbrief schreiben    

ein forschungsprojekt der uni leipzig verwendet diesen crawler, der u.a. in folgenden versionen auftritt:

User-agent: findlinks/1.1.3-beta9_(_http://wortschatz.uni-leipzig.de/findlinks/)
User-agent: findlinks/1.1.4-beta1_(_http://wortschatz.uni-leipzig.de/findlinks/)
User-agent: findlinks/1.1-a4 (+http://wortschatz.uni-leipzig.de/findlinks/)
User-agent: findlinks/1.1.1-a5_(_http://wortschatz.uni-leipzig.de/findlinks/)
User-agent: findlinks/1.1-a7 (+http://wortschatz.uni-leipzig.de/findlinks/)
User-agent: findlinks/1.1-a8 (+http://wortschatz.uni-leipzig.de/findlinks/)
#alle anzusprechen mit
User-agent: findlinks

der bot ist im letzten jahr ins gerede (z.b. da und dort) gekommen, weil er die robots.txt missachtet hat und stellenweise extrem bandbreite verbrauchte.

auch in meine bot-falle ist er getappt :D

im zuge meiner allgemeinen recherchen zu robots und ihrem verhältnis zur robots.txt, hab ich mir den burschen nochmals gründlich vorgenommen und hab dabei festgestellt, dass er eigentlich einem der allgemeinheit nützlichen zweck dient. wenn du die seite der uni leipzig betreffs findlinks genauer durchliest, kannst du das feststellen, wenn du wissenschaftler o.ä. bist ;) … für den *normaluser* leider sehr schwer verständlich, was die da tun …

also hab ich ihn anfang des jahres von der blacklist meiner bot-falle genommen und siehe da, bis heute ist er nicht mehr hineingeraten ;)

in meinen logfiles vermerkte ich, dass die resourcenfesserei aufgehört hat. z.b. nur dreimal auf einer meiner domains im märz 07:

findlinks/1.1.4-beta1_(_http://wortschatz.uni-leipzig.de/findlinks/) #05.03.2007 - 00:23
findlinks/1.1.1-a5_(_http://wortschatz.uni-leipzig.de/findlinks/) #18.03.2007 - 08:15
findlinks/1.1.3-beta9_(_http://wortschatz.uni-leipzig.de/findlinks/) #30.03.2007 - 23:35

ausserdem hab ich auch die macher des bots um eine stellungnahme gebeten und bekam auch prompt antwort:

Dieses “böse” Verhalten können wir nicht abstreiten, ist/war aber nicht gewollt. Die Datums- (2005) sowie Programmversionsangaben zeigen, dass es sich noch um frühe Test- und Experimentierversionen des FindLinks Bots gehandelt hat.

Einige Änderungen in der Prozesskette zum Verarbeiten der robots.txt-Dateien hatten nicht nur die gewünschten Ergebnisse zur Folge, so dass eine Zeit lang manche robots.txt-Einträgen falsch ausgewertet worden sind. – Bis dann die ersten Beschwerden reinkamen…

Seit geraumer Zeit erhalten wir keine Beschwerden bzgl. Nichtbeachtung von robots.txt-Verboten mehr, so dass wir zuversichtlich sind, alles richtig implementiert zu haben.

leider versteht der findlinks bot kein crawl-delay, was zur beruhigung der gemüter beitragen könnte und eigentlich bei einem modernen bot eine selbstverständlichkeit sein sollte …

Ein *Crawl-delay* wird nicht berücksichtigt. Wir versuchen aber, die “Belästigung” eines Servers in Grenzen zu halten. Unser Server, der die zu crawlenden URLs an die Clients verteilt, ist momentan so eingestellt, dass innerhalb von einer Woche nicht mehr als 12 Seiten von einer Domain geladen werden.

trotz dieser negativa (website ein bissle unverständlich ;) , anfänglich schlecht programmierter bot, kein crawl-delay) würd ich wegen des nützlichen hintergrundes des bots und der ansprechbarkeit der macher empfehlen:

User-agent: findlinks
Disallow:

also ihr lieben webmaster und sysadmins, wenn ihr den bot mit (allow,deny), mode rewrite oder per robots.txt geblockt habt, rafft euch auf und nehmt euch die paar minuten … macht eure httpd.conf, .htaccess bzw. robots.txt auf und gebt dem findlinks eine zweite chance ;)

autor: jeff brett, verfasst am 5. 4. 2007
permalink: http://dereinzige.de/2007/04/05/findlinks-ein-bot-aus-leipzig/
short url: http://dereinzige.de/217

einen leserbrief schreiben

du mußt angemeldet sein, um kommentieren zu können.

«« »»

durchschnittlich 27 abonnenten täglich
leser: 2 online, 809208 gesamt seit dem 16.februar 2006.

home | editorial | über | datenschutz | impressum

springe zum seitenanfang