Das LinkBuilding Blog des Textlinkbrokers TextLinkAds (Partnerlink) hat einen interessanten Artikel geschrieben, wie man durch das Editeren der robots.txt-Datei auf dem Webserver die Relevanz des eigenen Blogs steigern kann. Bei diesem Ansatz werden die Bots und Crawler der Suchmaschinen wie Google, Msn und Yahoo der Zugang zu bestimmten Verzeichnissen und Link-Endungen verwehrt. Ein weiterer positiver Nebeneffekt ist, dass die Suchmaschinen diese Links nicht mehr als doppelten Inhalte (Duplicate Content) ansehen können.

Welche Endungen sollte man also aus den Ergebnissen der Suchmaschinen entfernen?

  • Kommentarfeeds
  • Trackbacks

Wie ich hier bereits die Funktionsweise der Robots.txt einmal grob umschrieben habe, müssen bestimmten Verzeichnisse für die Suchmaschinen gesperrt werden.

In den Kommentaren des Artikels gab ein Leser einen sehr guten Linktipp zu einer Beispieldatei einer Robots.txt-Datei für WordPress. Die dort angegebenen Einträge habe ich hier einmal ausgeführt:

# This rule means it applies to all user-agents
User-agent: *

# Disallow all directories and files within
Disallow: /cgi-bin/
Disallow: /stats/
Disallow: /dh_
Disallow: /about/legal-notice/
Disallow: /about/copyright-policy/
Disallow: /about/terms-and-conditions/
Disallow: /contact/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/

# Disallow all monthly archive pages
Disallow: /2006/0
Disallow: /2006/1
Disallow: /2007/0
Disallow: /2007/1

# The Googlebot is the main search bot for google
User-agent: Googlebot

# Disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.tar$
Disallow: /*.tgz$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# Disallow Google from parsing indididual post feeds and trackbacks..
Disallow: */feed/
Disallow: */trackback/

# Disallow all files with ? in url
Disallow: /*?*
Disallow: /*?

# Disallow all archived monthlies
Disallow: /2006/0*
Disallow: /2007/0*
Disallow: /2006/1*
Disallow: /2007/1*

# The Googlebot-Image is the image bot for google
User-agent: Googlebot-Image

# Allow Everything
Allow: /*

# This is the ad bot for google
User-agent: Mediapartners-Google*

# Allow Everything
Allow: /*

Allerdings wird man nicht all diese Einträge für seine Robots.txt Datei benötigen. Ich habe für mein WordPress Blog erst einmal die folgenden Einträge übernommen:

User-agent: *
# Disallow Google from parsing indididual post feeds and trackbacks..
Disallow: */feed/
Disallow: */trackback/

# Disallow all archived monthlies
Disallow: /2006/0*
Disallow: /2007/0*
Disallow: /2006/1*
Disallow: /2007/1*

Wichtig ist der Zusatz User-agent: * da hierdurch alle Suchmaschinen-Bots angesprochen werden.

Ob diese Methode erfolgreich sein kann und so mehr Leser durch die Suchmaschinen den Weg auf das Blog finden, dürfte eher schwer zu messen sein, der Autor des Artikels speicht aber von einer Steigerung des Traffics um “11.3%”. Obwohl ich gern einmal wissen würde, wie er diese Steigerung genau dieser Massnahme zuordnen konnte.

Aber aus eigener Erfahrung kann ich sagen, dass bei der Nutzung von Suchmaschinen ich schon sehr häufig auf die Feedlinks einzelner Artikel getroffen bin und ich dieses erst nach Öffnen des Feedreader entnervt feststellte. Man will ja nicht jeden Feed abonieren, den man gerade versehentlich öffnet.

Sofern dies jemand ausprobiert, wäre ich daran interessiert zu erfahren, ob signifikante Steigerungen des Suchmaschinen-Traffics verzeichnet werden konnte.