Skip to content



Suchmaschinen Relevanz steigern mit Robots.txt

Das LinkBuilding Blog des Textlinkbrokers TextLinkAds (Partnerlink) hat einen interessanten Artikel geschrieben, wie man durch das Editeren der robots.txt-Datei auf dem Webserver die Relevanz des eigenen Blogs steigern kann. Bei diesem Ansatz werden die Bots und Crawler der Suchmaschinen wie Google, Msn und Yahoo der Zugang zu bestimmten Verzeichnissen und Link-Endungen verwehrt. Ein weiterer positiver Nebeneffekt ist, dass die Suchmaschinen diese Links nicht mehr als doppelten Inhalte (Duplicate Content) ansehen können.

Welche Endungen sollte man also aus den Ergebnissen der Suchmaschinen entfernen?

  • Kommentarfeeds
  • Trackbacks

Wie ich hier bereits die Funktionsweise der Robots.txt einmal grob umschrieben habe, müssen bestimmten Verzeichnisse für die Suchmaschinen gesperrt werden.

In den Kommentaren des Artikels gab ein Leser einen sehr guten Linktipp zu einer Beispieldatei einer Robots.txt-Datei für Wordpress. Die dort angegebenen Einträge habe ich hier einmal ausgeführt:

# This rule means it applies to all user-agents
User-agent: *

# Disallow all directories and files within
Disallow: /cgi-bin/
Disallow: /stats/
Disallow: /dh_
Disallow: /about/legal-notice/
Disallow: /about/copyright-policy/
Disallow: /about/terms-and-conditions/
Disallow: /contact/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/

# Disallow all monthly archive pages
Disallow: /2006/0
Disallow: /2006/1
Disallow: /2007/0
Disallow: /2007/1

# The Googlebot is the main search bot for google
User-agent: Googlebot

# Disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.tar$
Disallow: /*.tgz$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# Disallow Google from parsing indididual post feeds and trackbacks..
Disallow: */feed/
Disallow: */trackback/

# Disallow all files with ? in url
Disallow: /*?*
Disallow: /*?

# Disallow all archived monthlies
Disallow: /2006/0*
Disallow: /2007/0*
Disallow: /2006/1*
Disallow: /2007/1*

# The Googlebot-Image is the image bot for google
User-agent: Googlebot-Image

# Allow Everything
Allow: /*

# This is the ad bot for google
User-agent: Mediapartners-Google*

# Allow Everything
Allow: /*

Allerdings wird man nicht all diese Einträge für seine Robots.txt Datei benötigen. Ich habe für mein Wordpress Blog erst einmal die folgenden Einträge übernommen:

User-agent: *
# Disallow Google from parsing indididual post feeds and trackbacks..
Disallow: */feed/
Disallow: */trackback/

# Disallow all archived monthlies
Disallow: /2006/0*
Disallow: /2007/0*
Disallow: /2006/1*
Disallow: /2007/1*

Wichtig ist der Zusatz User-agent: * da hierdurch alle Suchmaschinen-Bots angesprochen werden.

Ob diese Methode erfolgreich sein kann und so mehr Leser durch die Suchmaschinen den Weg auf das Blog finden, dürfte eher schwer zu messen sein, der Autor des Artikels speicht aber von einer Steigerung des Traffics um “11.3%”. Obwohl ich gern einmal wissen würde, wie er diese Steigerung genau dieser Massnahme zuordnen konnte.

Aber aus eigener Erfahrung kann ich sagen, dass bei der Nutzung von Suchmaschinen ich schon sehr häufig auf die Feedlinks einzelner Artikel getroffen bin und ich dieses erst nach Öffnen des Feedreader entnervt feststellte. Man will ja nicht jeden Feed abonieren, den man gerade versehentlich öffnet.

Sofern dies jemand ausprobiert, wäre ich daran interessiert zu erfahren, ob signifikante Steigerungen des Suchmaschinen-Traffics verzeichnet werden konnte.

Popularity: 16% [?]

Posted in HowTo, SEO for Blogs. Tagged with , , , , , , , , , , , .

8 Responses

Stay in touch with the conversation, subscribe to the RSS feed for comments on this post.

  1. Max said

    http://www.2 wid.net ist jetzt nicht unbedingt ein Blog, aber eine Webkatalog welcher sich immer neue Besucher wünscht. Naja, wie fast jede Internetseite ;-)
    Es wurden auch viele Anstrengungen unternommen mehr Besucher anzusprechen, auch durch Suchmaschinen. Es bis jetzt auch geglückt: http://webstat.2 wid.net
    Gründe bisher waren:
    1. Content, möglichst gut und möglichst viel
    2. Werbung, Textlinks und Banner
    3. Gewinnen von Empfehlungen(Links)

    Der 1. Punkt ist wohl der wichtigste, daraus ergibt sich dann auch schon Punkt 3 . Wobei man bei Punkt 3 auch etwas nachhelfen kann, natürlich positiv ;-)

  2. Max said

    Ach so, die robots.txt nur wegen Suchmaschinen zu verbessern, halte ich persönlich für wenig sinnvoll.
    Eine richtige robots.txt ist nichts desto trotz wichtig, aber eher im Sinne der selbstverständlichen Grundvoraussetzung als denn einer wesentlichen Verbesserung für Suchmaschinen.

  3. Schlafzimmer Blick said

    Was bitte ist da jetzt neu dranne das man doppelten contend mit hilfe der robots.txt bekämpft?

  4. Ich habe nirgends geschrieben, dass die Methode neu ist, oder? Habe sie lediglich für Blogs einmal aufgeschrieben.
    Ich verstehe deinen Einwand/Hinweis nicht? Das Hauptanliegen der Methode ist ja nicht Duplicate Content zu vermeiden, sondern etwas anderes.

  5. Die Variante mit der robots.txt für Suchmaschinen zu optimieren halte ich für abwägig, da diese meiner Meinung nach auch nicht funktioniert.

  6. Für Weblogs funktioniert es meiner Meinung nach recht gut. Was bevorzugst du denn?

  7. Ich würde vielleicht die Archive in “ein” übergeordnetes Verzeichnis packen und den Disallow da drauf loslassen. Spart Tipperei und wenn man es mal vergisst, ist auch nichts passiert.