neontrauma.de » diverse Tutorials
Hier siehst du alle Artikel mit dem Schlagwort Bots
13. Dezember 2009

Auch lange nach dem Erscheinen der Forensoftware WBB3 erfreut sich die Vorgängerversion WBB2 nach wie vor großer Beliebtheit. Ein Grund hierfür dürfte nicht zuletzt die weitaus höhere Verfügbarkeit von Erweiterungen sein.

In diesem Artikel werde ich darauf eingehen, was ihr kostenlos für euer WBB2 in Sachen Suchmaschinenoptimierung tun könnt. :o)

das Archiv

Das WBB2 bietet mit dem Archiv von Hause aus eine wichtige Funktion. Hierbei werden die Foreninhalte in einer suchmaschinenfreundlichen Weise mit Divs und Listen statt mit Tabellen präsentiert.

Damit alle Forenbereiche im Archiv auftauchen, müsst ihr dies im ACP festlegen: Einstellungen -> Sonstiges -> Forenarchiv mit Suchmaschinenunterstützung aktivieren? auf “ja” stellen. Für jeden einzelnen Forenbereich könnt ihr darüber hinaus einstellen, ob er im Archiv angezeigt werden soll (standardmäßig auf “ja”) oder auch nicht: Foren bearbeiten -> Forum im Archiv anzeigen?
Damit die Bots das Archiv auch finden, müsst ihr es auf eurer Startseite oder im Portal verlinken.

robots.txt

Im Hauptverzeichnis eures Forums solltet ihr eine Datei namens robots.txt erstellen, mit deren Hilfe ihr die Suchmaschinenbots von für sie irrelevanten Bereichen aussperren könnt. Um zu verhindern, dass die Bots auf verschiedenen Unterseiten den gleichen Inhalt vorfinden (beispielsweise bei den “Antwort erstellen”-Links oder wenn die Forenbeschreibung sowohl auf der Startseite, als auch innerhalb der einzelnen Foren auftaucht oder wenn die Themen sowohl im Portal, als auch im Board angezeigt werden), sperrt man sie von den meisten Unterseiten aus. Eigentlich müssen sie nur auf das Portal bzw. die Startseite zugreifen können, auf das Archiv sowie auf eventuell vorhandene statische Seiten wie das Impressum. Somit könnte eure robots.txt etwa so aussehen:

User-agent: *
Disallow: /acp/
Disallow: /attachments/
Disallow: /cache/
Disallow: /images/
Disallow: /js/
Disallow: /styles/
Disallow: /templates/
Disallow: /addreply.php
Disallow: /attachment.php
Disallow: /attachmentedit.php
Disallow: /board.php
Disallow: /calendar.php
Disallow: /editor.jar
Disallow: /editpost.php
Disallow: /forgotpw.php
Disallow: /formmail.php
Disallow: /global.php
Disallow: /login.php
Disallow: /logout.php
Disallow: /markread.php
Disallow: /memberslist.php
Disallow: /misc.php
Disallow: /modcp.php
Disallow: /newthread.php
Disallow: /pms.php
Disallow: /polledit.php
Disallow: /pollstart.php
Disallow: /pollvote.php
Disallow: /print.php
Disallow: /profile.php
Disallow: /regimage.php
Disallow: /register.php
Disallow: /report.php
Disallow: /search.php
Disallow: /thread.php
Disallow: /team.php
Disallow: /threadrating.php
Disallow: /usercp.php
Disallow: /usergroups.php
Disallow: /wiw.php

Session-IDs für Gäste verhindern

Sofern keine Cookies verwendet werden, speichert das WBB2 die einzelnen Sitzungen über Session-IDs. Das sind diese langen Ketten aus Zahlen und Buchstaben, die an das Ende der URL gehängt werden.
Für Gäste (und nichts anderes sind Bots ja) macht dies allerdings herzlich wenig Sinn, da bei ihnen ja keinerleo Einstellungen gespeichert werden. Somit würde für nicht-eingeloggte Besucher bei jedem Seitenaufruf eine neue Session-ID (SID) generiert werden – und in den “Augen” der Suchmaschinenbots würde es sich somit jedesmal um eine neue Seite handeln. Dadurch entstünde der unerwünschte Duplicate Content (siehe unten).

Windapple von gm-d.de hat einen kleinen Hack geschrieben, der diese SIDs für Gäste einfach abschaltet:

Öffne:
/acp/lib/session.php

Suche:
if ((isset($_COOKIE[$cookieprefix.'cookiehash']) && !isset($falsecookiehash))

Ersetze mit:
if ((isset($_COOKIE[$cookieprefix.'cookiehash']) && !isset($falsecookiehash)) || (isset($guestsession) && $filename!=”login.php” && $filename!=”logout.php”))

Ein Danke für diese Tipps geht an www.esports24.net.

allgemeine Tipps

Die folgenden Punkte gelten nicht nur für WBB2-Foren, sondern für sämtliche Webseiten:

Duplicate Content unterbinden

Duplicate Content bedeutet übersetzt “doppelter Inhalt” – wenn zwei Seiten oder auch mehrere Unterseiten einer Domain den gleichen Inhalt liefern. Zum Beispiel ist dies der Fall, wenn eure Seite über www.domain.de. und über domain.de erreichbar ist – allerdings ohne Weiterleitung der einen Adresse auf die andere. Für Google handelt es sich also um zwei verschiedene Seiten, die den gleichen Inhalt werten, und da Google Wert auf individuellen Content legt, wirkt sich dies negativ auf die Wertung eurer Webseite aus. Legt also eine der beiden URL-Varianten als Standard fest und leitet die andere URL auf diese Adresse weiter. Dies ist über einige Zeilen in der .htaccess-Datei im Hauptverzeichnis möglich:

RewriteEngine on
RewriteCond %{HTTP_HOST} ^(www\.domain\.de)(:80)? [NC]
RewriteRule ^(.*) http://domain.de/$1 [R=301,L]

(Den Domainnamen müsst ihr natürlich anpassen! :o) )

GZip-Komprimierung

Google hat jüngst angekündigt, nun auch die Ladezeiten einer Webseite in die Bewertung mit einfließen zu lassen. Das macht insofern Sinn, als dass User schnell ladende Webseiten ja auch bevorzugen. Die Ladezeit eurer Seite könnt ihr unter anderem durch die GZip-Komprimierung verbessern. Im WBB2 könnt ihr diese mit einem Klick im ACP unter Einstellungen -> Ausgabeoptionen aktivieren und tut damit auch euren Usern einen Gefallen.

Links, Links, Links…

… sind das A und O, wenn es darum geht, eine Webseite im WWW bekannt zu machen. Je mehr Backlinks auf eure Seite verweisen, desto öfter wird sie von Bots gefunden, was sich positiv auf das Ranking auswirkt. Tragt eure Seite in Webkataloge ein, allem voran DMOZ, tauscht Links vor allem mit Webseiten zu ähnlichen Themen wie eure Seite, … seid kreativ. ;-)

das Coding

Achtet darauf, eure Seite semantisch korrekt auszuzeichnen – also Tags wie h1, h2, .. und Konsorten zu nutzen, wichtige Inhalte durch strong und/oder em hervorzuheben und so weiter. Und: Suchmaschinen bevorzugen es, viel Content zu finden und wenig Code. Ein Tabellenlayout verursacht somit nicht nur unnötige Ladezeiten, die auch euren Usern auf den Nerv gehen können, sondern bläht den Quellcode wahnsinnig auf. Steigt stattdessen auf Divs und valides Coding um, das geht übrigens auch mit dem WBB2, wobei das in der Tat Einiges an Nerven kosten kann. :-)

27. März 2008

Indem du eine Textdatei namens robots.txt in das Hauptverzeichnis deiner Seite legst, kannst du das Verhalten der Suchmaschinen-Bots beeinflussen.
So kannst du zum Beispiel festlegen, dass bestimmte Ordner nicht durchsucht werden sollen – Sinn macht das etwa für den Ordner mit dem Backend bzw. ACP, ebenso für Logfiles.

Die robots.txt ergänzt die Meta-Anweisungen für Robots und gilt für sämtliche Dateien, die im gleichen Verzeichnis oder untergeordneten Verzeichnissen liegen. Die Anweisungen im Meta-Tag beziehen sich hingegen nur auf diejenige Datei, in deren Header sie enthalten ist.

Aufbau der robots.txt

In der robots.txt kannst du entweder sämtliche Spider auf einmal ansprechen oder aber zwischen einzelnen Bots differenzieren. Wichtig ist, dass du die Datei genau so benennst und nicht etwa Großbuchstaben im Dateinamen oder in der Extension verwendest.

In jedem Fall sind die Anweisungen – die man als records bezeichnet – wie folgt aufgebaut:
# Kommentarzeile: hier kannst du kurz anmerken, welche Anweisung es ist
User-agent: hier steht der Name des Bots
Disallow: hier steht das Verzeichnis/die Datei, die nicht gecrawlt werden soll
Allow: hier steht das Verzeichnis/die Datei, die gecrawlt werden soll

So kannst du zum Beispiel das gesamte Verzeichnis /test vor allen Suchmaschinenbots verbergen, aber die Datei /test/beispiel.htm trotzdem indexieren lassen:

# test-Verzeichnis
User-agent: *
Disallow: /test/
Allow: /test/beispiel.htm

Wie auch sonst steht das Sternchen * hier für alle Bots.

Du kannst auch mehrere Angaben für einen Bot machen:

# test-Verzeichnis
User-agent: *
Disallow: /test/
Disllow: /example/
Disllow: /blah/

der Slash

Wie du siehst, wurden die Verzeichnisnamen mit einem abschließenden Slash / versehen. Dies ist notwendig, da eine Angabe à la Disallow: /test dazu führen würde, dass nicht nur das Verzeichnis /test nicht durchsucht wird, sondern auch alle Dateien, deren Namen mit “test” beginnt.

Wenn du hinter die Angabe Disallow: bzw. Allow: lediglich einen Slash setzt, sprichst du sämtliche Verzeichnisse und Ordner an.

Spam-Vorsorge

Es gibt einige Spider, die Seiten nur durchsuchen, um Emailadressen für den Versand von Spam zu sammeln. Diese kannst du hier nun gezielt ausschließen. Untenstehend findest du eine Liste, in der sowohl “gute”, als auch schädliche Bots genannt werden.

welche Bots gibt es überhaupt?

Eine informative Übersicht über die verschiedenen Spider findest du etwa hier.

1. September 2007

Im Head-Bereich deines HTML-Codes kannst du sogenannte Meta-Tags unterbringen – dies sind Informationen, die sich nicht auf die Darstellung deines Layouts auswirken, sondern die etwa Suchmaschinen dabei unterstützen, deine Website in ihren Katalog aufzunehmen.

Das bekannteste Meta-Tag sind sicherlich die Keywords – eine Anzahl von Schlüsselwörtern, die den Inhalt deiner Seite beschreiben. Lange Zeit galten diese Keywords als das wichtigste Mittel, um eine Seite für Suchmaschinen zu optimieren, mittlerweile spielen sie allerdings keine allzu große Rolle mehr. Nichtsdestotrotz können sie sich als nützlich erweisen.

Im Folgenden stelle ich dir die einzelnen Meta-Tags und ihre Bedeutung vor:

Zeichensatz

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
Dieses Tag ist wichtig, da es angibt, welchen Zeichensatz du verwendest – diese Information benötigt der Browser, um den Text korrekt darstellen zu können. Die ISO-Angabe im Beispiel bezeichnet unseren geläufigen Zeichensatz in Westeuropa – für kyrillische oder arabische Schriftzeichen benötigst du einen anderen Zeichensatz.

Keywords

<meta name="keywords" lang="de" content="Design, GFX, Layout, Grafik, Tutorials, HTML, CSS, PHP, Downloads" />Die Anzahl der Schlüsselwörter sollte zwischen sechs und zehn liegen – sind es mehr, gehen die wichtigsten Keywords oft unter – und sie werden durch ein Komma voneinander getrennt. Wie du siehst, kannst du die Sprache der Schlüsselwörter definieren: lang="de" steht hierbei für deutsch; “en” für Englisch, “fr” für Französisch und so weiter. Um Schlüsselwörter einer zweiten Sprache festzulegen, kopierst du einfach den obigen Code und ersetzt das “de” durch dein gewünschtes Länderkürzel, um dann die Keywords in der jeweiligen Landessprache anzugeben.

Beschreibung

<meta name="description" content="Tutorials und Artikel zum Thema Webdesign, dazu diverse kostenlose Grafikdownloads." />
Wenn du in einer Suchmaschine wie etwa Google nach einer Seite suchst, wird unterhalb des Links ein kurzer Informationstext angezeigt, der dem potentiellen Besucher verrät, was er auf der Seite finden wird. Diesen Text legst du über das Tag “Description” fest. Achte darauf, dass dein Beschreibungstext idealerweise nicht kürzer als 70 und nicht länger als 180 Zeichen ist.

Sprache

<meta http-equiv="content-language" content="de" />
Die Sprache, in welcher du deine Inhaltstexte verfasst hast, gibst du mit diesem Tag an. Hierbei steht “de” wieder für Deutsch, andere Sprachabkürzungen findest du oben unter dem Punkt “Keywords”.

Autor

<meta name="author" content="Paulchen Panther" />Der Name desjenigen, dem diese Seite gehört.

Angaben für Bots

Bots sind die Roboter, mit denen Suchmaschinen das WWW durchforsten und ihre Kataloge aktualisieren.

<meta name="robots" content="index,follow" />
Dies ist die standardmäßige Anweisung für Bots – sie sollen die gesamte Seite durchsuchen und auch den Verlinkungen folgen.

<meta name="robots" content="noindex" />
Mithilfe dieser Angabe verhinderst du, dass die Bots den Inhalt deiner Seite durchsehen – sie wird somit nicht von Suchmaschinen erfasst werden.

<meta name="robots" content="nofollow" />
Hierdurch wird zwar die Seite selber durchsucht, Verlinkungen werden aber ignoriert.

die Autorin
neontrauma neontrauma, 23 Jahre alt, Studentin und freiberufliche Webdesignerin, liebt Coding & Fotografie und wohnt in Leverkusen. mehr?
neontrauma im www
flickr fotocommunity deviantART twitter facebook StudiVZ lifestream.fm last.fm