Ist eine Seite nicht bei Google gelistet wenn sie nicht im Google Cache ist?

Ja, mit dieser Frage durfte ich mich heute herumschlagen. Mir wurde mit genau dieser Begründung ein Auftag nicht erteilt. Also Zeit mit diesem Irrglauben, der mir seit Jahren immer mal wieder begegnet, aufzuräumen.

Hier werden Äpfel mit Birnen gleichgesetzt denn es handelt sich um zwei verschiedene Dinge. Da gibt es zum einen den Google Index, der das aktuelle Bild einer Website zeichnet und es gibt den Google Cache der zeigt irgendetwas aus der Vergangenheit, also etwas Altes. Das muss man auseinanderhalten.

Eine Website kann sehr wohl im Google Index gelistet sein ohne im Google Cache zu sein. Wie kann das passieren? Die Antwort ist einfach, man setzt ein Meta Tag für die Robots genauer, man setzt folgenden HTML Code in den Header (oder auf jede Seite auf der man das haben möchte):  <META NAME=”ROBOTS” CONTENT=”NOARCHIVE”> oder wenn ich nur Google ausschliessen will ein <META NAME=”GOOGLEBOT” CONTENT=”NOARCHIVE”>

Aber warum tut man das? Nun, die Antwort ist einfach. Man will verhindern das ein  Besucher veraltete Informationen (beispielsweise bei Terminen, oder alte Preise bei geänderten Speisekarten im Gastro Bereich oder Online Shop) erhält. Auch wird verhindert das ein Seitenbesucher nicht mehr relevante, oder gar fehlerhafte Informationen erhält. Es ist also eine SEO Maßnahme, die schlussendlich der Qualität einer Webseite dienlich ist.

Der Seitenbesucher verlangt eben genau nach aktuellen und keinen veralteten Informationen. Des weiteren wird damit recht effektiv verhindert das alte Versionen der Website sich in Wayback Maschinen wiederfinden. Schaut man sich seibotec.com bei  der größten Wayback Maschine archive.org an, findet man zwei Snapshots im Januar und einen im Februar. Das waren Tage wo noarchive nicht gesetzt war. Nun dürfte der eine oder andere Snapshot dazukommen, denn ich habe noarchive erst einmal entfernt. Aber ich habe Bauchschmerzen damit und behalte mir vor das jederzeit wieder zu setzen.

Aber noarchive kann auch Sinn machen, denn ist die Seite nicht verfügbar, greift Google in seinen Cache und liefert diese Variante aus, versehen mit dem Hinweis das es sich um einen gecachten Inhalt handelt. Das macht aber nur für Seiten Sinn die eine recht hohe Frequenz haben was den Bot-Besuch angeht, dann ist das Risiko geringer, das ein Besucher falsche Informationen bekommt. Seiten mit oft wechselndem Inhalt, beispielsweise Terminen oder ähnliches sollten  noarchive setzen, denn dann ist es besser nicht erreichbar zu sein als falsche Infos (beispielsweise Ticket Bestellungen für ein bereits ausverkauftes Konzert) anzubieten. Auch die Seiten mit geringer Besuchsfrequenz, die also vom Googlebot selten besucht werden, aber dennoch Inhalte haben die recht häufig wechseln, sollten noarchive setzen.

Tja, und dann gibt es in meinen Augen noch ein Problem. Angenommen man publiziert einen Inhalt, der sich ein paar Wochen später als rechtlich bedenklich herausstellt, warum auch immer, dann kann man zwar die aktuelle Seite korrigieren bzw. löschen, aber im Cache ist immer noch die fehlerhafte Version. Hier erhebt sich die rechtliche Frage wie öffentlich ist denn so ein Cache? Ich kenne also auch Leute die benutzen aus reinem Selbstschutz heraus noarchive. Diese Betreiber wollen ihre Seite sauber halten und nicht das Risiko eingehen das eine alte Version der Website ihnen im Nachinein noch Probleme macht. Mir konnte bisher kein Anwalt darüber verlässliche Auskunft geben, aber vielleicht findet sich ja über den Artikel hier ein Rechtskundiger, der das gerade rücken kann.

Wie dem auch sei, ob man seine Seiten cachen läßt oder nicht liegt alleine am Betreiber. Die seriösen Crawler wie Googlebot & Co. halten sich daran, die anderen arbeiten sowieso nach ihren eigenen Regeln, denn ein Robot muss sich nicht an die Meta Tags halten. Aber es gehört zum guten Ton das zu tun.

Übrigens ein noindex verhindert auch das Caching, nur wird die Seite dann auch nicht im Index der Suchmaschine erfasst. Man kann also einzelne Seiten vom Indexieren und Cachen ausschliessen aber über noarchive das Indizieren zulassen, nur das Caching eben nicht. Über die Meta Tags lässt sich viel steuern. Wer was für seine Seite benutzt bleibt jedem selber überlassen, nur sollte man wissen das es so ein Steuerungsintrument gibt.

Auf jeden Fall sollte man die Möglichkeiten dieser Meta Tags studieren, und sei es nur um Bescheid zu wissen.

PS: Wer sich anzeigen lassen will welche seiner Seiten im Google Index sind, ohne die Webmaster Tools zu benutzen, der bemühe einfach die Google Websuche mit folgendem Suchbegriff: allinurl:www.meinedomain.xxx

(Visited 100 times, 1 visits today)
Facebooktwittergoogle_plusredditpinterestlinkedinmail

Schreibe einen Kommentar

Durch die weitere Nutzung der Seite stimmst du der Verwendung von Cookies zu. Weitere Informationen

Die Cookie-Einstellungen auf dieser Website sind auf "Cookies zulassen" eingestellt, um das beste Surferlebnis zu ermöglichen. Wenn du diese Website ohne Änderung der Cookie-Einstellungen verwendest oder auf "Akzeptieren" klickst, erklärst du sich damit einverstanden. Damit diese Seite funktioniert ist es notwendig kleine Dateien (genannt Cookies) auf deinem Computer zu speichern. Zudem erhöhen die Cookies den Bedienungskomfort für dich. Google selbst verwendet Cookies, um Inhalte und Anzeigen zu personalisieren, Funktionen für soziale Medien anbieten zu können und die Zugriffe auf unserer Website zu analysieren. Außerdem gibt Google Informationen zur Nutzung unserer Website an dessen Partner für soziale Medien, Werbung und Analysen weiter. Die geschieht über die eingeblendeten Werbebanner. Wenn du diese Seite benutzt stimmst du der Nutzung von Cookies zu. Über Ihre Browsereinstellungen kannst du entscheiden ob Cookies angenommen werden oder nicht. Auch kannst du Cookies jederzeit und auch gezielt über den Browser löschen. Due kannst den Browser auch so konfigurieren das beim Schliessen alle Cookies automatisch gelöscht werden. Weit über 90% aller Webseiten setzen Cookies. Jedoch werden wir seit dem 26. Mai 2012 per EU Datenschutz Regelung dazu aufgefordert zuerst deine Zustimmung einzuholen.

Schließen