Duplicate Content – Definition, Bedeutung für SEO, Tipps

Duplicate Content (kurz DC) zu Deutsch doppelter Inhalt bezieht sich auf Internetinhalte, auf die in identischer Form unter verschiedenen URLs im Internet zugegriffen werden kann.

Was ist Duplicate Content?

Etwas ausführlicher umschrieben handelt es sich beim Duplicate Content, um Inhalte von verschiedenen Websites, die sehr ähnlich oder vollständig identisch sind. Suchmaschinen wie Google versuchen, doppelte Inhalte zu verhindern und können Websites, die (zu viele) doppelte Inhalte verwenden in ihrem Index herabstufen. Insbesondere bei Verdacht auf Manipulation (für SEO-Zwecke) können Seiten mit kopiertem Inhalt ihr Ranking verlieren oder sogar de-indexiert werden.

Warum sollte man Duplicate Content vermeiden?

Suchmaschinen bewerten doppelte Inhalte als negativ, da sie dem Benutzer keinen Mehrwert bieten. Trotzdem muss jede Website gecrawlt und indexiert werden und verbraucht daher Ressourcen.

Da Webmaster in der Vergangenheit häufig doppelte Inhalte auf Webseiten platziert haben (auch für SEO-Zwecke), hat Google Maßnahmen gegen wiederverwendete Inhalte ergriffen. Durch Algorithmusänderungen wie das Panda-Update hat der Suchmaschinenanbieter sichergestellt, dass die Seiten mit doppeltem Inhalt herabgestuft wurden.

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Wie kann Duplicate Content vermieden werden?

Das Duplizieren von Inhalten führt normalerweise nicht zu einer Suchmaschinenstrafe. Da jedoch das Risiko besteht, dass doppelte Inhalte negativ bewertet und nicht mehr indexiert werden, sollten Website-Betreiber einige wichtige Maßnahmen in Betracht ziehen, um Duplicate Content zu vermeiden:

301 Weiterleitungen

Eine Weiterleitung mit dem 301-Code ist sinnvoll, um die Suchmaschine und den Leser immer auf die gewünschte Seite zu leiten und so alte Inhalte zu überspringen. Wenn beispielsweise eine Seite vollständig durch eine andere ersetzt wird – mit einer anderen URL – (z. B. beim Neustart), ist eine 301-Weiterleitung die beste Lösung. Auf diese Weise werden nicht zwei Seiten mit identischem Inhalt erstellt, sondern der Besucher, selbst wenn er die URL einer Seite auswählt wird direkt auf die andere geeignete Seite geführt.

Google hält diese Weiterleitung für problemlos. Um es jedoch so benutzerfreundlich wie möglich zu gestalten, sollten Webmaster nur zu Seiten weiterleiten, die einen geeigneten Ersatz für die Originalseite darstellen.

Auf die Verwendung korrekter URLs achten

Um Duplicate Content zu vermeiden, ist es sehr wichtig, die richtigen URLs zu verwenden. Beispielsweise empfiehlt Google selbst, stets auf die konsistente Struktur von URLs zu achten, das heißt Webadressen einheitlich zu verwenden. Zum Beispiel jeweils nur eine Version: www.beispiel.de/unterseite oder www.beispiel.de/unterseite/ oder www.beispiel.de/unterseite/index.htm.

Site-Betreiber sollten auch Webmaster-Tools verwenden, um ihre bevorzugte Site-Adresse zu ermitteln: http://www.beispiel.de oder http://beispiel.de usw. Der Canonical-Tag (siehe unten) kann Ihnen auch dabei helfen, die richtige Seite anzuzeigen. Google empfiehlt außerdem die Verwendung von Top-Level-Domains, um Ihre Inhalte besser zu definieren. Zum Beispiel sollten Webmaster besser www.beispiel.de anstelle von URLs wie de.beispiel.com verwenden.

Viele Content-Management- und Tracking-Systeme können versehentlich doppelte Inhalte erstellen, indem sie Seiten-URLs umgestalten. Aufgrund von Paginierung oder Archivierung kann das CMS die URL der Seite ändern (z. B. beispiel.de/text/0815 anstelle von beispiel.de/text). Daher ist die Seite unter verschiedenen URLs vorhanden. Gleiches gilt für die (automatisch generierten) Tracking-Parameter, die das an die ursprünglichen URLs angehängte URL-Fragment generieren. Wenn die Suchmaschine diese Fragmente nicht richtig erkennt, kann sie das Tracking als neue URL erkennen und die Seite zweimal zählen. Daher sollten Webmaster und SEO-Experten ihr CMS und ihr Analysesystem auf diese Schwachstellen überprüfen.

Doppelte Inhalte minimieren

Website-Betreiber sollten das Duplizieren von Inhalten so weit wie möglich vermeiden und eindeutige Inhalte (Unique Content) erstellen. Auf vielen Seiten müssen oder sollten einzelne Textmodule redundant verwendet werden. Manchmal kann die Vervielfältigung ganzer Seiten nicht ausgeschlossen werden. Webmaster sollten dies jedoch so weit wie möglich einschränken und der Suchmaschine bei Bedarf über einen Link im HTML-Code mitteilen, dass bereits eine Seite mit demselben Inhalt vorhanden ist.

Zusätzlich zu selbst erstelltem Duplicate Content kann es auch vorkommen, dass andere Websites Duplicate Content erstellen – wenn der Website-Betreiber seinen Content auf verschiedene Websites überträgt / verkauft oder andere Websites diesen Content ohne Erlaubnis verwenden. In beiden Fällen sollten Site-Betreiber den Betreiber der anderen Site auffordern, den kopierten Inhalt mit einem Backlink zum ursprünglichen Inhalt oder einem No-Index-Tag zu kennzeichnen. Auf diese Weise kann die Suchmaschine erkennen, was der ursprüngliche Inhalt ist und welchen Inhalt sie indexieren soll.

Canonical-/href lang-/noindex-Tag oder robots.txt disallow verwenden

Durch die Verwendung verschiedener Tags (im Quellcode) kann eine Form der Vervielfältigung von Inhalten verhindert werden. Der Canonical-Tag im Bereich <head> weist Google an, die Seite, auf die es verweist, zu crawlen. Der Roboter sollte jedoch die Kopie dieser Seite (in die das Tag integriert ist) vernachlässigen. Das Meta-Tag noindex wird verwendet, um einer Suchmaschine mitzuteilen, dass sie Ihre Seite crawlen, aber nicht indexieren soll. Im Gegensatz zum unzulässigen Eintrag in der robots.txt-Datei ermöglicht der Webmaster Googlebot, die Seite und ihren Inhalt zu durchsuchen.

Disallow

Disallow kann in der Datei robots.txt verwendet werden, um ganze Seiten, Seitentypen oder Inhaltstypen vor dem Herunterladen und damit Indexieren durch Google und Co. zu schützen. Robots.txt ist eine Datei, die definiert, welche Inhalte vom Suchmaschinenroboter erfasst werden können und welche nicht. Disallow besagt, dass die Suchmaschine nicht auf bestimmte Inhalte zugreifen kann. Das href lang-Tag kann verwendet werden, um Suchmaschinen zu signalisieren, dass die Seite die Domain nur in eine andere Sprache übersetzt hat. Wenn beispielsweise eine Domain in der .co.uk-Domain für den britischen Markt und .com für den US-amerikanischen Markt vorhanden ist, signalisiert das href lang-Tag, dass es sich um einen Ableger der anderen Partei handelt, wodurch verhindert wird, dass die Suchmaschine die Seiten als Duplicate Content bewertet.

Fazit

Doppelte Inhalte können für Webmaster und SEO-Experten zu einem Problem werden, da Suchmaschinen nur ungern Ressourcen für doppelte Inhalte verwenden. Gleichzeitig möchte Google seinen Nutzern einzigartige Inhalte anbieten. Dies bedeutet, dass der Duplicate Content möglicherweise als negativ eingestuft wird und im schlimmsten Fall die Seite herabgestuft oder bei Verdacht auf Manipulation sogar de-indexiert werden kann. Website-Betreiber haben verschiedene Möglichkeiten, um doppelten Inhalt zu verhindern oder zu beseitigen – einschließlich sauberer Weiterleitungen, Tags im Quellcode und Unique Content.