Duplicate content

Z problemem duplicate content spotkałem się osobiście kilka lat temu gdy w któryś piękny poniedziałek ilość odwiedzających strony moich klientów spadła o 95%. Szok, co się stało? Czy to tymczasowe google dance? Blog Matta Cuttsa zagotował się, było już wiele takich przypadków jak mój. Ukazała się informacja, że wprowadzono pewne usprawnienia :) .

Czym jest Duplicate content ?

Jest to rodzaj filtra, któremu poddawane są strony. Google w pewnym momencie zaczęło walczyć ze stronami o takiej samej lub podobnej treści, nie różniących się znacznie od siebie, w imię zasady by prezentować unikalną najlepszą treść użytkownikom korzystających z wyszukiwarki. Uderzyło to najpierw w serwisy gdzie brakowało unikalnych title, desc, dobrej struktury strony, które powstały w oparciu o gotowe cms’y – niedostosowane i nie z optymalizowane pod kątem wyszukiwarek. W początkowym okresie rozwoju pozycjonowania stron dobra optymalizacja strony dawała olbrzymią przewagę nawet nad serwisami, które miały wysoki Page Rank i istniały w sieci po kilka lat. Kto dobrze zaprezentował treść wyszukiwarkom zdobywał na samym starcie przewagę.

Strony, które miały zbliżoną treść przestały być wykazywane w indeksie. W owy poniedziałek liczba zaindeksowanych moich stron spadła także o 95%. Powstawały kolejne pytania o to co Google zrobiło z wcześniej zaindeksowanymi stronami? Czy może przestało pokazywać dokładnej liczby zaindeksowanych stron? Matt Cutts wyjaśniał problem jak mógł, w pewnym momencie padło pytanie o to jak będą traktowane sklepy.

99% sklepów nie ma unikalnej treści

Czy Amazon.com to jeden wielki unikalny Duplicate content ? Oprócz stron o firmie i linków nawigacyjnych nie ma własnej treści. Podobnie jest z księgarniami internetowymi w Polsce – wszystkie korzystają z tych samych opisów dostarczonych przez wydawnictwa. Google bierze to pod uwagę lecz w początkowym okresie miało z tym olbrzymie problemy.

Dlaczego Google wprowadziło filtr duplicate content

Celem było wywalenie z indeksu, lub zmniejszenie widoczności stron, które wykorzystywały zewnętrzny lub powtarzalny content. W pewnym okresie powstała masa stron, które generowane były automatycznie poprzez treści z innych serwisów. Nasuwa się kolejne pytanie:

Dlaczego powstawały takie strony, których Google nie chciało?

  1. Moim zdaniem wynikało to głównie z przyjętego modelu biznesowego który opierał się (i opiera nadal) na wyświetlaniu reklam. Im więcej treści tym większa liczba wyświetleń. Skąd brano treść? Kopiowano, lub w małym stopniu przeredagowywano. Był to skuteczny sposób na zwiększenie liczby odwiedzających.
  2. Wiele osób zakładało, że zdublowanie serwisów, lub budowa podobnych serwisów wzmocni widoczność strony lub danej marki.
  3. Strony MFA (made for adsense) – generowanie stron z dużą reklam. Najśmieszniejsze jest to, że google adsense (prezentacja reklam kontekstowych) to core biznes Googla. Po wielu reklamacjach reklamodawców zaczęto walczyć z takim rodzajem stron.
  4. Poprawę widoczności uzyskiwało się także poprzez zwiększenie liczby stron np:w oparciu o zapytania w wyszukiwarce danej strony. Jeżeli ktoś zadał zapytanie generowana była automatycznie strona z treścią zapytania. Im więcej ilość stron wewnątrz serwisu tym łatwiej można było wzmocnić wewnętrzne linkowanie (jeden z ważniejszych czynników mających wpływ na pozycjonowanie).

Początkowy efekt duplicate content

Filtr ten powodował usunięcie stron z indeksu, zmniejszenie liczby odwiedzin, a co za tym idzie zmniejszenie sprzedaży. Po około 3 tygodniach Google złagodziło ten filtr .

Co powoduje obecnie duplicate content

Jeżeli google znajduje dwie podobne do siebie strony stara się w pierwszym kroku ustalić, która z nich zawiera oryginalną treść. Zalecenie google jest podawanie źródła treści przy wykorzystywaniu artykułów, których nie jest się autorem. Jeżeli strona uznawana jest za dublet traci na widoczności na pewne szczególne frazy.
Jeżeli dana strona ma podobną treść jak strona z innej domeny – strona jest indeksowana ale traci na widoczności w wynikach wyszukiwania na daną frazę, trudniej jest takiej stronie przebić się na czołowe miejsca w wynikach, jest mniejsza ilość wejść z long tail.
Jeżeli dana strona ma podobną treść jak strona z tej samej domeny – google stara się wybrać tę ważniejszą stronę, pozostałe strony nie są indeksowane. Jeżeli google ma problem z wybraniem ważniejszej strony dochodzi do wahań w liczbie zaindeksowanych stron i niestabilności w wynikach wyszukiwania.
Ilość wejść na serwis spadła w obydwu powyższych przypadkach o około 50%.

Przykłady duplicate content

  • strona.com/
  • strona.com/?
  • strona.com/index.html
  • strona.com/Home.aspx
  • www .strona.com/
  • www .strona.com/?
  • www .strona.com/index.html
  • www .strona.com/Home.aspx

Powyższe adresy to proste przykłady duplicate content. Google wie że są to te same strony i stara się wybrać tą najważniejszą. Strony nie zostaną usunięte, ale może pojawić się kilka negatywnych efektów.

Problem istnienia dwóch stron www .strona.com/ i strona.com/ można rozwiązać za pomocą narzędzia dla webmasterów, w którym wybrać można preferowaną domenę z lub bez www. Jednak w pozostałych wypadkach Google może mieć problemy. Spadnie moc linków kierujących na tą samą stronę z różnymi url’ami. Google spędzi więcej czasu na kilkukrotne sprawdzanie tej samej treści co wpłynie na sposób indeksowania.

Jak uniknąć duplicate content

Zwrócić się do firmy zajmującej się pozycjonowaniem napisz do findable.pl.