SEO WordPressa – powielanie treści

Strona WWW dostępna z różnych adresów internetowych jest postrzegana przez wyszukiwarki jako powielona treść. Może to stanowić problem w kontekście starań o wysoką pozycję w wynikach wyszukiwania. W tym artykule poznasz powody powstawania powielonej treść oraz sposoby na rozwiązywanie tego problemu.

Dla ludzi nie ma większego znaczenia, jak wygląda adres internetowy prowadzący do jakiejś strony WWW – inaczej niż dla robotów indeksujących. Te drugie nie potrafią czytać i oglądać ze zrozumieniem. Dla robotów istotne są znaki – potrafią je zapamiętywać i liczyć. Treść sama w sobie nie jest dla nich poświadczeniem autentyczności – takim poświadczeniem, swoistym numerem identyfikującym – jest adres WWW.

Wynika to z prostej przyczyny – ta sama treść może znajdować się na różnych portalach WWW. Siłą rzeczy prowadzą do nich różne odnośniki. Treść mogła być skopiowana nielegalnie lub powielona świadomie. Przyczyny powstania kopii są dla wyszukiwarek nieistotne – nie dociekają jakie jest źródło, ale wiedzą, że do tej samej treści prowadzą różne odnośniki. Jednocześnie w interesie wyszukiwarek jest serwowanie unikatowej treści swoim użytkownikom. Nikt nie będzie dociekał, gdzie znajduje się oryginał lub kto, i co, przywłaszczył. Wyszukiwarki po prostu nie lubią duplikatów.

Jakie są przyczyny powstawania powielonej treści?

A dokładniej: jakie są przyczyny tego, że czasami różne odnośniki mogą prowadzić do tej samej strony WWW w obrębie tej samej domeny. W tym miejscu pomijam sytuację, w której kopia artykułu znajduje się na łamach innego portalu WWW.

Źródło problemów może tkwić w budowanie CMSa – jego mechanika może zakładać dostęp do tej samej treści z poziomu wielu odnośników. W przypadku WordPressa tego typu problem nie występuje. Przykładem mogą być źle zaplanowane i wdrożone sesje logowania.
Dostępność portalu internetowego z poziomu adresu WWW i bez WWW. Podobna sytuacja jest w przypadku stosowania protokołu HTTP i HTTPS. Dla wyszukiwarek są to odrębne adresy internetowe.
Dodatkowe parametry dopisywane do adresu WWW – główny człon adresu pozostaje niezmienny, ale na jego końcu pojawiają się nieczytelne dla nas znaczki/krzaczki. Taka sytuacja może zaistnieć w przypadku stron generowanych dynamicznie – czyli CMS. Na przykład: wybieramy kolor produktu na stronie sklepu internetowego – zasadnicza treść strony WWW pozostaje taka sama, wpływamy tylko na właściwość kupowanej rzeczy. Ta zmiana może mieć swoje odzwierciedlenie w adresie WWW produktu – dla robota indeksującego jest odrębny adres WWW.
Kolejność parametrów w treści odnośnika. Na przykład ciąg znaków: /?id=37&cat=4 to nie to samo co /cat=4&id=37. W obydwu przypadkach adres wskazuje na numer treści (37) i numer kategorii (4) i spowoduje wyświetlenie tej samej treści. Dla robota indeksującego są to dwa odrębne adresy WWW.
Alternatywne wersje tej samej strony WWW – przykładowo wersja strony do druku. Otwierając taka stronę mamy do czynienia z tą samą treścią, ale pod lekko zmodyfikowanym adresem WWW (wystarczy dopisek print).
Paginacja komentarzy. Jeśli włączymy opcję numeracji stron z komentarzami, to ta sama strona WWW może być dostępna pod lekko zmodyfikowanym adresem WWW.

Jak rozpoznawać problemy z powielaniem treści?

Powielona treść może dotyczyć naszego serwisu lub wielu portali WWW. Przyczyny są różne. Do nas należy wyłapanie problemów. W tym celu możemy sięgnąć po różne narzędzia.

Wyszukiwarki udostępniają różnego typu narzędzia monitorujące. Jeśli pojawią się problemy z naszym serwisem to powinniśmy otrzymać stosowną wiadomość. W przypadku narzędzi Google Search Console informacje na temat powielonej treści możemy znaleźć w sekcji „Udoskonalenia HTML”.
Możemy także wykorzystać odpowiednie operatory filtrujące proces wyszukiwania. W przypadku Google możemy skorzystać: site:nazwa-domeny.pl intitle:”Szukana fraza”. W ten sposób ograniczymy wyniki wyszukiwania to słów zawartych w cudzysłowie. Dzięki temu możemy przeanalizować wyniki w poszukiwaniu powielonych tytułów. Szczególnie jeśli pojawi się informacja, że niektóre wyniki wyszukiwania zostały ukryte.
Możemy także rozszerzyć zakres poszukiwań na cały Internet usuwając nazwę domeny i pozostawiając w polu wyszukiwania intitle:”Tytuł artykułu”.W ten sposób jesteśmy w stanie odszukać „pożyczoną” (bez naszej wiedzy) treść na łamach innych portali. Warto wprowadzać drobne zmiany w poszukiwanych frazach – niektórzy starają się być sprytni i modyfikują nieznacznie tytuł.
Istnieją narzędzia online skupione na wyszukiwaniu skopiowanej treści w oparciu o nazwę naszej domeny (przykładowo: Siteliner i Copyscape).

Jak przeciwdziałać i rozwiązywać problemy z powielaniem treści?

Zdecydować się na jedną wersję adresu internetowego naszej domeny: z WWW lub bez WWW.
W przypadku stron dynamicznych generowanych w oparciu o zapytania do bazy danych (CMS), mogą pojawić się dodatkowe parametry. Sprawdźmy, czy parametry są wyświetlane w tej samej kolejności.
Jeśli w treści odnośnika po zalogowaniu pojawia się Id sesji to warto poszukać opcji na zapleczu CMSa, która wyłącza taką funkcjonalności.
Wyłączyć paginacje komentarzy lub skorzystać z zewnętrznych usług zarządzających sekcją komentarzy.
Jeśli tworzymy wersje stron do druku, to formatowanie powinno być wdrożone za pomocą odpowiedniego stylu kaskadowego CSS.
Możemy także skorzystać z przekierowań 301 jeśli jakaś powielona treść znajduje się w internecie pod naszą kontrolą i generuje duży ruch.
Opcjonalnie, możemy wykorzystać adresy kanoniczne, aby oznaczać naszą treść jako „oryginalną” lub przekierowywać użytkowników i roboty do źródła.

Czy zagrożenie jest duże?

Problem z powieloną treścią dotyka głównie duże i popularne serwisy. Z reguły są to strony dynamiczne, generowane w oparciu o zapytania do baz danych. Bazy danych potrafią zwracać różnego typu wyniki wprowadzając nieznaczne zmiany do treści. Objawia się to głównie w przypadku sklepów internetowych. Bazy danych sklepów przechowują wiele kategorii i mnóstwo produktów.

Małe serwisy internetowe nie powinny zmagać się z problemem powielania treści w obrębie własnej domeny. Istnieje za to ryzyko agregacji treści przez oszustów lub pospolita kradzież.