SEO Advanced | Contenuti duplicati
Il termine "contenuti duplicati" si riferisce in genere a blocchi
considerevoli di contenuti all'interno o tra i domini che sono identici o molto
simili. In genere questa pratica non è all'origine ingannevole.
Penalizzazione per contenuti duplicati
Nonostante non vi sia una vera e propria penalizzazione ad hoc per i contenuti duplicati come afferma Google, è bene evitare queste situazioni borderline: se la copia ha un intento di manipolazione dei ranking, allora il sito Web potrebbe subire conseguenze pesanti fino alla deindicizzazione.
- Gli utenti in una SERP (Search Engine Results Page) vogliono vedere diversità e non lo stesso identico contenuto riproposto tale e quale su domini diversi e Google deve accontentare il suo pubblico.
- Quando Googlebot trova due contenuti identici in due URL diversi, come fa a decidere qual è la fonte originale? Google si trova davanti un bivio e per scegliere quale strada percorrere, l'algoritmo considera la data di indicizzazione e altri fattori, tra cui l'autorità del sito.
- Per il bot scansionare decine di pagine identiche è uno spreco di crawl budget e va a discapito dell'indicizzazione di pagine legittime con contenuti freschi, comportando una potenziale perdita di traffico per il tuo sito.
- In ottica di link building, ottenere backlink verso più pagine diluisce la forza del link stesso, soprattutto se al tuo posto viene linkato un concorrente che ha copiato un tuo contenuto
Cause della presenza di contenuti duplicati
- Plagio. Al di là dei risvolti legali del plagio o copia di contenuti da siti altrui, Google offre uno strumento gratuito, detto DMCA Dashboard, che lo informa di queste situazioni per permettergli di rimuovere immediatamente dal suo indice i trasgressori, senza attendere le lungaggini di un processo civile.
- Versioni diverse del sito. Sto parlando del caso di HTTP/HTTPS e www/non-www, situazioni che si verificano quando il webmaster non ha implementato un redirect 301 tra le varie versioni del sito. Ad esempio, senza un redirect, Googlebot può accedere alla medesima pagina (con e senza www) tramite 4 URL diversi.
- Parametri. Esistono parametri di tracking che non hanno alcuna influenza sul contenuto della pagina e possono essere tranquillamente ignorati, applicando un link canonical nella sezione <head> della pagina, che permette di specificare la versione principale. Esistono anche parametri che letteralmente cambiano il testo della pagina. Mi riferisco alla famosa faceted navigation, cioè quel filtro che compare spesso negli e-commerce di prodotti fisici per filtrare la pagina per prezzo, colori, varianti e altre caratteristiche.
- Thin content. I contenuti scarni o thin content sono pagine eccessivamente brevi oppure che non hanno nulla di originale, ma che ripresentano sezioni del sito già pubblicate in altri URL.
- Boilerplate content. Spesso non si fa caso al boilerplate content, cioè il contenuto presente in header, footer e sidebar, ma per molti siti rappresenta buona parte del testo nella pagina ed essendo presente in ogni URL, può diventare un problema. Una soluzione può essere l'implementazione di variazioni in base alla sezione del sito in cui si trova l'utente.
Soluzioni pratiche
- Comunica a Google come gestire i parametri; in Search Console c'è un'apposita sezione "Parametri URL" dove puoi specificare la funzionalità di ciascun parametro per informare Google su come considerare i vari parametri quando li incontrerà nella prossima scansione.
- Canonical Link. Specificando la versione ufficiale della pagina, indicherai a Google di non indicizzare le eventuali varianti che potrebbe trovare durante la scansione del sito.
- Redirect 301. Usando il file .htaccess potrai implementare un redirect 301 tra pagine identiche che non hanno utilità pratiche, evitando di sprecare crawl budget.
- Rel Alternate. In presenza di diverse versioni del sito, come nel caso di multilingua o mobile, usare il rel="alternate"
Contenuti duplicati tra domini diversi
Per trovare contenuti duplicati esterni al sito esistono servizi appositi come Copyscape oppure è possibile cercare manualmente una o più frasi del proprio articolo, usando le virgolette su Google.
Contenuti duplicati interni
All'interno di un dominio per trovare pagine con contenuti duplicati si usa un crawler esterno in cloud come SEMrush oppure desktop come Screaming Frog.
Confrontare tag title e meta description
Identificare gli URL che hanno il medesimo title o meta description e verificare che abbiano già un canonical link, un meta robots noindex o un'altra misura per evitare la duplicazione nell'indice di Google. Diversamente, si tratterebbe di veri e propri contenuti duplicati.
Confronto degli URL
Per essere più precisi nella ricerca, si devono ordinare gli URL per scoprire se sono stati usati parametri o se ci sono strutture con schema ricorrente.
Ad esempio, la paginazione degli archivi WordPress, che spesso contiene thin content, si riconosce visivamente per la struttura dell'URL:
sito.it/page/2
sito.it/page/3
sito.it/page/4