Google e i contenuti duplicati

Contenuti sito duplicati

Uno dei temi più dibattuti di recente in campo SEO è quello dei contenuti duplicati.
In quali situazioni Google reputa due o più pagine come contenuti duplicati? Che penalizzazioni applica? Come è possibile evitare queste penalizzazioni?
Cerchiamo di fornire qualche risposta.

Definizione di contenuto duplicato

Partiamo da questa definizione tratta dal blog ufficiale di Google Webmaster:

Il contenuto duplicato si riferisce generalmente a blocchi sostanziali di contenuto all’interno dello stesso dominio o tra diversi domini che combaciano esattamente con altri contenuti o sono molto simili tra loro.

Teniamo però presente che gli algoritmi di Google

non vedono come contenuto duplicato lo stesso articolo scritto in Inglese e Spagnolo. Similarmente, non dovreste preoccuparvi che snippets occasionali (virgolette e altro) vengano evidenziati come contenuto duplicato.

Duplicazione di contenuti: quando succede?

Non consideriamo qui il caso in cui qualcuno copia deliberatamente i contenuti presenti in altri siti. In questi casi si verifica una violazione del copyright e delle norme etiche, quindi la penalizzazione da parte di Google è solo la “ciliegina sulla torta”.

Vediamo invece le ipotesi in cui diverse pagine dello stesso sito presentano contenuti simili o del tutto uguali, rischiando in tal modo di essere penalizzate da Google.
I casi più comuni di possibili duplicazioni sono i seguenti:

  • pagine con contenuti uguali ma raggiungibili da URL leggermente diversi, ad es. mysite.com/index.htm e www.mysite.com/index.htm
  • versioni accessibili, per ipovedenti o non vedenti, delle pagine del sito
  • versioni alternative per la stampa o per l’invio tramite e-mail
  • versioni per feed RSS
  • siti di e-commerce con prodotti appartenenti a varie categorie merceologiche, ad es.:

http://www.mysite.com/product.php?item=swedish-fish

http://www.mysite.com/product.php?item=swedish-fish&category=gummy-candy

  • blog con articoli appartenenti a più di una categoria o a cui sono assegnati diversi tag, ad es.:

http://www.myblog.com/article.php?id=21&cat=SEO

http://www.myblog.com/article.php?id=21&cat=web-marketing

http://www.myblog.com/article.php?id=21&tag=google

  • wiki nei quali due termini puntano alla stessa pagina (es. SEO e Search Engine Optimization):

http://www.mywiki.com/wiki/SEO

http://www.mywiki.com/wiki/Search_Engine_Optimization

La penalizzazione

Quindi se mi trovo in una delle situazioni elencate sopra verrò sicuramente penalizzato da Google? La risposta è NO.

In una recente chat con i webmaster italiani, lo staff di Google ha chiarito che i contenuti duplicati non generano penalizzazioni a meno che non siano stati creati con “intenti manipolativi”, cioè con l’unico scopo di modificare il proprio ranking nelle SERP. Resta da capire, e su questo punto i membri di Google sono stati piuttosto vaghi, come l’algoritmo di Google sia in grado di distinuguere i buoni dai cattivi, cioè chi si trova in una delle situazioni che ho elencato sopra da chi agisce in mala fede.

Tieni presente che, se hai contenuti duplicati ma non sei a rischio di penalizzazione, devi comunque prendere delle contromisure perchè rischi che Google non indicizzi correttamente il tuo sito.

Come evitare o eliminare la duplicazione di contenuti?

Le soluzioni disponibili sono tre:

  1. usare un permanent redirect (301) inserendo nel file .htaccess nella root del sito una riga di questo genere:
  2. redirect 301 /old/old.htm http://www.mysite.com/new.htm

    In questo modo, qualsiasi accesso alla pagina old.htm verrà reindirizzato alla pagina new.htm.

    E’ bene ricordare che, rispetto ai due successivi, questo metodo impedisce l’accesso alla pagina old.htm sia ai motori di ricerca che ai visitatori del sito.

  3. utilizzare il file robots.txt per bloccare l’accesso a determinate pagine da parte degli spider. Un esempio di istruzione da inserire nel file potrebbe essere questo:
  4. Disallow: /new.htm (blocca l’accesso al file new.htm nella root del sito)
    Disallow: /print/ (blocca l’accesso a tutti i file della cartella “print”)

  5. utilizzare il tag “canonical” che consente di specificare la versione preferita di una pagina web.
  6. Nelle pagine che non si vuole far indicizzare dai motori di ricerca basterà inserire, nella sezione HEAD, un tag come questo:

    <link rel=”canonical” href=”http://www.mysite.com/page.htm” />

    dove page.htm è la versione “preferita” della nostra pagina, cioè quella che gli spider indicizzeranno regolarmente.

Seguendo uno di questi metodi avrai la certezza di evitare qualsiasi rischio di penalizzazione per contenuti duplicati.

Prevenire è meglio che curare…

In generale, cerca di prevenire la creazione di contenuti duplicati, seguendo questi semplici consigli:

  • crea URL Search Engine Friendly
  • se utilizzi un CMS, studialo attentamente e configuralo in modo da minimizzare le duplicazioni
  • se hai un sito dinamico, costruisci URL il più semplici possibile, senza passare parametri inutili rimuovendo i quali potresti generare contenuti duplicati
  • mantieni una struttura di link interni coerente, linkando le pagine sempre con lo stesso URL. Evita ad es. le varie alternative possibili tra mysite.com, mysite.com/index.htm, www.mysite.com ecc.
  • usa l’opzione “dominio preferito” nel pannello per i webmaster di Google scegliendo di far indicizzare la versione con www o senza
  • utilizza le sitemap per comunicare i motori di ricerca le pagine del tuo sito che vanno indicizzate.

E tu, hai mai avuto problemi con contenuti duplicati sul tuo sito? Come li hai risolti?

Articoli correlati


11 Commenti

  1. [...] e i contenuti duplicati Questo e’ un estratto per leggere l’articolo completo clicca qui Uno dei temi più dibattuti di recente in campo SEO è quello dei contenuti duplicati. In quali [...]

  2. CREDO CHE GOOGLE DEBBA INTERVENIRE RIGUARDO A CHI COMPRA DIVERSI DOMINI SIMILI CHE PUBBLICIZZANO LA STESSA DITTA PER GLI STESSI SERVIZI CON LO STESSO NUMERO DI TELEFONO E STESSA PARTITA IVA

  3. Roberto Bernazzani

    Caro Enzo,
    la tua osservazione ci riporta al confine tra tecnica ed etica.
    Se i siti che citi hanno tutti contenuto diverso, pur facendo riferimento alla stessa azienda, stessi servizi ecc., tecnicamente non ci troviamo di fronte ad una duplicazione di contenuti, quindi Google non può intervenire.
    Il problema etico sorge nel momento in cui questi siti si “mascherano” in modo diverso pur facendo capo alla stessa realtà. In questi casi l’obiettivo è ingannare l’utente facendogli percepire di avere a che fare con soggetti diversi. Ci troviamo quindi di fronte a comportamenti sicuramente da condannare.

  4. Io ho un problema di contenuti duplicati, mi hanno copiato un articolo e ora sono premiati da google, nel senso che la mia pagina ORIGINALE sta sotto e quella dei copioni stanno ben posizionate in prima pagina.
    Naturalmente google se ne infischia della segnalazione di spam report che gli ho fatto e anche di darmi risposta alla discussione che ho aperto qui.
    Trovo che decisioni del cavolo come quelle di google incentivino la scopiazzatura. nel mio caso poi il mio blog e quello di uno dei copioni stanno entrambi su piattaforma blogspot e google ha ben chiaro gli orari di creazione dei post ma se ne sbatte diciamoci la verità, neanche capisce la differenza tra un aggregatore vero e uh blog che copia e incolla i post a mano. Mi sembra lampante poi che se la copia ha anche un link all’originale (sentendosi nominato il copione lo ha messo il 28 luglio) sia altra prova su quale sia l’originale. Ora capisco che testi diversi possano avere posizionamenti diversi, ma google sarebbe corretto se penalizzasse SEMPRE chi copia, indipendentemente da quanto seo può esserci nella copia. e siccome sono consulente it sono anche + schifata di come malfunzioni google e non dia un minimo di risposte. Altro che privilegiare i blog di qualità e predicare che si devono avere contenuti originali e unici come scrivono nella guida, tutte balle
    per chi è interessato la discussione è qui
    http://www.google.co.uk/support/forum/p/webmasters/thread?tid=1abaadcd0eeb7de9&hl=it

  5. Roberto Bernazzani

    @recenso: capisco la tua amarezza e non voglio certamente difendere Google che ha le spalle sufficientemente larghe per difendersi da solo.
    Dobbiamo però riconoscere che è molto difficile sviluppare un algoritmo che identifichi automaticamente chi copia da chi, cioè, tra due documenti molto simili, decidere qual è l’originale e quale la copia.
    Ad es., oltre quale porzione di testo si sconfina da una citazione in una copia? E’ sufficiente un link alla fonte originale per distinguere una citazione da una copia?
    Il fatto che la pagina di chi ti ha copiato compaia nelle SERP prima della tua è dovuto probabilmente al fatto che quel sito ha un rank migliore del tuo, certo non va visto come un premio per chi copia.

    Detto che oggi non esiste ancora l’algoritmo anti-copioni, non rimane che il controllo umano, inevitabilmente lento e lacunoso.
    Il mio consiglio? Contatta direttamente chi ha copiato i tuoi testi intimandolo di rimuoverli il prima possibile, minacciando di ricorrere alle vie legali. A volte funziona…

  6. Ciao, il sito lo contattai misero un link al mio post, segnalai a google il sito come spam (fui copiata anche da altri tutto lo stesos post) e dopo giorni finalmente scesero. Ma ci vollero giorni
    Guarda io capisco la storia come si fa a distinguere i contenuti copiati ma non la ritengo accettabile quando i due blog sono entrambi su blogger che è piattaforma di google e quindi sa benissimo, anche per via dell’indicizzazione e tutto, quando un articolo è copiato.
    se google non sapesse quando lo ha indicizzato allora non apparirebbe la scitta vicino ai post new entry in google “pubbkicato 2 ore fa” oppure pubblicato “1 giorno fa”.
    ora sono di nuovo stata copiata stavolta addirittura da un sito che sta in google news, il mio post è del 5 ottobre, indicizzao subto, quello copiato è di oggi e già compare sopra per il semplice fatto che il sito è in google news. considerando che tra le direttive di google news per accettare i siti c’è scritto che i contenuti non devono ssere duplicati etc non è certo bello che loro compaiano sopra i risultati solo perhcé stanno in google news.
    Ti racconto anche di un altro blogger, scopiazzato da ben due in due post diversi siti inseriti in google news, li h contattait e manco gli hanno risposto, avvisato google etc e google news non li ha levati.

  7. Roberto Bernazzani

    @recenso: ti capisco, vedersi superare nelle SERP da siti che ti copiano sa veramente di beffa.
    Ti suggerisco un piccolo “trucco” per sfruttare in qualche modo a tuo favore questa situazione. Quando scrivi i tuoi post cerca di inserire, non a caso ma in modo naturale, link ad altri post del tuo blog, citando quindi te stessa.

    In questo modo otterrai un duplice effetto:
    - da un lato scoprirai immediatamente chi ti copia perchè Blogger ti segnalerà un pingback
    - dall’altro avrai ottenuto un link dal sito che ti ha copiato, migliorando così il tuo ranking e magari ricevendo qualche visita in più.

    Della serie: se non puoi sconfiggerli, sfruttali ;)

  8. Ciao, sì io inserisco link ad altri miei post interni, ma il problema è che chi copia li leva :-)
    Comunque ho scritto al nuovo copione e ha subito levato la pagina, per fortuna :-)
    alla prox

  9. Ciao Vorrei capire una cosa, ma se io ripubblico un’articolo o un post di un’altro blog citandone la fonte, questo viene visto lo stesso come contenuto duplicato ?
    Saluti

  10. Roberto Bernazzani

    Ciao Alex,

    citando la fonte ti metti in regola con la legge sul copyright, che è la cosa più importante.
    Dal punto di vista di Google, poi, se il fatto di ripubblicare articoli di altri è sistematico, potresti effettivamente rientrare nel caso di contenuti duplicati.
    Magari invece di ripubblicare l’articolo intero metti un abstract e poi rimanda alla fonte originale per l’articolo completo. In questo modo potresti coniugare il tuo bisogno informativo con le regole di Google.

  11. OTTIMO POST ERA QUELLO CHE MI SERVIVA

Commenta