Metodi avanzati per il rilevamento di contenuti duplicati

Contenuto duplicato

Condividi post

Condividi su whatsapp
Condividi su facebook
Condividi su linkedin
Condividi su twitter

La maggior parte dei SEO e dei professionisti del marketing ha familiarità con i problemi relativi ai contenuti duplicati e probabilmente sta già utilizzando uno strumento come DeepCrawl per identificare le pagine con contenuti, titoli e descrizioni duplicati.

Ma quando inizi a pensare a cosa significhi veramente la duplicazione, le cose smettono di essere in bianco e nero e diventano davvero disordinate.

Ecco la nostra guida alle tecniche avanzate per rilevare, misurare e risolvere problemi di contenuto duplicato utilizzando tecniche avanzate.

Che cos’è il contenuto duplicato?

La duplicazione non è davvero un concetto semplice, poiché non ci sarebbero due persone che lo definirebbero esattamente allo stesso modo.

  • Carattere esatto per pagine duplicate di caratteri
  • Quasi duplicato
  • Titoli e descrizioni duplicati
  • Contenuto del corpo duplicato
  • Risultati di ricerca duplicati/pagine di tag (ordinate e non ordinate, inclusa l’impaginazione)
  • Duplicazione internazionale/locale
  • Contenuto sorgente condiviso
  • Alias ​​di gerarchia, categorizzazione indistinta. ad es. località vicine,
  • Dupe dell’architettura – piattaforme condivise

Ciò che conta meno della quantità di contenuto duplicato su una pagina, è la quantità di contenuto unico su una pagina. Anche il contenuto duplicato stesso aggiunge valore a una pagina.

In che modo i contenuti duplicati possono avere valore?

Una pagina con contenuto duplicato può essere classificata per un termine di ricerca contenente parole nel contenuto univoco di una pagina o per il contenuto duplicato. Esempi di ciò potrebbero essere: una descrizione del prodotto duplicata più un testo univoco che elenca i colori, consente alla pagina di classificarsi per entrambi i termini prodotto + colore.

Concentrati sugli aspetti unici dei contenuti sulle pagine quando esamini i contenuti duplicati.

A meno che tu non sia la fonte originale del contenuto, non puoi aspettarti di classificarti solo sui contenuti duplicati.

Dove si verifica la duplicazione?

Il contenuto duplicato di solito esiste all’interno di un singolo sito Web o si estende su più siti Web.

Il rilevamento di contenuti duplicati ovunque su Internet richiede un database globale di tutti i contenuti web. I contenuti duplicati su un sito interno sono spesso molto più facili da trovare.

Quale versione è l’originale?

Non esiste un’istanza specifica di duplicazione che sia primaria.

Google cerca di stabilire la fonte originale dei contenuti, che presumibilmente si basa almeno in parte sulla data di scoperta.

Questo non è possibile quando esegui una scansione limitata sul tuo sito che non ha la cronologia completa di ogni pagina.

Metodi avanzati di rilevamento dei duplicati

Ricerca di testo unica

Trovare la quantità di testo univoco su una pagina e qualsiasi altra copia sul Web richiede una scansione completa del Web.

Lo strumento migliore per farlo è CopyScape. Tuttavia, puoi anche provare a cercare stringhe di testo all’interno di virgolette doppie in Google.

Contenuti duplicati

A volte le pagine hanno titoli e breadcrumb diversi, ma risultati di ricerca identici. Questi non apparirebbero in molti rapporti duplicati perché contengono alcune variazioni.

Il sistema di duplicazione di DeepCrawl consente alcune variazioni e continua a rilevare e segnalare le pagine come duplicate. Tuttavia, è incostante a seconda del livello di varianza e dell’impostazione di duplicazione.

Un buon metodo per il rilevamento consiste nel combinare tutti gli ID del contenuto visualizzato, ad esempio gli ID del prodotto nel caso di una pagina di elenco dei risultati del prodotto, quindi utilizzarlo come hash per rilevare i duplicati.

Se gli ID sono numerici, sommali. Ciò consente di creare una chiave univoca utilizzata per identificare altre pagine con risultati identici. È molto improbabile che due pagine condividano lo stesso valore sommato se contengono risultati diversi.

Usa l’estrazione personalizzata di DeepCrawl per estrarre gli ID dai risultati di ricerca o passarli al tuo pacchetto di analisi web.

Puoi anche estrarre altre dimensioni intorno alle tue pagine, come il numero di risultati, la lunghezza del contenuto e altre potenziali caratteristiche condivise dalle pagine duplicate.

Se ordini un elenco di pagine in base a ciascuna di queste metriche, puoi trovare pagine con attributi identici, che possono anche evidenziare pagine simili.

A volte il contenuto viene duplicato su più pagine impaginate, a volte viene restituito lo stesso contenuto, ma in un ordine diverso. Questi casi sono molto più difficili da rilevare.

Potresti riuscire a fare in modo che il tuo CMS emetta un hash sull’intero set di risultati, anche se stai guardando solo i primi 10 elementi. Ciò consente di rilevare la duplicazione per set completi di risultati che si estendono su più pagine.

A volte un sito può avere una categoria di contenuti duplicata, o pagine di tag, che hanno come target lo stesso argomento di contenuto, senza condividere effettivamente alcun contenuto. Stanno litigando per le stesse parole chiave. Questi dovrebbero di solito essere consolidati, reindirizzando le versioni più deboli a quelle più forti.

Indicizzazione bassa

Un altro segno di contenuto duplicato è che non è indicizzato da Google.

Se invii Sitemap dettagliate di ogni pagina, suddivise nel maggior numero di dettagli possibile, puoi individuare modelli di indicizzazione bassa, che potrebbero essere causati dalla duplicazione.

Prevenzione dei contenuti duplicati

I contenuti duplicati possono essere devastanti per il traffico organico e il posizionamento del sito. Il monitoraggio della struttura e dei contenuti del tuo sito Web con uno strumento come DeepCrawl ti consente di identificare rapidamente aree problematiche di contenuto duplicato come pagine, titoli e descrizioni.

Iscriviti alla nostra Newsletter

Resta aggiornato con ultime novità su WordPress

Altro da esplorare