5 problemi comuni di scansione dei siti Web e come risolverli

Problema scansione sito web

Condividi post

Condividi su whatsapp
Condividi su facebook
Condividi su linkedin
Condividi su twitter

Il tuo sito web è scansionabile come pensi? Se i motori di ricerca non possono eseguire la scansione del tuo sito Web, le tue pagine non possono essere classificate nei risultati di ricerca. Oggi esploreremo cinque motivi per cui il tuo sito Web potrebbe non essere sottoposto a scansione dai motori di ricerca (o addirittura dai tuoi stessi crawler) e spiegheremo come risolvere questi problemi.  

I problemi di scansione sono molteplici, con un miscuglio di potenziali colpevoli che vanno dai tag sul sito alle impostazioni fuori sito negli strumenti per i webmaster. Continua a leggere per scoprire cosa potrebbe causare i problemi di scansione del tuo sito. 

Problema di scansione n. 1: motori di ricerca bloccati in robots.txt

I motori di ricerca avranno difficoltà a eseguire la scansione del tuo sito Web se i robot dei motori di ricerca non possono eseguire la scansione delle tue pagine.

Vale la pena notare che lo standard di esclusione dei robot ( robots.txt ) non è un meccanismo efficace per tenere una pagina web fuori da Google. Come menzionato nelle linee guida robots.txt in Google Search Central , i motori di ricerca possono ancora indicizzare le pagine bloccate da robots.txt per molti motivi, ad esempio se l’URL è collegato a una fonte esterna. 


Le esclusioni in robots.txt possono, tuttavia, indirizzare i robot dei motori di ricerca a non eseguire la scansione di determinate aree del tuo sito web. Ciò non impedirà l’indicizzazione delle pagine, ma potrebbe causare problemi di scansione se stai tentando di eseguire la scansione del sito da solo con strumenti di intelligenza SEO, portando a informazioni più scarse sulla salute del tuo sito web. 

Ti consigliamo di esaminare il tuo file robots.txt all’interno dello strumento di test robots.txt di Google Search Console per vedere se questo problema sta bloccando alcune aree chiave del tuo sito web o se alcune delle tue pagine non bloccate da robots.txt sono collegate solo internamente da pagine che sono bloccate all’interno del robots.txt, in quanto non verranno scoperte dai crawler dei motori di ricerca:

In alternativa, puoi utilizzare il tester robots.txt di Bing Webmaster Tools :

blog crawlability robots.txt-tester

Ti consigliamo di controllare gli URL bloccati all’interno di robots.txt per determinare cosa dovrebbe e non dovrebbe essere bloccato e assicurarti di non bloccare inavvertitamente alcuna pagina o directory chiave dalla scansione da parte dei motori di ricerca. Puoi utilizzare la funzione di sovrascrittura robots.txt di Deepcrawl per verificare in che modo il tuo file robots.txt potrebbe influire sulla scansione del tuo sito, quindi aggiornare il tuo robots.txt di conseguenza.

Ti consigliamo inoltre di ricontrollare quali crawler vengono bloccati all’interno del tuo file robots.txt, poiché alcuni CMS bloccheranno alcuni crawler per impostazione predefinita.

Problema di scansione n. 2: collegamenti JavaScript / collegamenti inseriti dinamicamente

I collegamenti JavaScript possono essere un grosso problema per molti siti Web e, a seconda che tu stia lottando per eseguire la scansione del sito da solo o se i motori di ricerca abbiano difficoltà a eseguire la scansione del tuo sito, questi problemi JavaScript potrebbero essere ciò che impedisce i tuoi progressi.

Se il tuo sito è pesantemente JavaScript, vale la pena confermare che il tuo sito è in esecuzione su Server-Side Rendering (SSR) e non su Client Side Rendering (CSR). I motori di ricerca non sono in grado di eseguire correttamente la scansione del tuo sito se è completamente CSR e devono eseguire il rendering prima che i motori di ricerca possano eseguire la scansione del sito. Questo è molto dispendioso in termini di risorse, quindi potrebbe impedire che l’intero sito venga regolarmente sottoposto a scansione e aggiornamento. I siti Shopify che utilizzano app JavaScript per caricare i prodotti possono essere problematici, poiché significa che i motori di ricerca non sono in grado di eseguire correttamente la scansione degli URL dei prodotti e assegnare loro un valore. 

Se sei un sito di e-commerce in rapida evoluzione con prodotti che entrano ed esauriscono regolarmente e desideri che ciò si rifletta nei risultati dei tuoi motori di ricerca organici, ti consigliamo di assicurarti di avere il rendering lato server abilitato per JavaScript-heavy pagine. Ti consigliamo inoltre di assicurarti che la tua sitemap XML sia aggiornata, quindi anche se i motori di ricerca visualizzano lentamente le tue pagine, avranno un elenco completo di URL da esaminare.

Un fantastico plug-in di Chrome per testare la differenza tra le tue pagine renderizzate e non renderizzate è View Render Source .

Problema di scansione n. 3: URL bloccati negli strumenti per i webmaster

Anche se spesso trascurati, alcuni URL possono essere effettivamente bloccati dai tuoi strumenti per i webmaster. 

Bing Webmaster dispone di un proprio strumento per il blocco degli URL , quindi vale la pena ricontrollare di non aver bloccato alcun URL integrale da questo elenco. Allo stesso modo, lo strumento Parametro URL di Google Search Console dovrebbe essere rivisto per assicurarti di non indirizzare attivamente i robot dei motori di ricerca a non eseguire la scansione di aree del tuo sito che sono fondamentali per il tuo successo organico: 

Problema di scansione n. 4: collegamenti di navigazione interrotti o non seguiti

Uno dei problemi più ovvi, forse, sarebbero i link di navigazione che sono interrotti o nofollow . Ciò influenzerà il modo in cui i motori di ricerca e i crawler comprendono il tuo sito web.

I motori di ricerca in primo luogo scoprire gli URL tramite link interni, per cui se un link è nofollow o rotto ( 5xx o 4xx codice di errore ), quindi la ricerca crawler dei motori non seguiranno che puntano a scoprire le pagine aggiuntive. Ciò è particolarmente importante nella navigazione principale del sito Web, poiché queste pagine saranno il primo punto di riferimento per i motori di ricerca per scoprire più dei tuoi URL. 

L’esecuzione di una scansione sul tuo sito Web con Deepcrawl può aiutare a identificare questi errori e aiutare il tuo team a risolverli per prevenire ulteriori problemi di scansione. Senza uno strumento come Deepcrawl, è un lavoro manuale rivedere ogni collegamento all’interno dell’HTML, determinare se ha uno stato “nofollow” e quindi rivedere il codice di stato del singolo URL visitandolo e utilizzando plugin di Chrome come Redirect Path . Per un sito con centinaia o migliaia di URL all’interno della sua navigazione, consigliamo vivamente di eseguirlo tramite uno strumento crawler per risparmiare tempo e fatica.

Se il tuo sito ha difficoltà a essere scansionato da uno strumento di scansione (come Deepcrawl), puoi anche provare a cambiare il tuo agente utente, poiché alcuni siti potrebbero essere impostati per bloccare i crawler al di fuori dei normali crawler dei motori di ricerca. A volte, risolvere i problemi di crawlability può essere così semplice!

Problema di scansione n. 5: tag Noindex

I comuni blocchi che impediscono la scansione e l’indicizzazione del tuo sito sono spesso semplici come un meta tag. Il più delle volte, quando i nostri clienti non sono in grado di attirare l’attenzione su una determinata area del loro sito, è a causa della presenza di un tag meta name = “robots” content = “noindex” (all’interno dell’intestazione HTTP).

Ciò può essere confermato guardando nello strumento di ispezione degli URL di Google Search Console :

Google URL ispezione

Questi problemi di tag possono essere risolti rimuovendo il tag noindex dagli URL in questione, se necessario, o rimuovendo X-Robots-Tag: noindex dall’intestazione HTTP. A seconda del tuo CMS, potrebbe esserci una semplice casella di spunta che è stata persa! Vale la pena notare che John Mueller, Senior Webmaster Trends Analyst di Google, ha dichiarato in questo ritrovo per webmaster in orario d’ufficio che il noindex a lungo termine e i link seguiti sono trattati come link noindex nofollow , quindi se hai un link su un noindex pagina sarà eventualmente nofollow da Google. Alla fine, questo problema può diventare un problema per la scansione, ma è principalmente un problema con l’indicizzazione.

Iscriviti alla nostra Newsletter

Resta aggiornato con ultime novità su WordPress

Altro da esplorare