In questo articolo cercherò di spiegarti cos’è il Crawl Budget e perché è importante per la SEO di un sito web. Scopriamolo insieme!
Cos’è il Crawl Budget?
Il Crawl Budget indica il numero di pagine di un sito web che lo spider di Google scansiona ed indicizza entro un determinato periodo di tempo. È un fattore legato alla Technical SEO molto importante soprattutto per siti di grandi dimensioni, e-commerce e testate giornalistiche online.
In realtà non corrisponde esattamente ad un indice specifico ma alla combinazione di altri due valori:
- Crawl rate limit o limite di scansione
- Crawl Demand o richiesta di scansione
Crawl Rate Limit
Il Crawl Rate Limit, o limite di scansione, é il limite di connessioni simultanee che Googlebot può utilizzare per fare la scansione di un sito. Rappresenta anche il tempo di attesa tra una scansione e l’altra.
Questo limite può aumentare o diminuire in base a due fattori:
- Fattori interni e strutturali del sito: se un sito web è lento, contiene errori lato server, o indirizza verso pagine inesistenti, allora il Crawl Limit si abbasserà e lo spider di Google farà meno scansioni.
- Impostazione della Google Search Console: intervenendo manualmente è possibile limitare la frequenza di scansione dello spider tramite la Google Search Console.
Crawl Demand
Il Crawl Demand, o richiesta di scansione, è un parametro che indica quanto un sito web sia meritorio di essere scansionato. I fattori che incidono sulla richiesta di scansione sono fondamentalmente due:
- Popolarità di un URL: gli URL più popolari tendono ad essere sottoposti ad una scansione più frequente;
- Obsolescenza dei contenuti: pagine vecchie, poco aggiornate, contenenti errori e pagerank basso, tendono ad essere scansionate con minore frequenza.
I fattori che influenzano negativamente il Crawl Budget
I principali fattori che hanno un impatto negativo sul Crawl Budget sono:
- tempi di caricamento delle pagine eccessivamente lunghi;
- duplicazione di contenuti all’interno del sito causati da parametri nell’URL (parametri in querystring) o da URL differenti che indirizzano alla stessa risorsa;
- risorse che restituiscono errori 404;
- contenuti spam o di bassa qualità;
- Infinite Spaces o spazi di link sconfinati che non apportano nuovi contenuti di valore da indicizzare (sezioni di paginazione o di filtro).
Come ottimizzare il Crawl Budget
Il GoogleBot durante la scansione delle pagine di un sito dedica risorse di tempo e computazionali. Se il numero di queste pagine supera il budget di scansione alcune di queste potrebbero non essere mai raggiunte e quindi non indicizzate.
Per questo è importante l’ottimizzazione del Crawl Budget. È necessario non sprecare queste risorse sfruttandole al meglio ottimizzando la struttura delle pagine, mettendo in evidenza quelle con maggior peso in termini di visibilità, utilità per gli utenti e obiettivi di business.
Detto questo, non voglio creare inutili allarmismi: Google è in grado di effettuare autonomamente il crawling di quasi la totalità dei siti e delle risorse sparse in rete.
Nonostante tutto esistono casi specifici per i quali è necessario prestare attenzione:
- siti di grandi dimensioni con oltre 10K pagine, il GoogleBot potrebbe avere problemi a individuarle tutte le risorse (e-commerce di grandi dimensioni, testate giornalistiche o siti redazionali);
- Redirect Chains ed eccessivi reindirizzamenti possono consumare il budget di crawling del tuo sito (redirect 301 per gestire url rewriting o passaggio delle url in https per esempio);
- nel caso in cui improvvisamente venga aggiunta una nuova sezione del sito contenente centinaia di nuove risorse da far indicizzare.
Ecco qualche consiglio per ottimizzare il Crawl Budget del tuo sito:
La velocità del sito e del server
Aumentando i tempi di risposta del server e ottimizzando i tempi di caricamento delle pagine puoi migliorare l’esperienza utente e facilitare il crawling del GoogleBot consentendogli di scansionare ed indicizzare più pagine del tuo sito.
Nel dettaglio occorrerebbe ridurre questi due valori:
- il TTFB o Time To First Byte, che indica il tempo di risposta del server per fornire il primo byte al client che ha effettuato una determina richiesta HTTP. Il suo valore dovrebbe essere almeno inferiore a 1 secondo;
- il TTLB o Time To Last Byte, ossia il tempo impiegato dal client per ricevere dal server tutto il contenuto a fronte di una richiesta HTTP.
L’architettura del sito
La struttura del sito è un altro aspetto fondamentale di facilitazione al crawling e di conseguenza all’ottimizzazione del Crawl Budget. Organizzando infatti le informazioni del sito all’interno di un’alberatura facilmente scansionabile consenti al GoogleBot di comprendere maggiormente la priorità, l’importanza e la corretta gerarchia delle tue pagine.
Da evitare pertanto:
- pagine orfane, cioè pagine a cui nessuna risorsa interna punta tramite link;
- annidamenti inutili delle pagine foglia che limitano la loro visibilità allo spider;
- strutture gerarchiche troppo profonde che non facilitano il raggiungimento delle risorse. È consigliato pertanto non superare il terzo livello di profondità gerarchica.
Gli Internal Linking
Incrementare una struttura di Internal Linking consente al GoogleBot di raggiungere con più facilità tutte le risorse del sito che si desidera indicizzare. È consigliata pertanto la creazione di una ragnatela di collegamenti interni di approfondimento verso altre risorse o pagine strategiche del sito.
Il file robots.txt
Assicurati di integrare nel file robots.txt regole disallow che facciano risparmiare tempo allo spider evitando la scansione di risorse inutili o di bassa importanza (pagine di CMS, pagine con parametri e pagine duplicate).
Aggiornamento dei contenuti
Aggiornando ed inserendo nuovi contenuti è possibile stimolare l’attività del crawler e conseguentemente la frequenza e il tempo che dedica al tuo sito. Oppure effettuando la potatura di quei contenuti di scarso valore che non portano traffico al sito web.
Approfondimenti
Qualche risorsa utile per approfondire il tema sull’ottimizzazione del Crawl Budget:
What Crawl Budget Means for Googlebot: la definizione ufficiale di Google del Crawl Budget.
Crawl Budget Optimization: una video guida completa alla Crawl Budget Optimization.