Comment optimiser le budget crawl de Google
Ecrit par Marc Grosvalet
le
Suite à la confirmation de Google quant à l’existence du Crawl Budget (budget d’exploration) avec les explications de Gary Ilyles dans un communiqué sur les tenants et les aboutissants pour Googlebot, Alpha Keïta (Trainning Manager chez Botify) a proposé ses conseils pour l’optimiser ! Mais avant de vous présenter l’intervention d’Alpha, quoi de mieux de rappeler l’explication de Google du Budget de Crawl ?
Que définit le Budget Crawl de Google ?
Google expliquait dans son communiqué, que le Budget Crawl était défini en fonction de deux éléments:
1. Limite de la vitesse d’exploration : il s’agit de la vitesse à laquelle Google explore votre site web. Elle est importante car si Googlebot prend trop de ressources de votre site, cela pourrait nuire l’expérience de vos « vrais » utilisateurs (connexion plus lente…). Ainsi, Google tient en compte deux éléments afin de limiter cette vitesse :
- L’état de l’exploration : Googlebot adapte la vitesse d’exploration en fonction du temps de réponse des premières pages explorées.
- La limite définie dans la Google Search Console : vous avez la capacité de définir une limite d’exploration (augmenter cette limite n’entraînerai pas pour autant une augmentation de l’exploration).
2. Besoin d’exploration : Google a-t- besoin de re-crawler votre site ? Il le décidera en fonction de deux facteurs :
- La popularité de vos urls : les urls les plus populaires sont les plus explorées par Google afin de les mettre à jour dans son index.
- L’obsolescence : élément en relation avec le point précèdent > Google veut s’assurer que les urls de son index sont toujours d’actualité/actualisées
Mais du coup, comment optimiser le Budget Crawl de Google ?
Alpha Keïta, commençait son intervention avec une chiffre qui ne laisse pas indifférent : uniquement 40% des pages utiles sont crawlées par Google. Ainsi, la réalité est que la plupart des sites perdent 60% des opportunités de positionnement. La question qui se pose est donc : comment pouvons-nous permettre à Googlebot de crawler ce 60% restant ? D’abord il faut connaitre les urls qui sont crawlées.
Pour faire cela, nous pouvons nous référer à la Google Search Console, mais au vu de ses résultats, la plupart du temps, décevantes, il est recommandé de faire une analyse qui compilera deux éléments : un crawl du site et une analyse de logs. Rappelons que les logs sont contenus dans des fichiers serveur qui comptabilisent toutes les visites qu’un site web reçoit (visites des robots explorateurs –bots- ou des « vrais » internautes).
Ainsi, l’analyse de ce journal nous permettra de catégoriser et de segmenter nos urls. Ainsi, nous pourrons observer les urls distinctes entre elles (selon la catégorie) mais surtout les urls qui sont habituellement crawlées par Googlebot. De plus, nous pourrons connaître (grâce à l’analyse conjoint du crawl et des logs) le pourcentage des pages du site qui sont crawlées, la typologie de ces pages et également les pages orphelines (pages qui ne sont plus rattachées à la structure du site –pas détectables via un crawl- mais qui sont explorées par Google).
Après cette analyse nous nous poserons la question : mes pages appartiennent-elles aux principales catégories crawlées par Google ? Si oui, Bravo ! Arrêtez-vous ici et allez le fêter avec vos collègues ! Si non, continuez à lire, nos tips pour optimiser le Budget Crawl de votre site 😉
Tips pour optimiser le Budget Crawl : éléments à étudier et optimiser
- Temps de chargement des pages : il est recommandé de ne dépasser pas les 500 millisecondes. Il faudra travailler le temps de réponse de votre serveur, l’optimisation de vos images, de vos ressources…
- Erreurs de crawl : nettoyez toutes vos pages 404, 500… car il est important que les urls soient facilement explorables pour une exploration correcte du site !
- Dilution du PageRank : Google ordonne son crawl par ordre de PageRank (pages les plus importantes/qualitatives d’abord). Ainsi, si nous appliquons la formule du PageRank sur nos urls, nous pourrons observer le pourcentage des urls crawlées en fonction de leur PageRank. Nous pourrons ensuite supprimer les pages à faible valeur SEO, ce qui nous laisserait plus de crawl pour les pages avec un PageRank plus important.
- Pages vides ou quasiment vides : identifier les pages avec peu de contenu et, bien ajouter des contenus, ou bien supprimer ces pages si elles ne sont ni prioritaires ni stratégiques.
- Pages bloquées par le robots.txt : identifier les liens internes qui pointent vers des pages bloquées dans le robots.txt et les supprimer.
- Profondeur des pages : théoriquement plus les pages sont profondes, plus il est difficile pour Googlebot de les crawler. Ainsi, vous devrez retravailler votre arborescence et placez vos contenus prioritaires/stratégiques en termes de référencement à une profondeur maximale de 5 niveaux.
- Mesurer l’impact du linking interne sur le crawl de Google : regardez le nombre de liens moyen des pages qui n’ont pas été crawlées par Google et comparez-les avec le nombre des liens reçus par les pages crawlées par Google, cela vous donnera une vision de la qualité de votre linking interne. Attention : assurez-vous de comparer le même type de pages (long tail VS short tail).
- Traitez les pages orphelines : l’objectif est d’identifier, via l’analyse de logs, les pages à récupérer et à rattacher à la structure du site (ces pages orphelines peuvent avoir du PageRank et peuvent donc être intéressantes pour le positionnement).
- Analysez et nettoyez vos sitemaps : identifiez les urls de vos sitemaps qui ne sont pas rattachées à la structure de votre site et supprimez-les du fichier sitemap.xml.
- Obsolescence de vos pages : cet élément, moins pris en compte, est de grande importance. Il s’agit d’estimer le temps de retenue dans l’index de Google de vos pages. Nous savons que, plus les pages sont populaires, plus Google va les crawler afin de s’assurer de la validité des contenus. Si nous arrivons à connaitre l’obsolescence des pages, nous pourrions calculer le nombre de fois que Google va les explorer. Pour faire cela, nous devons regarder les pages actives (pages avec du trafic) ainsi que les pages qui ont été crawlées la dernière fois (le jour même, hier, il y a deux jours…). Cela nous donnera les pourcentages d’exploration de ces pages. Il faudra ensuite catégoriser ces urls (long tail/short tail) et estimer la moyenne d’exploration par typologie d’url. Cela nous permettra de connaitre les pages qui sont prioritaire pour Google (celles avec une obsolescence plus longue) et ainsi affiner le Budget Crawl.
Nous espérons que vous avez apprécié ce résumé ! N’hésitez pas à le partager et à consulter le reste des revues sur les interventions du SEO Campus 2017 !
Aurora Rivera – @AuroraRiveraSa