L’analyse de logs comme outil d’aide à la décision

Ecrit par
le

On parle beaucoup d’analyse de logs dans la sphère SEO. Mais en quoi cela consiste ? Quels sont les bénéfices attendus ? Voici un rapide explicatif. 

Un moteur de recherche fonctionne en 3 étapes :

– le crawl : découverte des URLs

– l’indexation : extraire les URLS et les injecter dans les BDD Google

– et le ranking : déterminer les résultats pertinents en fonction des requêtes

L’analyse de logs va permettre de comprendre comment Googlebot évalue, identifie les différentes pages de votre site. Elle est parfaitement adaptée aux sites d’annonces, sites e-commerce ou bien les sites d’actualités.

Les problématiques d’indexation et d’optimisation structurelle sont de plus en plus importantes. L’analyse de logs nous permet de définir des pistes d’optimisation :

Technique : 

  • Indexabilité : Identifier les points de blocage technique
  • Crédit crawl : faire la chasse au gaspillage
  • Optimiser la structure de l’arborescence

Contenu

  • Identifier les points d’optimisation Title/H1/Meta à travailler en priorité
  • Linking interne : organiser votre linking interne pour orienter le crawl vers les catégories les plus importantes
  • Evaluer le potentiel des pages hors structure

Popularité : 

  • Identifier les déficits de popularité par catégories
  • Analyse détaillée du « deep linking »

Le KPI important à retenir est le taux de pages actives qui est le % de pages dans la structure ayant généré au moins une visite SEO pendant la période sélectionnée. Ce KPI permettra d’évaluer la performance de vos optimisations SEO suite à l’analyse de logs.

Depuis quelques mois, Synodiance est devenue agence partenaire de Botify qui est spécialisée dans le traitement des logs.

Dans ce programme partenaire, l’ensemble des consultants clients & experts ont participé à une formation interne animée par Botify. Suite à cette formation, 6 consultants experts sont désormais certifiés Botify.

logo-consultant logo-partner

15 ans d’analyse de logs : voici mes enseignements

L’analyse de logs est une analyse encore méconnue ou peu utilisée par les SEO. Pourtant, elle vous offre une vision complète de l’exploration de votre site par le moteur de recherche. Voici mes 15 enseignements après 15 ans d’expériences !

1)    Supprimer les pages orphelines (pages détachées de la structure) n’améliore pas le budget de crawl et ne permet pas de rediriger Googlebot vers vos pages stratégiques. Le temps de chargement, la MAJ de la page, le PR interne ou externe sont les KPIS qui favorisent le crawl d’une page.

2) Une balise noindex sur la pagination ou une balise canonical vers la première page de liste flingue le crawl des produits/annonces qui y sont listés. Autrement dit, avec ces balises, vous limitez le crawl de vos pages produits/annonces.

3) Le temps de chargement html que vous pouvez observer sur la search console influence le crawl de Googlebot sur votre site. Chaque site à un temps limité pour crawler un site (budget de crawl) et plus votre site sera rapide, plus Google pourra crawler davantage de pages dans le temps imparti.

4) 301 vs 404 : Je préfère 100 fois supprimer une page avec un code réponse 404 qu’avec une redirection 301. On est d’accord, si la page génère encore du trafic ou obtient de la popularité de l’extérieur, je fais une redirection. Prenant l’exemple d’un site E-commerce, ayant un catalogue produit qui change, à chaque saison, les 301 en masse consommeront 50% du crawl, plusieurs mois après le plan de redirection. Les 404 permettent de limiter le (re)crawl “inutile” de GG.

5) Les sitemaps influencent négativement votre analyse. On peut conclure qu’un site soit très bien crawlé par Google, mais les sitemaps peuvent expliquer ce taux. Bien qu’un site puisse avoir un crawl boosté par les sitemaps.xml, ce n’est pas une garantie de positionnement pour les pages.

6)  Google cherche en permanence à reconstruire des urls en utilisant des morceaux de script ou des paramètres pour voir s’il y a un contenu utile à indexer. Résultats, cela peut devenir de vrais spidertraps.

7)  404/410 : aucune différence dans le crawl

8) Le Disallow : /pattern bloque bien le crawl de tous les bots sauf mediapartners-Google. Si vous voyez votre url indexée, soit elle a été indexée avant votre blocage dans le robots.txt soit Google à indexé l’url mais pas son contenu.

9)  Sans sitemap pour tout fausser, une page à 4 clics de la HP à 1 chance sur 5 d’être vue par Google. Arrêtez d’optimiser vos pages si Google ne peut pas les crawler ! Assurez-vous d’abord qu’elle soit située à la bonne profondeur.

10)   Une page qui rank est visitée dans les 48 heures qui précèdent. Google doit s’assurer que la page est disponible et présente toujours le même contenu pour garantir la satisfaction des utilisateurs.

11)   Avant de faire une analyse de logs, assurez-vous d’avoir récupéré l’ensemble de vos logs. Ils peuvent se situer en partie dans le serveur de cache, serveur de réécriture ou les fronteaux. Vérifier les visites de vos logs depuis Google avec les clics sur la search console. Le chiffre doit être proche.

12)   Vous avez obligation de stocker vos logs serveurs, vous-même ou par un prestataire à qui vous confiez la délégation. L’article 6 de la Loi n° 2004-575 du 21 juin 2004 pour la confiance dans l’économie numérique prévoit une durée de 1 an. La Loi n° 2006-64 du 23 janvier 2006 relative à la lutte contre le terrorisme préconise 1 an. La CNIL recommande 6 mois à des fins de contrôle des utilisateurs. 

13)   Au lendemain d’une migration, les urls orphelines explosent, car ce sont toutes les anciennes urls redirigées qui sont encore crawlées.

14)   Google met environ 2 jours pour parser un nouveau site après migration avec la prise en compte du plan de redirection. Vous n’avez qu’une chance de faire bonne impression. Après, vous ramez pour regagner sa confiance !

15)   Google utilise une IP américaine la plupart du temps. Avec une détection par IP pour ren