ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL

 
CONTINUER À LIRE
ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
Analyse de logs :
    Comment corriger
    les facteurs SEO
    bloquants au passage
    du Googlebot et
    améliorer sa visibilité ?

    CAS CLIENT
    Paris Match
    Secteur : Média
    Date : Avril 2018
1
ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
SOMMAIRE

    03 A propos de Paris Match             06 Mise en place d’une méthode

    03 A propos de Julien Ferras            06 - Vue d’ensemble
                                            06 - Segmenter le contenu
    04 Identifier les facteurs bloquants    08 - Creuser la donnée et
    au passage du Googlebot                 comprendre le comportement
                                            du bot
     04 - Vue d’ensemble                    11 - Croiser les données
     04 - La notion de budget de crawl      pour trouver
                                            les bonnes valeurs
                                            13 - Déterminer un plan
                                            d’action précis

                                           21 Résultats

                                           27 À propos d’OnCrawl

2
ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
A PROPOS DE PARIS MATCH                                   CHIFFRES CLÉS

    Paris Match est un magazine hebdomadaire français
    d’actualités et d’images, né en 1949 et célèbre par sa           Nombre d’URLs : 150 000
    devise : « Le poids des mots, le choc des photos ».

    La marque fait face à une problématique claire :
    auditer son site en profondeur, identifier ses forces            Nombre de catégories : >20
    et faiblesses, déterminer ses priorités et corriger les
    facteurs bloquants au crawl de Google.
                                                                     Visites SEO moyennes par jour
    A PROPOS DE JULIEN FERRAS                                        en 2016 : 101K

    Julien Ferras est chef de projet SEO au sein du groupe           Visites SEO moyennes par jour
    Lagardère. Il a en charge la gestion opérationnelle et           en 2018 : 295K
    a pour mission de mener à bien les projets SEO sur
    les sites du pôle Actualité : Paris Match, Le Journal
    du Dimanche et Version Femina.

3
ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
IDENTIFIER LES FACTEURS BLOQUANTS
    AU PASSAGE DU GOOGLEBOT

    Vue d’ensemble                                             Ce que dit Google

    •   Les sites média font face à des problématiques         [...] nous avons vu fleurir un certain nombre de définitions
        SEO particulières :                                    du «budget d’exploration» ou «crawl budget».
    •   Gérer une volumétrie importante d’URLs ;               […] nous ne disposons pas d’un terme unique pour décrire
    •   Identifier des problèmes de structure (redirections,   tout ce que ce terme semble signifier.
        refontes, arborescence, etc) ;                         Si vous observez que les nouvelles pages sont
    •   Déterminer une stratégie de contenu cohérente et       généralement explorées le jour même de leur publication,
        en respect avec la ligne éditoriale ;                  alors vous n’avez pas vraiment à vous préoccuper du
    •   Lutter contre le contenu dupliqué.                     budget d’exploration
                                                               […] si un site dispose de moins de quelques milliers
    Cette étude de cas vise à présenter la méthodologie        d’URL, il sera exploré correctement
    utilisée pour améliorer la visibilité de Paris Match et    la plupart du temps.
    les bonnes pratiques pour atteindre ces résultats.

    La notion de crawl budget

    Le crawl budget fait référence au crédit alloué par
    Google à tous ses robots pour parcourir l’ensemble
    des ressources d’un site web. Dans le même temps,
    ce budget n’est pas illimité et Google doit optimiser
    ses coûts de traitement. Il est possible de l’aider !

4
ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
Comment optimiser son budget de crawl ?                   Mais également de manière positive :
                                                              • La popularité des pages ;
    Le budget de crawl est défini par deux facteurs :         • La fraîcheur et la richesse des contenus ;
    La vitesse d’exploration. Si la limite augmente et        • La vitesse du site ;
    si le site répond très rapidement alors le crawl va       • La santé du site ;
    augmenter. Il va donc falloir optimiser le temps de       • La profondeur de l’arborescence.
    chargement. Le besoin d’exploration défini par les URLs
    les plus populaires. Google va donc empêcher son          En parallèle, le crawl rate permet de mesurer le ratio
    index de conserver les URLs dépassées. Il faut donc       entre les pages présentes dans la structure du site
    mesurer la popularité et l’obsolescence car Google n’a    (les pages vues par OnCrawl) versus toutes les pages
    pas le temps de venir mesurer de vieilles pages. Il est   crawlées et vues par le Googlebot.
    donc nécessaire de mettre en place des optimisations
    pour favoriser le passage de Google sur les pages
    stratégiques.

    Les facteurs affectant le budget de crawl

    Il existent différents types de facteurs pouvant
    affecter négativement le budget de crawl :
    • Navigations à facette ;
    • Duplicate content sur le site ;
    • Les pages en erreur “soft 404”, 404, 503 ;
    • Les pages piratées ;
    • Le contenu de mauvaise qualité et le spam.

5
ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
MISE EN PLACE D’UNE MÉTHODE

    Vue d’ensemble

    Comment procéder pour auditer le site en profondeur,
    identifier les forces et faiblesses, déterminer les
    priorités et corriger les facteurs bloquants au crawl
    de Google.

    1.   Segmenter le contenu (logs) ;
    2.   Creuser la donnée (crawl/logs) ;
                                                                  Segmentation des pages par catégorie
    3.   Corriger les problèmes majeurs ;
    4.   Identifier les pages stratégiques ;
    5.   Croiser les données ;
    6.   Déterminer un plan d’action.

    Segmenter le contenu

    La structure du site de Paris Match permet de
    directement dégager les catégories dans les URLs.
    En récupérant le chemin des URLs, Paris Match a pu
    segmenter le site en catégories stratégiques.

                                                            Segmentation des pages par nombre de hits par jour

6
ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
•   Après la mise en place de la segmentation, il a été
        possible de dégager des tendances :
    •   La catégorie « Actu » est très crawlée (40%) ;
    •   La rubrique « Royal Blog » est peu crawlée pourtant
        le trafic est élevé ;
    •   Pourquoi autant de pages dans la catégorie “Other”?
        Ces pages ne rentrent pas dans la segmentation
        (issues de vieilles refontes, localisées dans de vieux
        répertoires, pages de pagination, etc…).

                                      Répartition du passage du bot sur les catégories créées

7
ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
Creuser la donnée et comprendre le comportement
    du bot

    Le crawl de Google est la première étape pour permettre         Google et de savoir si les optimisations fonctionnent.
    à une page d’être indexée. Avec le log monitoring, il est       Si une page n’est pas crawlée, elle ne recevra pas de
    possible de suivre la répartition du budget de crawl,           visites.
    de connaître les types de pages qui plaisent le plus à

                             Très nette augmentation des hits après la mise en place des optimisations

8
ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
Très nette augmentation du passage du Googlebot après la mise en place des optimisations

                     Plus une page reçoit de visites SEO, plus elle est crawlée

9
ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
Grâce à ces données, il a été possible pour Paris              Quels sont donc les facteurs qui favorisent l’élévation
     Match de faire un premier constat rapidement.                  du taux de crawl sur cet ensemble de pages ? Pourquoi
     L’ensemble des pages de la rubrique « Vivre » génèrent         ces pages génèrent si peu de visites ?
     peu de trafic.

     Pourtant, la fréquence de crawl sur cet ensemble de
     page est plus élevée que sur les pages de la rubrique «
     Actu ». Cette catégorie consomme donc énormément
     de budget de crawl alors qu’elle ne génère quasiment
     pas de visites.
                                                                     La catégorie “Vivre” génère peu de trafic comparé à la catégorie “Actu”

                                 La catégorie “vivre” est pourtant beaucoup plus crawlée que “Actu”
10
Croiser les données pour trouver les bonnes valeurs

     Il est important de croiser trois KPIs majeurs pour
     comprendre l’impact du nombre de liens, du nombre
     de mots, de la profondeur, du InRank, des données
     GSC, etc sur le comportement des moteurs de
     recherche :

     •   Frequency : fréquence du passage du Googlebot ;
     •   Activeness : capacité d’une page à générer des         A partir de 200 liens, la fréquence de crawl est accrue
         visites SEO ;
     •   Crawlabity : le taux de crawl.

     En croisant les données de l’ensemble du site ou sur
     un périmètre très précis, on peut connaître les valeurs
     seuils permettant de déclencher ces trois grands
     thèmes.

     Il est possible d’analyser les pages avec les meilleures
     performances et déduire quelles sont les bonnes
     valeurs de ces métriques pour maximiser leur
     performance SEO.                                             En dessous de 500ms de temps de chargement,
                                                                      les pages sont nettement plus crawlées

11
En croisant les données de logs avec celles de crawl, Paris Match a pu déterminer quels étaient les seuils à
     cibler lors de leurs optimisations.
     Par exemple, à partir de 1200 mots, la fréquence de crawl est nettement plus haute.

     De même, plus une page contient de mots, plus elle génère de visites SEO.

12
Déterminer un plan d’action précis

     Il a ensuite été essentiel de prioriser les actions à mettre en place.

     1. Identifier les pages stratégiques

     L’analyse des logs a permis de mieux connaître le site, de comprendre sa structure, d’identifier les rubriques que
     Google a pour habitude de venir visiter et celles qui sont oubliées.
     Dans un premier temps, les URLs les plus visitées mais peu crawlées ou trop profondes ont été listées :

13
En parallèle, les pages non pertinentes (XML, people A à Z rangées dans un répertoire) ont été listées :

14
2. Identifier des pages « pauvres »

     Le temps que Googlebot dédie à un site est précieux
     et ne doit pas être gaspillé.
     Les pages people A à Z identifiées ont ensuite été
     segmentées.

     Paris Match a ensuite fait deux constats :
     • La consommation du budget de crawl est gaspillée
       sur certaines pages. Par exemple, une pages dédiée
       à Jason Statham est beaucoup crawlée alors
       qu’elle ne génère pas de visites SEO et qu’aucun
       contenu frais n’y ai créé. C’est donc une perte de
       budget sur une page non stratégique ;
     • De nombreuses pages sont dupliquées (en rouge)
       avec la page parente : la page est identique à
       l’exception d’un /news.

     Et pour contrer ces pages, Julien Ferras a mis en
     place :
     • La suppression des pages /news
     • Des redirections en 301 vers la page parente
     • La modification de liens internes

15
3. Améliorer la qualité du crawl de Google

     Pour améliorer la qualité du crawl de Google, il est essentiel de vérifier la santé du site et ainsi les status codes
     retournés par le serveur durant le crawl de Google.

     •   Identifier les pages redirigées : les 301 génèrent actuellement 3M de hits sur le budget de crawl ;
     •   Corriger les pages d’erreurs en 4xx ;
     •   Identifier les liens internes vers des 301.

16
4. Améliorer la vitesse de chargement                       Des actions correctives ont été mises en place :
                                                                 • Déplacement des JS/CSS en bas du code source ;
     Le travail des équipes IT a permis de réduire les temps     • Réduction du poids des images ;
     de chargement pour augmenter les fréquences de              • Ajout d’un système de cache et CDN ;
     crawl et améliorer l’expérience utilisateur                 • Intégration de lazy loading sur les images.

                                                Performance desktop après les optimisations

17
5. Optimiser la popularité interne grâce à l’InRank

     Paris Match a pu détecter des problèmes liés au maillage interne à traiter et a été en mesure de les corriger.

     Julien a défini une stratégie de maillage interne permettant la mise en avant du contenu à forte valeur ajouté
     (interviews, reportages, pages et rubriques stratégiques…) et pertinent, qui apportera une réelle valeur ajoutée
     aux lecteurs, tout en respectant la ligne éditoriale de Paris Match. Pour ce faire, il a été nécessaire de :
     • Penser à l’expérience utilisateur ;
     • Faire des ancres naturelles et variées ;
     • Identifier et lier les contenus pertinents ;
     • Mettre en place des actions correctives sur l’historique.

18
6. Remonter les pages dans l’arborescence

     Pour réduire la profondeur des pages et améliorer
     la popularité, plusieurs actions ont été menées, par
     exemple, un bloc de mise en avant vers les pages
     stratégiques a été créé.

     Comme ces pages étaient trop profondes, un bloc a
     été intégré sur la page “people” (la deuxième page la
     plus crawlée en niveau 2) pour un impact immédiat.

                 Pages stratégiques à positionner

                                                             Page “people” la plus crawlée au niveau 2

19
7. Augmenter la densité du contenu et l’UX

     Paris Match a pu augmenter la densité du contenu sur
     les pages stratégiques en mettant en place plusieurs
     améliorations :
     • Ajouter un texte d’accroche ;
     • Ajouter des biographies sur les personnalités à
        positionner ;
     • Ajouter des blocs à forte valeur ajoutée (interviews,
        reportages photos) ;
     • Augmenter le nombre de blocs dans le listing de
        contenus ;
     • ...

                                                               Enrichissement
                                                               du contenu et
                                                               de l’UX mis en
           Création d’un bloc avec plus de contenu à forte     placeà forte
                            valeur ajoutée                     valeur ajoutée
20
RÉSULTATS

     Pour résumer

     Julien a lancé un crawl et identifié les pages avec      L’équipe a réussi à identifier les pages qui ne généraient
     des balises Titles et/ou Meta Description vides ou       pas de trafic mais qui étaient crawlées, et ils ont pris
     dupliquées, et mettre en place rapidement des actions    les bonnes décisions, mis à jour le contenu, supprimé
     correctives.                                             la page...

     Ils ont pu détecter de nombreuses redirections 301,      L’analyse des logs leur a permis de mieux connaître
     et des erreurs 404 principalement dans la structure      le site, de comprendre sa structure, d’identifier les
     à cause de liens internes. Rapidement, les pages qui     rubriques que Google a pour habitude de venir visiter et
     contenaient ces liens ont été identifiées. Un script a   celles qui sont oubliées. Ils ont pu revoir l’arborescence
     été développé pour remplacer ou supprimer les liens      du site et définir une stratégie de maillage interne.
     redirigés ou cassés afin d’optimiser le crawl.

21
Exemple : Kate Middleton

     Sur une requête très concurrentielle
     comme “Kate Middleton”

     AVANT fin 2016
     • InRank : 4
     • Depth : 5
     • Nombre de liens entrants : 66
     • Nombres de mots : 2 000
     • Speed Index : 9 800
     • Poids de la page : 144.30 KB
     APRES Mars 2018
     • InRank : 7
     • Depth : 2
     • Nombre de liens entrants : 619
       (133 463 avec le menu)
     • Nombres de mots : 3 021
     • Speed Index : 3 600
     • Poids de la page : 123.30 KB
                                            Résulats de la Search Console

22
Impact sur les positions

     En croisant les données de logs avec celles de la Search Console dans OnCrawl, il a été possible de vérifier
     l’impact des optimisations (positions, CTR, profondeur, nombre de liens entrants, nombre de mots, temps de
     chargement…) avant et après.

                                            Pages par fourchette de positions

                                       Fréquence de crawl par temps de chargement
23
Impact sur les visites

     Grâce aux logs, il est possible de tracer toutes les visites SEO. L’impact du nombre de mots et du nombre de
     liens sur le trafic généré est simplement accessible par le croisement des données crawl et logs.

                                              Visites SEO par nombre de mots

                                         Fréquence de crawl par fourchette de liens

24
Pages actives en fonction du nombre de liens

     Aujourd’hui, Paris Match enregistre plus de 17 millions        Actuellement, Paris Match génère en moyenne un
     de visites par mois et 100 000 000 pages vues.                 peu plus de 8 000 000 de visites en provenance des
     Avant la mise en place d’une stratégie globale SEO             moteurs de recherche. Les prévisions sont bonnes et
     (technique, content, UX) et des actions correctives, le        Paris Match espère faire 20 millions de visiteurs d’ici
     site enregistrait environ 3,5 millions de visiteurs / mois     juin 2018.
     en provenance des moteurs. En 2017, l’augmentation
     du trafic en provenance de Google a augmenté de
     plus de 80%.

25
26
À PROPOS D’ONCRAWL

     “J’utilise OnCrawl quotidiennement. Chaque matin,          Deux fois par mois, je lance un crawl complet du site.
     j’ai pris l’habitude de monitorer les sites sur lesquels   J’analyse les résultats pour vérifier que les actions
     je travaille. Je surveille les logs de la veille et donc   correctives mise en places par les développeurs
     je peux voir ce que fait Google sur nos sites et           sont bien prises en comptes. J’identifie de nouveaux
     savoir ce que Google crawle. Je peux identifier un         chantiers à mener.
     comportement anormal du Googlebot. Rapidement,
     je peux visualiser les hits du robot de Google Desktop     J’essaye d’augmenter le nombre de pages indexées
     vs le robot Google mobile grâce au graphique “Web          et donc je dois pour ça optimiser le budget de crawl
     vs mobile bots hits”. Je regarde les visites SEO de la     que Google alloue à nos sites. Je peux par exemple
     veille, le taux de crawl, mobile et desktop, je regarde    identifier les pages à faible valeur ajoutée, pauvres en
     ma courbe de pages actives pour vérifier que les           contenus, dupliquées… les isoler, les mettre à jour...
     actions mises en place avec la rédaction de Paris          et donc optimiser le crawl.” Oncrawl m’a permis de
     Match sont bien détectées par Googlebot. Je surveille      voir notre site comme Google le voit, et si vous voulez
     la santé du site (erreurs 404, 503...).                    comprendre ce que Google veut, c’est indispensable.

                                                                Julien Ferras, Chef de projet SEO chez Lagardère Active

27
Testez OnCrawl par vous-même avec 14 jours d’essai gratuit

                    Démarrez votre essai gratuit

28
Vous pouvez aussi lire