ANALYSE DE LOGS : COMMENT CORRIGER LES FACTEURS SEO BLOQUANTS AU PASSAGE DU GOOGLEBOT ET AMÉLIORER SA VISIBILITÉ ? - ONCRAWL
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Analyse de logs : Comment corriger les facteurs SEO bloquants au passage du Googlebot et améliorer sa visibilité ? CAS CLIENT Paris Match Secteur : Média Date : Avril 2018 1
SOMMAIRE 03 A propos de Paris Match 06 Mise en place d’une méthode 03 A propos de Julien Ferras 06 - Vue d’ensemble 06 - Segmenter le contenu 04 Identifier les facteurs bloquants 08 - Creuser la donnée et au passage du Googlebot comprendre le comportement du bot 04 - Vue d’ensemble 11 - Croiser les données 04 - La notion de budget de crawl pour trouver les bonnes valeurs 13 - Déterminer un plan d’action précis 21 Résultats 27 À propos d’OnCrawl 2
A PROPOS DE PARIS MATCH CHIFFRES CLÉS Paris Match est un magazine hebdomadaire français d’actualités et d’images, né en 1949 et célèbre par sa Nombre d’URLs : 150 000 devise : « Le poids des mots, le choc des photos ». La marque fait face à une problématique claire : auditer son site en profondeur, identifier ses forces Nombre de catégories : >20 et faiblesses, déterminer ses priorités et corriger les facteurs bloquants au crawl de Google. Visites SEO moyennes par jour A PROPOS DE JULIEN FERRAS en 2016 : 101K Julien Ferras est chef de projet SEO au sein du groupe Visites SEO moyennes par jour Lagardère. Il a en charge la gestion opérationnelle et en 2018 : 295K a pour mission de mener à bien les projets SEO sur les sites du pôle Actualité : Paris Match, Le Journal du Dimanche et Version Femina. 3
IDENTIFIER LES FACTEURS BLOQUANTS AU PASSAGE DU GOOGLEBOT Vue d’ensemble Ce que dit Google • Les sites média font face à des problématiques [...] nous avons vu fleurir un certain nombre de définitions SEO particulières : du «budget d’exploration» ou «crawl budget». • Gérer une volumétrie importante d’URLs ; […] nous ne disposons pas d’un terme unique pour décrire • Identifier des problèmes de structure (redirections, tout ce que ce terme semble signifier. refontes, arborescence, etc) ; Si vous observez que les nouvelles pages sont • Déterminer une stratégie de contenu cohérente et généralement explorées le jour même de leur publication, en respect avec la ligne éditoriale ; alors vous n’avez pas vraiment à vous préoccuper du • Lutter contre le contenu dupliqué. budget d’exploration […] si un site dispose de moins de quelques milliers Cette étude de cas vise à présenter la méthodologie d’URL, il sera exploré correctement utilisée pour améliorer la visibilité de Paris Match et la plupart du temps. les bonnes pratiques pour atteindre ces résultats. La notion de crawl budget Le crawl budget fait référence au crédit alloué par Google à tous ses robots pour parcourir l’ensemble des ressources d’un site web. Dans le même temps, ce budget n’est pas illimité et Google doit optimiser ses coûts de traitement. Il est possible de l’aider ! 4
Comment optimiser son budget de crawl ? Mais également de manière positive : • La popularité des pages ; Le budget de crawl est défini par deux facteurs : • La fraîcheur et la richesse des contenus ; La vitesse d’exploration. Si la limite augmente et • La vitesse du site ; si le site répond très rapidement alors le crawl va • La santé du site ; augmenter. Il va donc falloir optimiser le temps de • La profondeur de l’arborescence. chargement. Le besoin d’exploration défini par les URLs les plus populaires. Google va donc empêcher son En parallèle, le crawl rate permet de mesurer le ratio index de conserver les URLs dépassées. Il faut donc entre les pages présentes dans la structure du site mesurer la popularité et l’obsolescence car Google n’a (les pages vues par OnCrawl) versus toutes les pages pas le temps de venir mesurer de vieilles pages. Il est crawlées et vues par le Googlebot. donc nécessaire de mettre en place des optimisations pour favoriser le passage de Google sur les pages stratégiques. Les facteurs affectant le budget de crawl Il existent différents types de facteurs pouvant affecter négativement le budget de crawl : • Navigations à facette ; • Duplicate content sur le site ; • Les pages en erreur “soft 404”, 404, 503 ; • Les pages piratées ; • Le contenu de mauvaise qualité et le spam. 5
MISE EN PLACE D’UNE MÉTHODE Vue d’ensemble Comment procéder pour auditer le site en profondeur, identifier les forces et faiblesses, déterminer les priorités et corriger les facteurs bloquants au crawl de Google. 1. Segmenter le contenu (logs) ; 2. Creuser la donnée (crawl/logs) ; Segmentation des pages par catégorie 3. Corriger les problèmes majeurs ; 4. Identifier les pages stratégiques ; 5. Croiser les données ; 6. Déterminer un plan d’action. Segmenter le contenu La structure du site de Paris Match permet de directement dégager les catégories dans les URLs. En récupérant le chemin des URLs, Paris Match a pu segmenter le site en catégories stratégiques. Segmentation des pages par nombre de hits par jour 6
• Après la mise en place de la segmentation, il a été possible de dégager des tendances : • La catégorie « Actu » est très crawlée (40%) ; • La rubrique « Royal Blog » est peu crawlée pourtant le trafic est élevé ; • Pourquoi autant de pages dans la catégorie “Other”? Ces pages ne rentrent pas dans la segmentation (issues de vieilles refontes, localisées dans de vieux répertoires, pages de pagination, etc…). Répartition du passage du bot sur les catégories créées 7
Creuser la donnée et comprendre le comportement du bot Le crawl de Google est la première étape pour permettre Google et de savoir si les optimisations fonctionnent. à une page d’être indexée. Avec le log monitoring, il est Si une page n’est pas crawlée, elle ne recevra pas de possible de suivre la répartition du budget de crawl, visites. de connaître les types de pages qui plaisent le plus à Très nette augmentation des hits après la mise en place des optimisations 8
Très nette augmentation du passage du Googlebot après la mise en place des optimisations Plus une page reçoit de visites SEO, plus elle est crawlée 9
Grâce à ces données, il a été possible pour Paris Quels sont donc les facteurs qui favorisent l’élévation Match de faire un premier constat rapidement. du taux de crawl sur cet ensemble de pages ? Pourquoi L’ensemble des pages de la rubrique « Vivre » génèrent ces pages génèrent si peu de visites ? peu de trafic. Pourtant, la fréquence de crawl sur cet ensemble de page est plus élevée que sur les pages de la rubrique « Actu ». Cette catégorie consomme donc énormément de budget de crawl alors qu’elle ne génère quasiment pas de visites. La catégorie “Vivre” génère peu de trafic comparé à la catégorie “Actu” La catégorie “vivre” est pourtant beaucoup plus crawlée que “Actu” 10
Croiser les données pour trouver les bonnes valeurs Il est important de croiser trois KPIs majeurs pour comprendre l’impact du nombre de liens, du nombre de mots, de la profondeur, du InRank, des données GSC, etc sur le comportement des moteurs de recherche : • Frequency : fréquence du passage du Googlebot ; • Activeness : capacité d’une page à générer des A partir de 200 liens, la fréquence de crawl est accrue visites SEO ; • Crawlabity : le taux de crawl. En croisant les données de l’ensemble du site ou sur un périmètre très précis, on peut connaître les valeurs seuils permettant de déclencher ces trois grands thèmes. Il est possible d’analyser les pages avec les meilleures performances et déduire quelles sont les bonnes valeurs de ces métriques pour maximiser leur performance SEO. En dessous de 500ms de temps de chargement, les pages sont nettement plus crawlées 11
En croisant les données de logs avec celles de crawl, Paris Match a pu déterminer quels étaient les seuils à cibler lors de leurs optimisations. Par exemple, à partir de 1200 mots, la fréquence de crawl est nettement plus haute. De même, plus une page contient de mots, plus elle génère de visites SEO. 12
Déterminer un plan d’action précis Il a ensuite été essentiel de prioriser les actions à mettre en place. 1. Identifier les pages stratégiques L’analyse des logs a permis de mieux connaître le site, de comprendre sa structure, d’identifier les rubriques que Google a pour habitude de venir visiter et celles qui sont oubliées. Dans un premier temps, les URLs les plus visitées mais peu crawlées ou trop profondes ont été listées : 13
En parallèle, les pages non pertinentes (XML, people A à Z rangées dans un répertoire) ont été listées : 14
2. Identifier des pages « pauvres » Le temps que Googlebot dédie à un site est précieux et ne doit pas être gaspillé. Les pages people A à Z identifiées ont ensuite été segmentées. Paris Match a ensuite fait deux constats : • La consommation du budget de crawl est gaspillée sur certaines pages. Par exemple, une pages dédiée à Jason Statham est beaucoup crawlée alors qu’elle ne génère pas de visites SEO et qu’aucun contenu frais n’y ai créé. C’est donc une perte de budget sur une page non stratégique ; • De nombreuses pages sont dupliquées (en rouge) avec la page parente : la page est identique à l’exception d’un /news. Et pour contrer ces pages, Julien Ferras a mis en place : • La suppression des pages /news • Des redirections en 301 vers la page parente • La modification de liens internes 15
3. Améliorer la qualité du crawl de Google Pour améliorer la qualité du crawl de Google, il est essentiel de vérifier la santé du site et ainsi les status codes retournés par le serveur durant le crawl de Google. • Identifier les pages redirigées : les 301 génèrent actuellement 3M de hits sur le budget de crawl ; • Corriger les pages d’erreurs en 4xx ; • Identifier les liens internes vers des 301. 16
4. Améliorer la vitesse de chargement Des actions correctives ont été mises en place : • Déplacement des JS/CSS en bas du code source ; Le travail des équipes IT a permis de réduire les temps • Réduction du poids des images ; de chargement pour augmenter les fréquences de • Ajout d’un système de cache et CDN ; crawl et améliorer l’expérience utilisateur • Intégration de lazy loading sur les images. Performance desktop après les optimisations 17
5. Optimiser la popularité interne grâce à l’InRank Paris Match a pu détecter des problèmes liés au maillage interne à traiter et a été en mesure de les corriger. Julien a défini une stratégie de maillage interne permettant la mise en avant du contenu à forte valeur ajouté (interviews, reportages, pages et rubriques stratégiques…) et pertinent, qui apportera une réelle valeur ajoutée aux lecteurs, tout en respectant la ligne éditoriale de Paris Match. Pour ce faire, il a été nécessaire de : • Penser à l’expérience utilisateur ; • Faire des ancres naturelles et variées ; • Identifier et lier les contenus pertinents ; • Mettre en place des actions correctives sur l’historique. 18
6. Remonter les pages dans l’arborescence Pour réduire la profondeur des pages et améliorer la popularité, plusieurs actions ont été menées, par exemple, un bloc de mise en avant vers les pages stratégiques a été créé. Comme ces pages étaient trop profondes, un bloc a été intégré sur la page “people” (la deuxième page la plus crawlée en niveau 2) pour un impact immédiat. Pages stratégiques à positionner Page “people” la plus crawlée au niveau 2 19
7. Augmenter la densité du contenu et l’UX Paris Match a pu augmenter la densité du contenu sur les pages stratégiques en mettant en place plusieurs améliorations : • Ajouter un texte d’accroche ; • Ajouter des biographies sur les personnalités à positionner ; • Ajouter des blocs à forte valeur ajoutée (interviews, reportages photos) ; • Augmenter le nombre de blocs dans le listing de contenus ; • ... Enrichissement du contenu et de l’UX mis en Création d’un bloc avec plus de contenu à forte placeà forte valeur ajoutée valeur ajoutée 20
RÉSULTATS Pour résumer Julien a lancé un crawl et identifié les pages avec L’équipe a réussi à identifier les pages qui ne généraient des balises Titles et/ou Meta Description vides ou pas de trafic mais qui étaient crawlées, et ils ont pris dupliquées, et mettre en place rapidement des actions les bonnes décisions, mis à jour le contenu, supprimé correctives. la page... Ils ont pu détecter de nombreuses redirections 301, L’analyse des logs leur a permis de mieux connaître et des erreurs 404 principalement dans la structure le site, de comprendre sa structure, d’identifier les à cause de liens internes. Rapidement, les pages qui rubriques que Google a pour habitude de venir visiter et contenaient ces liens ont été identifiées. Un script a celles qui sont oubliées. Ils ont pu revoir l’arborescence été développé pour remplacer ou supprimer les liens du site et définir une stratégie de maillage interne. redirigés ou cassés afin d’optimiser le crawl. 21
Exemple : Kate Middleton Sur une requête très concurrentielle comme “Kate Middleton” AVANT fin 2016 • InRank : 4 • Depth : 5 • Nombre de liens entrants : 66 • Nombres de mots : 2 000 • Speed Index : 9 800 • Poids de la page : 144.30 KB APRES Mars 2018 • InRank : 7 • Depth : 2 • Nombre de liens entrants : 619 (133 463 avec le menu) • Nombres de mots : 3 021 • Speed Index : 3 600 • Poids de la page : 123.30 KB Résulats de la Search Console 22
Impact sur les positions En croisant les données de logs avec celles de la Search Console dans OnCrawl, il a été possible de vérifier l’impact des optimisations (positions, CTR, profondeur, nombre de liens entrants, nombre de mots, temps de chargement…) avant et après. Pages par fourchette de positions Fréquence de crawl par temps de chargement 23
Impact sur les visites Grâce aux logs, il est possible de tracer toutes les visites SEO. L’impact du nombre de mots et du nombre de liens sur le trafic généré est simplement accessible par le croisement des données crawl et logs. Visites SEO par nombre de mots Fréquence de crawl par fourchette de liens 24
Pages actives en fonction du nombre de liens Aujourd’hui, Paris Match enregistre plus de 17 millions Actuellement, Paris Match génère en moyenne un de visites par mois et 100 000 000 pages vues. peu plus de 8 000 000 de visites en provenance des Avant la mise en place d’une stratégie globale SEO moteurs de recherche. Les prévisions sont bonnes et (technique, content, UX) et des actions correctives, le Paris Match espère faire 20 millions de visiteurs d’ici site enregistrait environ 3,5 millions de visiteurs / mois juin 2018. en provenance des moteurs. En 2017, l’augmentation du trafic en provenance de Google a augmenté de plus de 80%. 25
26
À PROPOS D’ONCRAWL “J’utilise OnCrawl quotidiennement. Chaque matin, Deux fois par mois, je lance un crawl complet du site. j’ai pris l’habitude de monitorer les sites sur lesquels J’analyse les résultats pour vérifier que les actions je travaille. Je surveille les logs de la veille et donc correctives mise en places par les développeurs je peux voir ce que fait Google sur nos sites et sont bien prises en comptes. J’identifie de nouveaux savoir ce que Google crawle. Je peux identifier un chantiers à mener. comportement anormal du Googlebot. Rapidement, je peux visualiser les hits du robot de Google Desktop J’essaye d’augmenter le nombre de pages indexées vs le robot Google mobile grâce au graphique “Web et donc je dois pour ça optimiser le budget de crawl vs mobile bots hits”. Je regarde les visites SEO de la que Google alloue à nos sites. Je peux par exemple veille, le taux de crawl, mobile et desktop, je regarde identifier les pages à faible valeur ajoutée, pauvres en ma courbe de pages actives pour vérifier que les contenus, dupliquées… les isoler, les mettre à jour... actions mises en place avec la rédaction de Paris et donc optimiser le crawl.” Oncrawl m’a permis de Match sont bien détectées par Googlebot. Je surveille voir notre site comme Google le voit, et si vous voulez la santé du site (erreurs 404, 503...). comprendre ce que Google veut, c’est indispensable. Julien Ferras, Chef de projet SEO chez Lagardère Active 27
Testez OnCrawl par vous-même avec 14 jours d’essai gratuit Démarrez votre essai gratuit 28
Vous pouvez aussi lire