Vous avez un site web en ligne ? C’est bien. Mais ce n’est pas encore le moment de se reposer sur ses lauriers. Vous devez suivre celui-ci, ses performances, les capacités de votre serveur, etc. C’est en cela qu’entrent en jeu les fichiers de logs (ou fichiers de log si vous voulez). Qu’est-ce que c’est et en quoi son analyse peut améliorer le SEO ? Je vous en parle dans cet article.
Qu’est-ce que le fichier logs (.log) pour un site web ?
Un fichier de logs est un document généré automatiquement par un serveur web. Vous devez donc pouvoir le télécharger directement auprès de votre hébergeur.
Dans ce fichier, chaque ligne de texte est associée à une requête envoyée à votre site internet, qu’elle provienne d’un internaute ou d’un robot d’indexation comme Googlebot.
En fait, chaque interaction entre un navigateur et le serveur de votre site est notée ligne par ligne. Ces données sont générées automatiquement par le serveur et stockées dans des fichiers spécifiques au format .log. Au final, le fichier représente une source d’informations précieuse, bien plus fiable et complète que les outils d’analyses comme Semrush, Google Analytics, Ahrefs ou autres.
Les informations clés contenues dans les logs
Bien que la structure des fichiers logs soit identique, le contenu varie néanmoins selon les hébergeurs. Pour prendre l’exemple de mon site, il est sur LWS (non, ce n’est pas du sponso 😄).
Avec cet hébergeur, les fichiers logs sont générés chaque semaine et contiennent les informations suivantes :
- La date et l’heure de la requête : elles indiquent précisément quand l’interaction a eu lieu sur le site. Cette donnée est importante pour détecter les pics de trafic mais aussi les plages horaires critiques (pour un audit par exemple).
- Le type de demande : cette donnée correspond à la méthode HTTP utilisée, le GET ou le POST. Non, je ne ferai pas un cours d’informatique 😅, mais cela vous permet de savoir si le but était de consulter une ressource ou d’envoyer des données au serveur.
- Le User Agent : c’est l’identifiant du navigateur ou du robot qui effectue la recherche. C’est cette donnée qui permet de distinguer les visites humaines des robots.
- La page web demandée : je pense que c’est assez clair comme nom. Il s’agit simplement de la page à laquelle l’internaute ou le crawler a accédé, plus précisément son lien.
- L’adresse IP du visiteur : cette donnée vous permet d’identifier la source géographique et technique de la requête. Avec elle, vous pouvez remonter expressément à l’auteur d’une requête et donc identifier un robot d’un visiteur humain.
- Le statut de réponse en code HTTP : cette donnée indique le résultat de la demande par votre serveur. C’est un peu technique, mais le code HTTP que retourne votre serveur permet de savoir s’il y a eu une erreur 404, un succès, une erreur serveur, une redirection, etc.
- Le référent HTTP de l’utilisateur : cette donnée précise la page d’origine ayant conduit à la requête. Vous saurez donc si l’utilisateur vient de la SERP, d’un site externe grâce à un backlink ou d’une page présente sur le site.
Je tiens à préciser que je n’ai décortiqué ici que la structure des fichiers logs de mon hébergeur : LWS. Si vous n’utilisez pas cet hébergeur, il se peut qu’il y ait des différences. N’hésitez pas à m’en faire part dans les commentaires pour la mise à jour de l’article.
Pourquoi faire une analyse de logs
L’analyse de logs dans le domaine du référencement naturel vise généralement deux objectifs : la compréhension de la stratégie SEO dans sa globalité et la sécurité du site pour le crawling.
Analyser le trafic du site web
L’analyse du trafic d’un site web à partir de ses fichiers logs donne une vision globale du trafic. Ici, vous ne vous limitez plus aux analyses de la SERP comme dans la Google Search Console, vous percevez aussi bien le comportement des internautes que des crawlers des moteurs de recherche. Vous pouvez ainsi comprendre les pages qui attirent réellement l’attention des bots, comme Googlebot, Bingbot, etc., et celles qu’ils négligent.
Identifier et résoudre les problèmes techniques
Un audit technique via les logs permet de repérer les erreurs invisibles, car ces fichiers sont les seuls à mettre en avant les erreurs de navigation et les anomalies serveur. Par exemple, des erreurs HTTP 404 massives, des redirections en boucle, des pages bloquantes ou encore des erreurs 505 ne sont réellement signalées nulle part ailleurs que dans l’analyse des logs.
J’irai même plus loin en disant que l’audit technique ici est plus avancé, en ce sens que vous identifiez non seulement le problème, mais aussi la requête l’ayant créé, pour une correction optimale.
Suivre les performances du site web
Un fichier de logs permet également de suivre la performance d’un site web, notamment la vitesse de chargement du site perçue par les robots et les utilisateurs. Comme vous le savez si bien, plus le temps de réponse est élevé, moins l’indexation des pages du site est efficace. Il en est de même pour les erreurs du serveur.
Pour l’anecdote, lorsque je suis passé à Elementor, un plugin très gourmand en ressources, je recevais beaucoup d’erreurs 500. Une erreur que ne m’a jamais signalée ni la Search Console, ni mes outils classiques. Il m’a fallu une analyse des logs pour le remarquer.
Identifier les tentatives d’accès malveillantes
Un dernier intérêt de l’analyse des logs, mais qui n’est pas du point de vue de la visibilité, est la détection d’activités suspectes. En fait, les logs sont une source d’information en cybersécurité qui regroupent les tentatives de spam, les attaques par force brute, l’exploration abusive par les robots ou les IA. Donc, plus vos analyses sont fréquentes, mieux vous prévenez les menaces.
SI VOUS SOUHAITEZ UNE ANALYSE DE VOS LOGS, N’HÉSITEZ PAS À ME LAISSER UN MESSAGE SUR LINKEDIN OU PAR MAIL.
Comment faire une analyse de logs pour le SEO ?
Même si vous n’êtes pas un expert en SEO, vous pouvez analyser vos fichiers de logs en suivant les quatre étapes suivantes.
1- La collecte des fichiers
La première étape consiste à récupérer les fichiers générés par le serveur. Selon l’hébergement utilisé, les logs se trouvent dans un répertoire accessible via FTP ou via le panneau de configuration. Si vous avez du mal à les trouver, vous pouvez soit regarder un tuto de l’hébergeur sur YouTube, si disponible, soit demander une assistance si votre offre permet une prise en charge.
2- Le nettoyage des données
Une fois les données obtenues, l’étape suivante est le filtrage afin d’isoler seulement les requêtes utiles. Cela signifie distinguer dans un premier temps le passage des robots des simples visites humaines. Vous pouvez également exclure certaines ressources secondaires comme les fichiers CSS ou images, qui n’ont aucun intérêt dans l’analyse.
Si votre hébergement vous le permet, vous pouvez, au lieu de télécharger les logs sur toute la durée, ne récupérer que ceux qui concernent les erreurs ou les succès, selon votre objectif pour l’audit technique.
3- L’analyse proprement dite des logs ou des requêtes
L’analyse proprement dite consiste à repérer les tendances et anomalies. Ici, on observe les pages du site qui sont les plus explorées par les crawlers, celles qui sont ignorées et aussi celles qui répondent aux attentes d’un point de vue business. Une petite astuce consiste à croiser les résultats de l’analyse avec les données de Google Analytics.
4- L’interprétation des résultats de l’analyse de logs
La dernière étape est bien évidemment d’établir les optimisations concrètes. Je pense que c’est bien cela le but de l’analyse. En fait, en identifiant les zones mal crawlées, vous saurez si votre crawl budget est gaspillé ou non, si votre maillage interne est solide ou non. Aussi, les ajustements techniques doivent toucher les pages les plus pertinentes pour votre business.
SI VOUS RECHERCHEZ UN CONSULTANT SEO POUR L’ANALYSE DE VOS LOGS, VOUS POUVEZ ME CONTACTER DIRECTEMENT PAR MAIL OU SUR LINKEDIN.
Quels sont les meilleurs KPIs dans une analyse de logs ?
Pour tirer le maximum de profit de vos fichiers logs, il existe certains KPI SEO que vous devez suivre. Bien évidemment, le tout devrait dépendre de vos objectifs, mais voici les cinq indicateurs de performance que je prends le plus en compte.
La fréquence de crawl des pages stratégiques
Ce KPI mesure combien de fois les robots des moteurs de recherche visitent les pages les plus importantes de votre site web. Si cette fréquence est faible, cela signifie que vous avez un problème de maillage interne, de popularité ou une inaccessibilité à vos sitemaps.
L’utilisation du crawl budget SEO
Le crawl budget représente le volume de pages que les moteurs de recherche acceptent d’explorer. S’il est mal utilisé, les robots passent trop de temps sur des pages inutiles : contenus dupliqués, filtres dynamiques ou ressources non pertinentes.
À lire aussi : qu’est-ce que le budget de crawl en SEO ?
Le temps de crawl du site (fenêtre de crawl)
Le temps de crawl (fenêtre de crawl) est la durée que mettent les robots pour parcourir l’ensemble des URL d’un site lors d’une session. Il mesure la couverture totale du site, et non la latence d’une requête isolée. Une fenêtre trop courte signifie que le crawl s’arrête avant d’atteindre toutes les pages, souvent à cause d’un crawl budget limité ou de coupures serveur.
Les erreurs SEO techniques et codes d’erreur HTTP
L’analyse de logs permet de suivre précisément les statuts renvoyés par le serveur : 200, 301, 404, 500. Ces codes sont des indicateurs essentiels pour le référencement naturel. Une accumulation d’erreurs 404 peut dégrader l’expérience utilisateur et l’autorité du site. De même, trop de redirections ralentissent le crawl et diluent la popularité transmise par les liens entrants.
Le crawl en version mobile du site
Avec l’indexation mobile-first, Google privilégie le crawl de la version mobile des sites. Les logs permettent de distinguer Googlebot Desktop et Googlebot Mobile pour vérifier leur comportement. Si les robots mobiles rencontrent plus d’erreurs ou accèdent moins souvent aux pages clés, cela représente un risque direct pour la visibilité.
Conclusion
En conclusion, les fichiers logs représentent la source d’informations la plus fiable en matière d’audit technique d’un site web. Les informations ne sont pas limitées ni à la SERP ni aux visiteurs humains. Ils permettent des audits de performances très détaillés. Mais analyser les millions de lignes peut facilement devenir une tâche encombrante, surtout si l’on n’est pas un freelance SEO. N’hésitez donc pas à solliciter mes services.
FOIRE AUX QUESTIONS
Avez-vous une question sur les fichiers logs et le SEO ? Je vous réponds dans cette section.
Quels sont les meilleurs outils pour faire une analyse de fichiers logs pour le SEO ?
Pour analyser les logs sur votre site, vous pouvez soit utiliser le Log File Analyser que propose Semrush parmi les outils « SEO on-page et technique ». Si le prix de cet outil est beaucoup trop élevé, une alternative Semrush est Screaming Frog.
Quel est l’analyseur de log open source ?
Il existe plusieurs outils gratuits pour analyser vos fichiers logs et qui sont open source, que vous pouvez installer sur votre ordinateur. Malheureusement, je ne l’ai jamais testé et me limite aux outils payants. Je ne peux donc rien vous proposer à cet effet.
Quand analyser les logs de son site web ?
Je recommande d’analyser les logs d’un site deux ou trois semaines après des modifications majeures, des migrations ou en cas de détection de baisse de performance. Hors de ces cas, le suivi doit normalement être mensuel. Je déconseille cependant de le faire au lendemain de la mise en ligne, en raison de l’insuffisance des données.
Où trouver le fichier log de mon site ?
Le fichier de logs doit être fourni par votre hébergeur, car celui-ci est directement relié à votre serveur. Vous avez donc le droit d’en réclamer si vous avez du mal à y accéder via votre FTP ou dans le panneau de configuration.