On nous pose souvent la question : est-ce que c’est grave d’avoir beaucoup d’erreurs 404…
Comme d’habitude en SEO, cela dépend.
Les cas de 404 problématiques : les 404 « internes »
Si en crawlant votre site votre outil détecte des urls qui renvoient un code 404, cela signifie que les pages de votre site contiennent des syntaxes d’urls erronées ou pointent vers des urls qui n’existent pas ou plus. C’est peut-être aussi du à un problème technique qui empêche une syntaxe d’url d’être correctement interprétée.
Dans tous les cas, ces cas doivent être corrigés.
Tout simplement parce que ce sont des anomalies : il n’est pas normal que le contenu de votre site pointe des urls qui renvoient ce type de code d’erreur.
L’impact SEO n’est à prendre en compte que si le nombre de 404 internes est important.
Est-ce grave pour le SEO ? Cela dépend de la volumétrie d’urls concernées rapportées au nombre de pages de votre site ou du pseudo-répertoire (dans le « path » de l’url) dans lequel ces urls à problème sont placées.
Si cela ne dépasse pas quelques %, il est peu probable que cela ait un véritable impact SEO. Mais au delà, vous envoyez un signal de mauvaise tenue de votre site qui aura forcément des conséquences sur le comportement de crawl, et sur les scores obtenus sur certains filtres mesurant la qualité de vos pages.
Eliminer toutes les 404 ne doit pas être une obsession
L’objectif de zéro erreur 404 dans le contenu de votre site n’a donc pas de sens d’un point de vue SEO. Il est par exemple inévitable d’avoir des 404 sur les liens externes au bout d’un certain temps. Ou d’avoir des erreurs dans les liens créés par les humains sur votre site.
Il convient donc juste d’éviter que le nombre de 404 explose avec le temps, ou suite à des régressions techniques.
Les cas bénins de 404 : les 404 externes
Si vous regardez vos logs, ou les rapports de la Google Search Console, vous allez trouver pouvez y trouver des cas de requêtes sur des urls qui renvoient un code 404.
Certaines correspondent aux cas de 404 internes évoquées ci-dessus. Mais d’autres sont provoquées par des requêtes effectuées par les bots (comme Googlebot) ou par des clics sur des liens posés sur des pages d’autres sites (et qui contiennent des liens erronés vers d’autres sites). C’est ce qu’en jargon on appelle des 404 externes.
Si les urls appelées ne correspondent à rien de présent sur votre site, le renvoi d’un code 404 est tout à fait normal. Même si la volumétrie des 404 qui apparaissent dans les logs ou dans la GSC est énorme, vous n’avez rien à craindre, et surtout pas pour votre seo.
Bloquer les urls en 404 dans le robots.txt : mauvaise idée
Si vous avez envie d’économiser du budget de crawl quand c’est massif, vous pouvez être tentés de bloquer le crawl de ces urls via une directive dans le robots.txt. Mais cela empêchera Googlebot de recevoir l’information que les urls demandées n’existent pas, et vous risquez de voir ces urls être indexées. C’est le type même de la fausse bonne idée.
Le cas des vieilles syntaxes d’urls : pas de 404, on redirige
Il n’est pas rare d’avoir oublié de faire les redirections d’une ancienne syntaxe vers une nouvelle : dans ce cas on perd du « linkjuice » en provenance d’anciens backlinks en renvoyant une 404. La bonne idée c’est de faire une redirection 301 de l’ancienne syntaxe vers la nouvelles.
Changement de catalogue et pic massif de 404
On passe de la saison Printemps Eté à Automne Hiver ? et 90% des pages du catalogue disparaissent d’un coup ?
Dans ce cas, on peut avoir des pics de 404 externes puisque vous n’allez pas savoir vers quelle page produit rediriger. Ce n’est pas optimal, mais pas catastrophique non plus. Pour éviter un trou d’air dans votre visibilité SEO pendant quelques semaines, le temps que Googlebot ait indexé votre nouveau catalogue, la bonne pratique c’est de rediriger (en 301) les anciens produits vers la catégorie finale équivalente des nouveaux produits.
404 ou 410
Le code 410 sert à indiquer qu’une ressource demandée n’existe plus, mais qu’elle a existé. Le code 404 ne permet pas de savoir la raison du « Not Found ». Dans l’absolu, c’est une bonne pratique d’utiliser plutôt un code 410 que 404 dans le contexte d’une url devenue obsolète.
Mais pour Googlebot, c’est à peu près la même chose. Google a beaucoup varié sur ce sujet, pour finalement préciser qu’ils traitaient les 410 comme des 404.
Et les soft 404
Les cas de soft 404 apparaissent dans les rapports de la Google Search Console quand Google détecte que certaines urls devraient renvoyer un code 404, mais ne le font pas. C’est une anomalie à corriger, surtout si la volumétrie des urls concernées est importante.
Attention aux fausses pages 404
Et pour terminer sur ce sujet, vérifiez bien que le code d’état renvoyé par vos pages 404 est bien … 404. Et pas 200 par exemple.
Comme le code d’état en réponse à une requête http n’est visible que dans l’en-tête de la ressource renvoyée, cela signifie qu’on peut ne pas repérer ce genre d’erreur, tant qu’on ne consulte pas les entêtes avec une extension ou un outil.
Pensez à vérifier cela régulièrement et dans les recettes de modifications qui touchent les codes erreurs ou les redirections vers les pages d’erreur.