SEO: Robots.txt SEO – Comment optimiser et valider votre Robots.txt

SEO: Robots.txt SEO - Comment optimiser et valider votre Robots.txt

L’une des premières choses que vous devez vérifier et optimiser lorsque vous travaillez sur votre référencement technique est le fichier robots.txt. Un problème ou une mauvaise configuration dans votre fichier robots.txt peut entraîner des problèmes de référencement critiques qui peuvent avoir un impact négatif sur votre classement et votre trafic.

Dans cet article, vous apprendrez ce qu’est un fichier robots.txt, pourquoi en avez-vous besoin, comment l’optimiser pour le référencement et comment tester que les moteurs de recherche peuvent y accéder sans aucun problème.

Si vous êtes sur WordPress, il y a vers la fin de cet article, des informations spécifiques sur le fichier virtuel robots.txt de WordPress.

Qu’est-ce que le fichier robots.txt ?

Un fichier robots.txt est un fichier texte qui réside dans le répertoire racine de votre site Web et donne aux moteurs de recherche des instructions sur les pages qu’ils peuvent explorer et indexer, pendant le processus d’exploration et d’indexation.

Si vous avez lu mon précédent article sur le fonctionnement des moteurs de recherche, vous savez que lors de la phase de crawl et d’indexation, les moteurs de recherche essaient de trouver des pages disponibles sur le web public, qu’ils peuvent inclure dans leur index.

Lorsqu’ils visitent un site Web, la première chose qu’ils font est de rechercher et de vérifier le contenu du fichier robots.txt.

Selon les règles spécifiées dans le fichier, ils créent une liste des URL qu’ils peuvent explorer et indexer plus tard pour le site Web particulier.

Formation SEO

Le contenu d’un fichier robots.txt est accessible au public sur Internet. Sauf protection contraire, tout le monde peut afficher votre fichier robots.txt, ce n’est donc pas l’endroit pour ajouter du contenu que vous ne voulez pas que les autres voient.

Que se passe-t-il si vous n’avez pas de fichier robots.txt ? Si un fichier robots.txt est manquant, les robots des moteurs de recherche supposent que toutes les pages accessibles au public du site Web particulier peuvent être explorées et ajoutées à leur index.

Que se passe-t-il si le fichier robots.txt n’est pas correctement formaté ? Cela dépend du problème. Si les moteurs de recherche ne peuvent pas comprendre le contenu du fichier parce qu’il est mal configuré, ils accéderont toujours au site Web et ignoreront tout ce qui se trouve dans le fichier robots.txt.

Que se passe-t-il si j’empêche accidentellement les moteurs de recherche d’accéder à mon site Web ? C’est un gros problème. Pour commencer, ils n’exploreront pas et n’indexeront pas les pages de votre site Web et supprimeront progressivement toutes les pages déjà disponibles dans leur index.

Regardez le didacticiel vidéo pour apprendre à optimiser votre fichier robots.txt pour le référencement.

Avez-vous besoin d’un fichier robots.txt ?

Oui, vous devez absolument avoir un fichier robots.txt même si vous ne souhaitez pas exclure des pages ou des répertoires de votre site Web des résultats des moteurs de recherche.

Pourquoi utiliser un fichier robots.txt ?

Les cas d’utilisation les plus courants de robots.txt sont les suivants :

#1 – Pour empêcher les moteurs de recherche d’accéder à des pages ou à des répertoires spécifiques de votre site Web. Par exemple, regardez le fichier robots.txt ci-dessous et notez le refuser règles.

Exemple de fichier robots.txt
Exemple de fichier robots.txt

Ces instructions demandent aux robots des moteurs de recherche de ne pas indexer les répertoires spécifiques. Notez que vous pouvez utiliser un * comme caractère générique.

#2 – Lorsque vous avez un grand site Web, l’exploration et l’indexation peuvent être un processus très gourmand en ressources. Les robots d’exploration de divers moteurs de recherche essaieront d’explorer et d’indexer l’ensemble de votre site, ce qui peut créer de graves problèmes de performances.

Dans ce cas, vous pouvez utiliser le fichier robots.txt pour restreindre l’accès à certaines parties de votre site Web qui ne sont pas importantes pour le référencement ou le classement. De cette façon, non seulement vous réduisez la charge sur votre serveur, mais cela accélère l’ensemble du processus d’indexation.

#3 – Lorsque vous décidez d’utiliser le cloaking d’URL pour vos liens d’affiliation. Ce n’est pas la même chose que de masquer votre contenu ou vos URL pour tromper les utilisateurs ou les moteurs de recherche, mais c’est un processus valable pour rendre vos liens d’affiliation plus faciles à gérer.

Deux choses importantes à savoir sur robots.txt

La première chose est que toutes les règles que vous ajoutez au fichier robots.txt ne sont que des directives. Cela signifie qu’il appartient aux moteurs de recherche d’obéir et de suivre les règles.

Dans la plupart des cas, ils le font, mais si vous avez du contenu que vous ne souhaitez pas inclure dans leur index, le meilleur moyen est de protéger par mot de passe le répertoire ou la page en question.

La deuxième chose est que même si vous bloquez une page ou un répertoire dans robots, il peut toujours apparaître dans les résultats de recherche s’il contient des liens provenant d’autres pages déjà indexées. En d’autres termes, l’ajout d’une page au fichier robots.txt ne garantit pas qu’elle sera supprimée ou qu’elle n’apparaîtra pas sur le Web.

Outre le mot de passe protégeant la page ou le répertoire, une autre méthode consiste à utiliser des directives de page. Il y a ajouté à la

de chaque page et ils ressemblent à l’exemple ci-dessous :

Comment fonctionne le fichier robots.txt ?

Le fichier robots a une structure très simple. Il existe des combinaisons mot-clé/valeur prédéfinies que vous pouvez utiliser.

Les plus courants sont : User-agent, Disallow, Allow, Crawl-delay, Sitemap.

Agent utilisateur: Spécifie quels crawlers doivent prendre en compte les directives. Vous pouvez utiliser un * pour référencer tous les robots ou spécifier le nom d’un robot, voir les exemples ci-dessous.

Vous pouvez afficher tous les noms et valeurs disponibles pour le agent utilisateur directive, ici.

User-agent: * – comprend tous les robots d’exploration.
User-agent: Googlebot – les instructions concernent uniquement le bot Google.

Refuser: La directive qui demande à un agent utilisateur (spécifié ci-dessus) de ne pas explorer une URL ou une partie d’un site Web.

La valeur de refuser peut être un fichier, une URL ou un répertoire spécifique. Regardez l’exemple ci-dessous tiré du support Google.

Exemple de règles d'interdiction dans robots.txt
Exemple de règles d’interdiction dans robots.txt

Permettre: La directive qui indique explicitement quelles pages ou sous-dossiers sont accessibles. Ceci s’applique uniquement au Googlebot.

Vous pouvez utiliser le Autoriser pour donner accès à un sous-dossier spécifique sur votre site Web, même si le répertoire parent est interdit.

Par exemple, vous pouvez interdire l’accès à votre Photos répertoire mais autorisez l’accès à votre BMW sous-dossier qui se trouve sous Photos.

User-agent: *
Disallow: /photos
Allow: /photos/bmw/

Délai d’exploration: Vous pouvez spécifier un délai d’exploration valeur pour forcer les robots des moteurs de recherche à attendre un certain temps avant d’explorer la page suivante de votre site Web. La valeur que vous entrez est dans millisecondes.

Il convient de noter que le délai d’exploration n’est pas pris en compte par Googlebot.

Vous pouvez utiliser Google Search Console pour contrôler le budget d’exploration pour Google (l’option se trouve ici).

Réglage du taux d'exploration de Google dans la console de recherche Google
Réglage du taux d’exploration de Google dans la console de recherche Google

Vous pouvez utiliser le taux d’exploration dans les cas où vous avez un site Web avec des milliers de pages et que vous ne voulez pas surcharger votre serveur avec des demandes continues.

Dans la majorité des cas, vous ne devriez pas utiliser le délai d’exploration directif.

Plan du site : Les plan du site La directive est prise en charge par les principaux moteurs de recherche, y compris Google, et elle est utilisée pour spécifier l’emplacement de votre sitemap XML.

Même si vous ne spécifiez pas l’emplacement du plan du site XML dans les robots, les moteurs de recherche sont toujours en mesure de le trouver.

Par exemple, vous pouvez utiliser ceci :

Sitemap: https://example.com/sitemap.xml

Important : Robots.txt est sensible à la casse. Cela signifie que si vous ajoutez cette directive, Disallow: /File.html ne bloquera pas file.html.

Comment créer un robots.txt ?

La création d’un fichier robots.txt est simple. Tout ce dont vous avez besoin est un éditeur de texte (comme des crochets ou un bloc-notes) et un accès aux fichiers de votre site Web (via FTP ou panneau de configuration).

Avant de vous lancer dans le processus de création d’un fichier robots, la première chose à faire est de vérifier si vous en avez déjà un.

La façon la plus simple de le faire est d’ouvrir une nouvelle fenêtre de navigateur et de naviguer jusqu’à https://www.votredomaine.com/robots.txt

Si vous voyez quelque chose de similaire à celui ci-dessous, cela signifie que vous avez déjà un fichier robots.txt et que vous pouvez modifier le fichier existant au lieu d’en créer un nouveau.

User-agent: *
Allow: /

Comment éditer votre robots.txt

Utilisez votre client FTP préféré et connectez-vous au répertoire racine de votre site Web.

Robots.txt se trouve toujours dans le dossier racine (www ou public_html, selon votre serveur).

Téléchargez le fichier sur votre PC et ouvrez-le avec un éditeur de texte.

Apportez les modifications nécessaires et téléchargez le fichier sur votre serveur.

Comment créer un nouveau robots.txt

Si vous n’avez pas encore de fichier robots.txt, créez un nouveau fichier .txt à l’aide d’un éditeur de texte, ajoutez vos directives, enregistrez-le et téléchargez-le dans le répertoire racine de votre site Web.

Important: Assurez-vous que le nom de votre fichier est robots.txt et rien d’autre. N’oubliez pas non plus que le nom du fichier est sensible à la casse, il doit donc être entièrement en minuscules.

Où placez-vous robots.txt ? robots.txt doit toujours résider dans le racine de votre site Web et non dans un dossier.

Exemple de fichier robots.txt

Dans un scénario typique, votre fichier robots.txt doit avoir le contenu suivant :

User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml

Cela permet à tous les robots d’accéder à votre site Web sans aucun blocage. Il spécifie également l’emplacement du plan du site pour permettre aux moteurs de recherche de le localiser plus facilement.

Comment tester et valider votre robots.txt ?

Bien que vous puissiez afficher le contenu de votre fichier robots.txt en accédant à l’URL robots.txt, le meilleur moyen de le tester et de le valider consiste à utiliser le Testeur robots.txt outil de la console de recherche Google.

Naviguez vers le Outil de testeur Robots.txt.

Clique le Test bouton.

Si tout va bien, le Test Le bouton deviendra vert et l’étiquette deviendra AUTORISÉE. S’il y a un problème, la ligne qui provoque un refus sera mise en surbrillance.

Outil de testeur Robots.txt
Outil de testeur Robots.txt

Quelques informations supplémentaires sur l’outil de test robots.txt :

Vous pouvez utiliser le testeur d’URL (en bas de l’outil) pour saisir une URL de votre site Web et tester si elle est bloquée ou non.

Vous pouvez apporter des modifications à l’éditeur et vérifier les nouvelles règles MAIS pour qu’elles soient appliquées à votre fichier robots.txt en direct, vous devez MODIFIER votre fichier avec un éditeur de texte et télécharger le fichier dans le dossier racine de votre site Web (comme expliqué ci-dessus ).

Pour informer Google que vous avez apporté des modifications à votre fichier robots.txt, cliquez sur le bouton SOUMETTRE (à partir de l’écran ci-dessus) et cliquez à nouveau sur le bouton SOUMETTRE dans la fenêtre contextuelle (option 3 comme illustré ci-dessous).

Robots.txt Soumettre des mises à jour
Robots.txt Soumettre des mises à jour

Robots.txt et WordPress

Tout ce que vous avez lu jusqu’à présent sur robots.txt s’applique également aux sites Web WordPress.

Les seules choses que vous devez savoir sur robots.txt et WordPress sont les suivantes :

Dans le passé, il était recommandé aux sites Web WordPress de bloquer l’accès à wp-admin et wp-inclut dossiers via robots.txt.

À partir de 2012, ce n’est plus nécessaire puisque WordPress fournit un

@header( 'X-Robots-Tag: noindex' ); tag, qui fait le même travail que l’ajout d’un refuser dans robots.txt.

Qu’est-ce qu’un fichier robots.txt virtuel ?

WordPress utilise par défaut un robots virtuels.txt déposer. Cela signifie que vous ne pouvez pas modifier directement le fichier ou le trouver à la racine de votre répertoire.

La seule façon d’afficher le contenu du fichier est de taper https://www.votredomaine.com/robots.txt dans votre navigateur.

Les valeurs par défaut de WordPress robots.txt sont :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Lorsque vous activez le « Décourager les moteurs de recherche d’indexer ce site” option sous Visibilité des moteurs de recherche Paramètres que le fichier robots.txt devient :

Paramètres de visibilité des moteurs de recherche WordPress
Paramètres de visibilité des moteurs de recherche WordPress


User-agent: *
Disallow: /

Ce qui empêche essentiellement tous les robots d’accéder au site Web.

Comment modifier robots.txt dans WordPress ?

Étant donné que vous ne pouvez pas modifier directement le fichier robots.txt virtuel fourni par WordPress, la seule façon de le modifier est d’en créer un nouveau et de l’ajouter au répertoire racine de votre site Web.

Lorsqu’un fichier physique est présent sur le répertoire racine, le fichier WordPress virtuel n’est pas pris en compte.

Robots.txt Meilleures pratiques de référencement

Testez votre fichier robots.txt et assurez-vous que vous ne bloquez aucune partie de votre site Web que vous souhaitez voir apparaître dans les moteurs de recherche.

Ne bloquez pas les dossiers CSS ou JS. Pendant le processus d’exploration et d’indexation, Google est capable de visualiser un site Web comme un véritable utilisateur et si vos pages ont besoin du JS et du CSS pour fonctionner correctement, elles ne doivent pas être bloquées.

Si vous êtes sur WordPress, il n’est pas nécessaire de bloquer l’accès à votre wp-admin et wp-inclut Dossiers. WordPress fait un excellent travail en utilisant le méta-robots étiqueter.

N’essayez pas de spécifier des règles différentes par bot de moteur de recherche, cela peut devenir déroutant et difficile à maintenir à jour. Mieux utiliser agent utilisateur:* et fournir un ensemble de règles pour tous les bots.

Si vous souhaitez exclure des pages d’être indexées par les moteurs de recherche, mieux vaut le faire en utilisant le dans l’en-tête de chaque page et non via le fichier robots.txt.

Conclusion

Vous n’avez pas à passer trop de temps à configurer ou à tester votre fichier robots.txt. Ce qui est important, c’est d’en avoir un et de tester via Google Webmaster Tools que vous n’empêchez pas les robots des moteurs de recherche d’accéder à votre site Web.

C’est une tâche que vous devez faire une fois lorsque vous créez votre site Web pour la première fois ou dans le cadre de votre audit technique de référencement.

#Robotstxt # #Comment #optimiser #valider #votre #Robotstxt