WordPress: Guide WordPress Robots.txt – Qu’est-ce que c’est et comment l’utiliser

WordPress: Guide WordPress Robots.txt - Qu'est-ce que c'est et comment l'utiliser

Avez-vous déjà entendu le terme robots.txt et vous êtes-vous demandé comment il s’applique à votre site Web ? La plupart des sites Web ont un fichier robots.txt, mais cela ne signifie pas que la plupart des webmasters le comprennent. Dans cet article, nous espérons changer cela en offrant une plongée approfondie dans le fichier robots.txt de , ainsi que sur la manière dont il peut contrôler et limiter l’accès à votre site. À la fin, vous serez en mesure de répondre à des questions telles que :

Il y a beaucoup à couvrir alors commençons!

Qu’est-ce qu’un Robots.txt ?

Avant de pouvoir parler du robots.txt , il est important de définir ce qu’est un « robot » dans ce cas. Les robots sont tout type de « bot » qui visite des sites Web sur Internet. L’exemple le plus courant est celui des robots des moteurs de recherche. Ces robots « explorent » le Web pour aider les moteurs de recherche comme Google à indexer et à classer les milliards de pages sur Internet.

Donc, les bots sont, en général, une bonne chose pour Internet…ou du moins une chose nécessaire. Mais cela ne signifie pas nécessairement que vous, ou d’autres webmasters, voulez que les bots fonctionnent sans entrave. Le désir de contrôler la façon dont les robots Web interagissent avec les sites Web a conduit à la création du norme d’exclusion des robots au milieu des années 90. Robots.txt est la mise en œuvre pratique de cette norme – il vous permet de contrôler la façon dont les robots participants interagissent avec votre site. Vous pouvez bloquer complètement les robots, restreindre leur accès à certaines zones de votre site, etc.

Cette partie « participative » est cependant importante. Robots.txt ne peut pas Obliger un bot pour suivre ses directives. Et les robots malveillants peuvent ignorer et ignoreront le fichier robots.txt. De plus, même les organisations réputées ignorent certains commandes que vous pouvez mettre dans Robots.txt. Par exemple, Google ignorera toutes les règles que vous ajoutez à votre fichier robots.txt concernant la fréquence de visite de ses robots d’exploration. Si vous rencontrez de nombreux problèmes avec les bots, une solution de sécurité telle que Cloudflare ou Sucuri peut vous être utile.

Pourquoi devriez-vous vous soucier de votre fichier Robots.txt ?

Pour la plupart des webmasters, les avantages d’un fichier robots.txt bien structuré se résument à deux catégories :

  • Optimiser les ressources de crawl des moteurs de recherche en leur disant de ne pas perdre de temps sur les pages que vous ne souhaitez pas indexer. Cela permet de garantir que les moteurs de recherche se concentrent sur l’exploration des pages qui vous intéressent le plus.
  • Optimiser l’utilisation de votre serveur en bloquant les bots qui gaspillent des ressources.

Robots.txt ne sert pas spécifiquement à contrôler quelles pages sont indexées dans les moteurs de recherche

Robots.txt n’est pas un moyen infaillible de contrôler les pages indexées par les moteurs de recherche. Si votre objectif principal est d’empêcher certaines pages d’être incluses dans les résultats des moteurs de recherche, la bonne approche consiste à utiliser une balise meta noindex ou une autre méthode directe similaire.

C’est parce que votre Robots.txt ne dit pas directement aux moteurs de recherche de ne pas indexer le contenu – il leur dit simplement de ne pas l’explorer. Bien que Google n’explore pas les zones marquées à l’intérieur de votre site, Google lui-même indique que si un site externe renvoie vers une page que vous excluez avec votre fichier Robots.txt, Google peut toujours indexer cette page.

John Mueller, Google Webmaster Analyst, a également confirmé que si une page contient des liens vers elle, même si elle est bloquée par robots.txt, elle peut toujours être indexée. Voici ce qu’il avait à dire dans un Hangout Webmaster Central :

Une chose à garder à l’esprit ici est que si ces pages sont bloquées par robots.txt, il pourrait théoriquement arriver que quelqu’un se connecte de manière aléatoire à l’une de ces pages. Et s’ils font ça alors il peut arriver que nous indexions cette URL sans aucun contenu car il est bloqué par robots.txt. Nous ne saurions donc pas que vous ne voulez pas que ces pages soient réellement indexées.

Alors que s’ils ne sont pas bloqués par robots.txt, vous pouvez mettre une balise meta noindex sur ces pages. Et si quelqu’un crée un lien vers eux, et que nous explorons ce lien et pensons qu’il y a peut-être quelque chose d’utile ici, nous saurons que ces pages n’ont pas besoin d’être indexées et nous pouvons simplement les ignorer complètement.

Donc, à cet égard, si vous avez quelque chose sur ces pages que vous ne voulez pas avoir indexé, ne le refusez pas, utiliser noindex au lieu.

Comment créer et modifier votre fichier Robots.txt

Par défaut, crée automatiquement un fichier robots.txt virtuel pour votre site. Ainsi, même si vous ne levez pas le petit doigt, votre site devrait déjà avoir le fichier robots.txt par défaut. Vous pouvez tester si c’est le cas en ajoutant « /robots.txt » à la fin de votre nom de domaine. Par exemple, « https://kinsta.com/robots.txt » affiche le fichier robots.txt que nous utilisons ici chez Kinsta :

Exemple de fichier Robots.txt

Exemple de fichier Robots.txt

Comme ce fichier est virtuel, vous ne pouvez pas le modifier. Si vous souhaitez modifier votre fichier robots.txt, vous devrez en fait créer un fichier physique sur votre serveur que vous pourrez manipuler selon vos besoins. Voici trois façons simples de le faire…

Comment créer et éditer un fichier Robots.txt avec Yoast SEO

Si vous utilisez le populaire plugin Yoast SEO, vous pouvez créer (et modifier plus tard) votre fichier robots.txt directement à partir de l’interface de Yoast. Avant de pouvoir y accéder, cependant, vous devez activer les fonctionnalités avancées de Yoast SEO en allant sur SEO → Tableau de bord → Fonctionnalités et basculer sur Pages de paramètres avancés:

Comment activer les fonctionnalités avancées de Yoast

Comment activer les fonctionnalités avancées de Yoast

Une fois activé, vous pouvez accéder à Référencement → Outils et cliquez sur Éditeur de fichiers:

Comment accéder à l'éditeur de fichiers Yoast

Comment accéder à l’éditeur de fichiers Yoast

En supposant que vous n’ayez pas déjà un fichier Robots.txt physique, Yoast vous donnera la possibilité de Créer un fichier robots.txt:

Comment créer des robots.txt dans yoast

Comment créer Robots.txt dans Yoast

Et une fois que vous aurez cliqué sur ce bouton, vous pourrez modifier le contenu de votre fichier Robots.txt directement depuis la même interface :

Comment éditer Robots.txt dans Yoast

Comment éditer Robots.txt dans Yoast

Au fur et à mesure de votre lecture, nous approfondirons les types de directives à mettre dans votre fichier robots.txt.

Comment créer et éditer un fichier Robots.txt avec tout-en-un SEO

Si vous utilisez le presque aussi populaire que Yoast Pack de référencement tout en un plugin, vous pouvez également créer et éditer votre fichier robots.txt directement depuis l’interface du plugin. Tout ce que vous avez à faire est d’aller à Tout en un SEO → Gestionnaire de fonctionnalités et Activer les Robots.txt caractéristique:

Comment créer Robots.txt dans All In One SEO

Comment créer Robots.txt dans All In One SEO

Ensuite, vous pourrez gérer votre fichier Robots.txt en allant sur Référencement tout en un → Robots.txt :

Comment éditer Robots.txt dans All In One SEO

Comment éditer Robots.txt dans All In One SEO

Comment créer et modifier un fichier Robots.txt via FTP

Si vous n’utilisez pas de plugin SEO qui offre la fonctionnalité robots.txt, vous pouvez toujours créer et gérer votre fichier robots.txt via SFTP. Tout d’abord, utilisez n’importe quel éditeur de texte pour créer un fichier vide nommé « robots.txt »:

Comment créer votre propre fichier Robots.txt

Comment créer votre propre fichier Robots.txt

Ensuite, connectez-vous à votre site via SFTP et téléchargez ce fichier sur le racine dossier de votre site. Vous pouvez apporter d’autres modifications à votre fichier robots.txt en le modifiant via SFTP ou en téléchargeant de nouvelles versions du fichier.

Que mettre dans votre fichier Robots.txt

Ok, maintenant vous avez un fichier robots.txt physique sur votre serveur que vous pouvez modifier si nécessaire. Mais que faites-vous réellement avec ce fichier? Eh bien, comme vous l’avez appris dans la première section, robots.txt vous permet de contrôler la façon dont les robots interagissent avec votre site. Vous le faites avec deux commandes principales :

  • Agent utilisateur – cela vous permet de cibler des bots spécifiques. Les agents utilisateurs sont ce que les robots utilisent pour s’identifier. Avec eux, vous pourriez, par exemple, créer une règle qui s’applique à Bing, mais pas à Google.
  • Refuser – cela vous permet de dire aux robots de ne pas accéder à certaines zones de votre site.

Il y a aussi un Permettre commande que vous utiliserez dans des situations de niche. Par défaut, tout sur votre site est marqué avec Permettre, il n’est donc pas nécessaire d’utiliser le Permettre commande dans 99% des situations. Mais c’est pratique là où vous voulez Refuser accès à un dossier et à ses dossiers enfants mais Permettre accès à un dossier enfant spécifique.

Vous ajoutez des règles en spécifiant d’abord quelles Agent utilisateur la règle doit s’appliquer, puis énumérer les règles à appliquer en utilisant Refuser et Permettre. Il y a aussi d’autres commandes comme Délai d’exploration et Plan du site, mais ce sont soit :

  • Ignoré par la plupart des robots d’exploration majeurs, ou interprété de manières très différentes (dans le cas d’un délai d’exploration)
  • Rendu redondant par des outils comme Google Search Console (pour les plans de site)

Passons en revue quelques cas d’utilisation spécifiques pour vous montrer comment tout cela se conjugue.

Comment utiliser Robots.txt pour bloquer l’accès à l’ensemble de votre site

Disons que vous voulez bloquer tous l’accès des robots d’exploration à votre site. Il est peu probable que cela se produise sur un site en direct, mais cela s’avère utile pour un site de développement. Pour ce faire, vous devez ajouter ce code à votre fichier robots.txt  :

User-agent: *
Disallow: /

Que se passe-t-il dans ce code ?

Les *astérisque à côté de Agent utilisateur signifie « tous les agents utilisateurs ». L’astérisque est un caractère générique, ce qui signifie qu’il s’applique à chaque agent utilisateur. Les /sabrer à côté de Refuser dit que vous voulez interdire l’accès à tous les pages qui contiennent « votredomaine.com/ » (qui correspond à chaque page de votre site).

Comment utiliser Robots.txt pour empêcher un seul bot d’accéder à votre site

Changeons les choses. Dans cet exemple, nous prétendrons que vous n’aimez pas le fait que Bing explore vos pages. Vous êtes l’équipe Google jusqu’au bout et vous ne voulez même pas que Bing regarde votre site. Bloquer seul Bing d’explorer votre site, vous remplaceriez le caractère générique *astérisque avec Bingbot :

User-agent: Bingbot
Disallow: /

Essentiellement, le code ci-dessus dit à seul Appliquer le Refuser règle aux bots avec le User-agent « Bingbot ». Maintenant, il est peu probable que vous souhaitiez bloquer l’accès à Bing – mais ce scénario est utile s’il existe un bot spécifique auquel vous ne souhaitez pas accéder à votre site. Ce site contient une bonne liste de la plupart des noms d’agents utilisateurs connus du service.

Comment utiliser Robots.txt pour bloquer l’accès à un dossier ou un fichier spécifique

Pour cet exemple, disons que vous souhaitez uniquement bloquer l’accès à un fichier ou un dossier spécifique (et tous les sous-dossiers de ce dossier). Pour que cela s’applique à , disons que vous souhaitez bloquer :

  • L’intégralité du dossier wp-admin
  • wp-login.php

Vous pouvez utiliser les commandes suivantes :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Comment utiliser Robots.txt pour autoriser l’accès à un fichier spécifique dans un dossier non autorisé

D’accord, disons maintenant que vous souhaitez bloquer un dossier entier, mais que vous souhaitez toujours autoriser l’accès à un fichier spécifique dans ce dossier. C’est là que le Permettre la commande est pratique. Et c’est en fait très applicable à . En fait, le fichier robots.txt virtuel de illustre parfaitement cet exemple :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Cet extrait bloque l’accès à l’intégralité /wp-admin/ dossier à l’exception de les /wp-admin/admin-ajax.php déposer.

Comment utiliser Robots.txt pour empêcher les robots d’explorer les résultats de recherche

Un ajustement spécifique à que vous voudrez peut-être faire est d’empêcher les robots de recherche d’explorer vos pages de résultats de recherche. Par défaut, utilise le paramètre de requête « ?s= ». Donc pour bloquer l’accès, il suffit d’ajouter la règle suivante :

User-agent: *
Disallow: /?s=
Disallow: /search/

Cela peut être un moyen efficace d’arrêter également les erreurs 404 logicielles si vous les obtenez. Assurez-vous de lire notre guide détaillé sur la façon d’accélérer la recherche .

Comment créer différentes règles pour différents robots dans Robots.txt

Jusqu’à présent, tous les exemples ont traité d’une règle à la fois. Mais que se passe-t-il si vous souhaitez appliquer des règles différentes à différents robots ? Il vous suffit d’ajouter chaque ensemble de règles sous le Agent utilisateur déclaration pour chaque bot. Par exemple, si vous souhaitez créer une règle qui s’applique à tous les robots et une autre règle qui s’applique à juste Bingbot, tu peux faire comme ça :

User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /

Dans cet exemple, tous les robots sera bloqué d’accéder à /wp-admin/, mais Bingbot sera bloqué pour accéder à l’ensemble de votre site.

Test de votre fichier Robots.txt

Vous pouvez tester votre fichier robots.txt dans Google Search Console pour vous assurer qu’il est correctement configuré. Cliquez simplement sur votre site et sous « Crawl », cliquez sur « robots.txt Tester ». Vous pouvez ensuite soumettre n’importe quelle URL, y compris votre page d’accueil. Vous devriez voir un vert Autorisé si tout est crawlable. Vous pouvez également tester les URL que vous avez bloquées pour vous assurer qu’elles sont bien bloquées, et/ou Non autorisé.

Tester le fichier robots.txt

Tester le fichier robots.txt

Attention à la nomenclature UTF-8

BOM signifie marque d’ordre d’octet et est essentiellement un caractère invisible qui est parfois ajouté aux fichiers par les anciens éditeurs de texte et autres. Si cela se produit avec votre fichier robots.txt, il se peut que Google ne le lise pas correctement. C’est pourquoi il est important de vérifier votre fichier pour les erreurs. Par exemple, comme on le voit ci-dessous, notre fichier avait un caractère invisible et Google se plaint que la syntaxe n’est pas comprise. Cela invalide essentiellement la première ligne de notre fichier robots.txt, ce qui n’est pas bon ! Glenn Gabe a un excellent article sur la façon dont une nomenclature UTF-8 pourrait tuer votre référencement.

Nomenclature UTF-8 dans votre fichier robots.txt

Nomenclature UTF-8 dans votre fichier robots.txt

Googlebot est principalement basé aux États-Unis

Il est également important de ne pas bloquer le Googlebot depuis les États-Unis, même si vous ciblez une région locale en dehors des États-Unis. Ils font parfois du crawl local, mais le Googlebot est principalement basé aux États-Unis.

Ce que les sites populaires mettent dans leur fichier Robots.txt

Pour fournir un contexte aux points énumérés ci-dessus, voici comment certains des sites les plus populaires utilisent leurs fichiers robots.txt.

TechCrunch

Fichier TechCrunch Robots.txt

Fichier TechCrunch Robots.txt

En plus de restreindre l’accès à un certain nombre de pages uniques, TechCrunch interdit notamment aux robots d’exploration de :

Ils ont également défini des restrictions spéciales sur deux bots :

La Fondation Obama

Fichier Robots.txt de la Fondation Obama

Fichier Robots.txt de la Fondation Obama

La Fondation Obama n’a fait aucun ajout spécial, optant exclusivement pour restreindre l’accès à /wp-admin/.

Angry Birds

Fichier Angry Birds Robots.txt

Fichier Angry Birds Robots.txt

Angry Birds a la même configuration par défaut que la Fondation Obama. Rien de spécial n’est ajouté.

Dérive

Fichier Drift Robots.txt

Fichier Drift Robots.txt

Enfin, Drift choisit de définir ses plans de site dans le fichier Robots.txt, mais sinon, laisse les mêmes restrictions par défaut que The Obama Foundation et Angry Birds.

Utilisez Robots.txt de la bonne manière

Alors que nous terminons notre guide robots.txt, nous souhaitons vous rappeler une fois de plus que l’utilisation d’un Refuser dans votre fichier robots.txt n’est pas la même chose que d’utiliser un pas d’index étiqueter. Robots.txt bloque l’exploration, mais pas nécessairement l’indexation. Vous pouvez l’utiliser pour ajouter des règles spécifiques pour façonner la façon dont les moteurs de recherche et autres robots interagissent avec votre site, mais il ne contrôlera pas explicitement si votre contenu est indexé ou non.

Pour la plupart des utilisateurs occasionnels de , il n’est pas urgent de modifier le fichier robots.txt virtuel par défaut. Mais si vous rencontrez des problèmes avec un bot spécifique ou si vous souhaitez modifier la façon dont les moteurs de recherche interagissent avec un certain plugin ou thème que vous utilisez, vous souhaiterez peut-être ajouter vos propres règles.

Nous espérons que vous avez apprécié ce guide et n’oubliez pas de laisser un commentaire si vous avez d’autres questions sur l’utilisation de votre fichier robots.txt .


Économisez du temps, des coûts et optimisez les performances du site avec :

  • Aide instantanée d’experts en hébergement , 24h/24 et 7j/7.
  • Intégration Cloudflare Enterprise.
  • Audience mondiale avec 28 centres de données dans le monde.
  • Optimisation avec notre surveillance intégrée des performances des applications.

Tout cela et bien plus encore, dans un seul plan sans contrats à long terme, migrations assistées et garantie de remboursement de 30 jours. Consultez nos plans ou parlez aux ventes pour trouver le plan qui vous convient.



All the CMS Templates You Could Ask For.

WordPress: Guide WordPress Robots.txt - Qu'est-ce que c'est et comment l'utiliser

2M+ items from the worlds largest marketplace for CMS TemplatesEnvato Market.



WordPress: Guide WordPress Robots.txt - Qu'est-ce que c'est et comment l'utiliser

#Guide # #Robotstxt #Questce #cest #comment #lutiliser