WordPress: Comment utiliser Robots.txt pour autoriser ou interdire tout

WordPress: Comment utiliser Robots.txt pour autoriser ou interdire tout

Le fichier robots.txt est un fichier situé sur votre domaine racine.

Il s’agit d’un simple fichier texte dont l’objectif principal est d’indiquer aux robots d’exploration et aux robots quels fichiers et dossiers doivent rester éloignés.

Les robots des moteurs de recherche sont des programmes qui visitent votre site et suivent les liens qui s’y trouvent pour en savoir plus sur vos pages. Un exemple est le robot d’exploration Web de Google, appelé Googlebot.

Les bots vérifient généralement le fichier robots.txt avant de visiter votre site. Ils font cela pour voir s’ils sont autorisés à explorer le site et s’il y a des choses qu’ils devraient éviter.

Le fichier robots.txt doit être placé dans le répertoire de niveau supérieur de votre domaine, tel que example.com/robots.txt.

La meilleure façon de le modifier est de vous connecter à votre hébergeur via un client FTP gratuit comme FileZilla, puis de modifier le fichier avec un éditeur de texte comme Notepad (Windows) ou TextEdit (Mac).

Si vous ne savez pas comment vous connecter à votre serveur via FTP, contactez votre société d’hébergement Web pour demander des instructions.

Certains plugins, comme Yoast SEO, vous permettent également de modifier le fichier robots.txt depuis votre tableau de bord .

Comment tout interdire à l’aide de robots.txt

Si vous souhaitez demander à tous les robots de rester à l’écart de votre site, voici le code que vous devez mettre dans votre fichier robots.txt pour tout interdire :

User-agent: *
Disallow: /

La partie « User-agent : * » signifie qu’elle s’applique à tous les robots. La partie « Interdire : / » signifie qu’elle s’applique à l’ensemble de votre site Web.

En effet, cela indiquera à tous les robots et robots d’exploration Web qu’ils ne sont pas autorisés à accéder ou à explorer votre site.

Important: L’interdiction de tous les robots sur un site Web en direct peut entraîner la suppression de votre site des moteurs de recherche et entraîner une perte de trafic et de revenus. N’utilisez ceci que si vous savez ce que vous faites !

Comment permettre à tous

Robots.txt fonctionne principalement par exclusion. Vous excluez les fichiers et dossiers auxquels vous ne souhaitez pas accéder, tout le reste est considéré comme autorisé.

Si vous voulez que les robots puissent explorer l’intégralité de votre site, vous pouvez simplement avoir un fichier vide ou aucun fichier du tout.

Ou vous pouvez le mettre dans votre fichier robots.txt pour autoriser tout :

User-agent: *
Disallow:

Ceci est interprété comme ne rien interdire, donc effectivement tout est permis.

Comment interdire des fichiers et dossiers spécifiques

Vous pouvez utiliser la commande « Disallow : » pour bloquer des fichiers et des dossiers individuels.

Vous mettez simplement une ligne distincte pour chaque fichier ou dossier que vous souhaitez interdire.

Voici un exemple :

User-agent: *
Disallow: /topsy/
Disallow: /crets/
Disallow: /hidden/file.html

Dans ce cas, tout est autorisé sauf les deux sous-dossiers et le fichier unique.

Comment interdire des bots spécifiques

Si vous souhaitez simplement empêcher un bot spécifique d’explorer, procédez comme suit :

User-agent: Bingbot
Disallow: /

User-agent: *
Disallow:

Cela empêchera le bot du moteur de recherche de Bing d’explorer votre site, mais d’autres bots seront autorisés à tout explorer.

Vous pouvez faire la même chose avec Googlebot en utilisant « User-agent : Googlebot ».

Vous pouvez également empêcher des robots spécifiques d’accéder à des fichiers et dossiers spécifiques.

Un bon fichier robots.txt pour

Le code suivant est ce que j’utilise dans mon fichier robots.txt. C’est un bon paramètre par défaut pour .

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://searchfacts.com/sitemap.xml

Ce fichier robots.txt indique aux robots qu’ils peuvent tout explorer sauf le dossier /wp-admin/. Cependant, ils sont autorisés à explorer un fichier dans le dossier /wp-admin/ appelé admin-ajax.php.

La raison de ce paramètre est que Google Search Console signalait une erreur s’il n’était pas en mesure d’explorer le fichier admin-ajax.php.

Googlebot est le seul bot qui comprend « Autoriser : » – il est utilisé pour autoriser l’exploration d’un fichier particulier dans un dossier qui n’est pas autorisé.

Vous pouvez également utiliser la ligne « Sitemap : » pour indiquer aux robots où trouver votre plan de site XML. Ce plan du site doit contenir une liste de toutes les pages de votre site, ce qui permet aux robots d’exploration de toutes les trouver plus facilement.

Quand utiliser noindex au lieu de robots

Si vous souhaitez empêcher l’affichage de l’intégralité de votre site ou de pages spécifiques dans les moteurs de recherche comme Google, alors robots.txt n’est pas le meilleur moyen de le faire.

Les moteurs de recherche peuvent toujours indexer les fichiers bloqués par les robots, ils n’afficheront tout simplement pas certaines métadonnées utiles.

Au lieu de cela, la description dans les résultats de recherche indiquera « Une description pour ce résultat n’est pas disponible en raison du fichier robots.txt de ce site ».

Bloqué par la méta description des robots
Source : Table ronde sur les moteurs de recherche

Si vous masquez un fichier ou un dossier avec robots.txt, mais que quelqu’un y crée un lien, Google est très susceptible de l’afficher dans les résultats de la recherche, sauf sans la description.

Dans ces cas, il est préférable d’utiliser la balise noindex pour empêcher les moteurs de recherche de l’afficher dans les résultats de recherche.

Dans , si vous allez dans Paramètres -> Lecture et cochez « Décourager les moteurs de recherche d’indexer ce site », alors une balise noindex sera ajoutée à toutes vos pages.

Cela ressemble à ceci :

Vous pouvez également utiliser un plugin de référencement gratuit comme Yoast ou The SEO Framework pour ne pas indexer des publications, des pages ou des catégories spécifiques sur votre site.

Dans la plupart des cas, noindex est un meilleur choix pour bloquer l’indexation que robots.txt.

Quand bloquer l’intégralité de votre site à la place

Dans certains cas, vous souhaiterez peut-être bloquer l’accès à l’ensemble de votre site, à la fois par les robots et les personnes.

Mettre un mot de passe sur votre site Web est la meilleure façon de le faire. Cela peut être fait avec un plugin gratuit appelé Password Protected.

Faits importants sur le fichier robots.txt

Gardez à l’esprit que les robots peuvent ignorer votre fichier robots.txt, en particulier les robots abusifs comme ceux dirigés par des pirates à la recherche de failles de sécurité.

De plus, si vous essayez de masquer un dossier de votre site Web, le simple fait de le placer dans le fichier robots.txt peut ne pas être une approche intelligente.

N’importe qui peut voir le fichier robots.txt s’il le tape dans son navigateur et peut être en mesure de comprendre ce que vous essayez de cacher de cette façon.

En fait, vous pouvez consulter certains sites populaires pour voir comment leurs fichiers robots.txt sont configurés. Essayez simplement d’ajouter /robots.txt à l’URL de la page d’accueil de vos sites Web préférés.

Si vous voulez vous assurer que votre fichier robots.txt fonctionne, vous pouvez utiliser Google Search Console pour le tester. Voici les instructions.

Message à emporter

Le fichier robots.txt indique aux robots et aux robots d’indexation quels fichiers et dossiers ils peuvent et ne peuvent pas explorer.

Son utilisation peut être utile pour bloquer certaines zones de votre site Web ou pour empêcher certains robots d’explorer votre site.

Si vous allez éditer votre fichier robots.txt, alors soyez prudent car une petite erreur peut avoir des conséquences désastreuses.

Par exemple, si vous égarez une seule barre oblique, cela peut bloquer tous les robots et supprimer littéralement tout votre trafic de recherche jusqu’à ce qu’il soit corrigé.

J’ai déjà travaillé avec un grand site avant de mettre accidentellement un « Interdire : / » dans leur fichier robots.txt en direct. Ils ont perdu beaucoup de trafic et de revenus à cause de cette petite erreur.

Le fichier robots.txt est puissant, alors traitez-le avec prudence.

Comment tout interdire à l’aide de robots.txt ?

Si vous souhaitez demander à tous les robots de rester à l’écart de votre site, voici le code que vous devez mettre dans votre fichier robots.txt pour tout interdire :
Agent utilisateur: *
Interdire : /

Comment autoriser tous les utilisateurs à utiliser robots.txt ?

Si vous voulez que les robots puissent explorer l’intégralité de votre site, vous pouvez simplement avoir un fichier vide ou aucun fichier du tout.

Ou vous pouvez le mettre dans votre fichier robots.txt pour autoriser tout :
Agent utilisateur: *
Refuser:

Comment interdire des fichiers et dossiers spécifiques avec robots.txt ?

Vous mettez simplement une ligne distincte pour chaque fichier ou dossier que vous souhaitez interdire.
Voici un exemple :
Agent utilisateur: *
Interdire : /topsy/
Interdire : /crets/
Interdire : /hidden/file.html

Comment interdire des robots spécifiques avec robots.txt ?

Si vous souhaitez simplement empêcher l’exploration d’un bot spécifique, tel que Bing, procédez comme suit :
Agent utilisateur : Bingbot
Interdire : /

Qu’est-ce qu’un bon fichier robots.txt pour ?

Le code suivant est ce que j’utilise dans mon fichier robots.txt. C’est un bon paramètre par défaut pour .
Agent utilisateur: *
Interdire : /wp-admin/
Autoriser : /wp-admin/admin-ajax.php
Plan du site : https://searchfacts.com/sitemap.xml

All the CMS Templates You Could Ask For.

WordPress: Comment utiliser Robots.txt pour autoriser ou interdire tout

2M+ items from the worlds largest marketplace for CMS TemplatesEnvato Market.



WordPress: Comment utiliser Robots.txt pour autoriser ou interdire tout

#Comment #utiliser #Robotstxt #pour #autoriser #interdire #tout