Note : la balise meta robots n'a pas les mêmes objectifs, les mêmes effets et ne s'implémente pas de la même manière que le fichier robots.txt. Néanmoins, ces deux méthodes étant très liées, nous les expliquons toutes les deux sur ce site.
Le fichier robots.txt contient des instructions pour les moteurs de recherche, identifiés par leur User-agent, pour les avertir des répertoires qu'ils peuvent (Allow) ou ne doivent pas explorer (Disallow) et également leur fournir l'adresse du fichier sitemap.xml.
Même si les robots d'indexation ne doivent pas explorer certaines pages web, ces pages peuvent néanmoins ressortir dans les pages de résultats de recherche de moteurs de recherche (SERP).
Avec la balise meta robots, vous pouvez vraiment empêcher les moteurs de recherche d'afficher dans leurs résultats les pages que vous ne souhaitez pas voir apparaitre.
Qu'est-ce que la balise meta robots ?
Une balise meta est une information sur la nature et le contenu d’une page web, ajoutée dans l’en-tête de la page au moyen de marqueurs HTML.
A la manière du fichier robots.txt, l'attribut robots de la balise meta est utilisé pour donner des directives aux moteurs de recherche sur la manière d'explorer, indexer et parcourir les liens sur une page.
Exemple de balise meta robots :
<html>
<head>
<title>Titre de la page</title>
<meta name="robots" content="noindex, nofollow">
</head>
La valeur noindex empêche la page d'être indexée et la valeur nofollow empêche les liens d'être suivis par les robots et de transmettre de la popularité.
Si vous souhaitez simplement bloquer l'indexation de la page mais laisser la possibilité aux moteurs de suivre les liens, il suffit de ne laisser que la valeur noindex :
<meta name="robots" content="noindex">
En cas de balises Meta robots (ou googlebot) qui se contredisent, la balise la plus restrictive s'applique. Par exemple, si une page comporte à la fois des balises max-snippet:50 et nosnippet, la balise nosnippet prévaut.
Liste de toutes les instructions meta robots existantes
<meta name="robots" content="index">
Cette instruction autorise l'indexation de la page.
<meta name="robots" content="follow">
Cette instruction permet de suivre les liens de la page dans le cadre de l'exploration.
<meta name="robots" content="noindex">
Cette instruction empêche l'indexation de la page.
<meta name="robots" content="nofollow">
Cette instruction empêche de suivre les liens de cette page dans le cadre de l'exploration.
<meta name="robots" content="nosnippet">
Cette instruction empêche l'affichage d'un extrait ou d'un aperçu de vidéo dans les résultats de recherche. Pour les vidéos, une image statique s'affiche à la place, si possible. Exemple : <meta name="robots" content="nosnippet">
<meta name="robots" content="max-snippet:[nombre]">
Cette instruction permet de limiter la longueur de l'extrait de cette page au [nombre] de caractères spécifié. Utilisez la valeur 0 pour n'afficher aucun extrait ou -1 pour que la longueur de l'extrait ne soit pas limitée.
<meta name="robots" content="max-image-preview:[taille]">
Cette instruction permet de limiter la taille des images associées à cette page. La valeur [taille] peut être "none", "standard" ou "large".
<meta name="robots" content="max-video-preview:[nombre]">
Cette instruction permet de limiter la longueur de l'aperçu vidéo associé à cette page au [nombre] de secondes spécifié. Utilisez la valeur 0 pour n'autoriser que les images fixes ou -1 pour que la longueur de l'aperçu ne soit pas limitée.
<meta name="robots" content="noarchive">
Cette instruction empêche d'afficher le lien en cache associé à une page dans les résultats de recherche.
<meta name="robots" content="unavailable_after:[date]">
Cette instruction permet de préciser l'heure et la date exactes auxquelles l'exploration et l'indexation de cette page doivent cesser.
<meta name="robots" content="noimageindex">
Cette instruction permet d'indiquer que vous ne souhaitez pas afficher votre page comme source d'une image dans les résultats de recherche d'images Google. Cette balise a pour effet d'empêcher l'indexation de toutes les images de cette page. Si ces images apparaissent sur une autre page, elles pourront être explorées et indexées selon que la configuration de cette page le permet. Notez qu'il ne s'agit pas encore d'une pratique standard sur Internet. La méthode classique pour bloquer des images consiste actuellement à utiliser une règle robots.txt.
<meta name="robots" content="none">
Cette instruction équivaut à noindex, nofollow.
<meta name="robots" content="all">
Cette instruction équivaut à "index, follow".
<meta name="robots" content="noodp">
Le "noodp" empêche les moteurs d'utiliser en remplacement le titre et/ou la description du site tirés du répertoire DMOZ.
Vous pouvez également spécifier ces informations dans l'en-tête des pages à l'aide de l'instruction d'en-tête HTTP "X-Robots-Tag"
.Les attributs spécifiques à certains moteurs de recherche
Pour cibler Google :
<meta name="google" content="xxxx">
Plus d'informations sur les balises meta acceptées par Google sont disponibles sur les pages Balises spéciales acceptées par Google et Spécifications des balises Meta, de data-nosnippet et de X-Robots-Tag
Bing
Pour cibler Bing / MSN :
<meta name="msnbot" content="xxxx">
<meta name="bingbot" content="xxxx">
Plus d'informations sur les balises meta acceptées par Bing sont disponibles sur la page Which Robots Metatags Does Bing Support?
Yahoo!
Pour cibler Yahoo! :
<meta name="Slurp" content="xxxx">
Comme la valeur "noodp", la valeur "noydir" empêche Yahoo! d'utiliser le titre et la description provenant de l'annuaire Yahoo! Directory.
<meta name="robots" content="noydir">