Balise meta robots

Note : la balise meta robots n'a pas les mêmes objectifs, les mêmes effets et ne s'implémente pas de la même manière que le fichier robots.txt. Néanmoins, ces deux méthodes étant très liées, nous les expliquons toutes les deux sur ce site.

Le fichier robots.txt contient des instructions pour les moteurs de recherche, identifiés par leur User-agent, pour les avertir des répertoires qu'ils peuvent (Allow) ou ne doivent pas explorer (Disallow) et également leur fournir l'adresse du fichier sitemap.xml.

Même si les robots d'indexation ne doivent pas explorer certaines pages web, ces pages peuvent néanmoins ressortir dans les pages de résultats de recherche de moteurs de recherche (SERP).

Avec la balise meta robots, vous pouvez vraiment empêcher les moteurs de recherche d'afficher dans leurs résultats les pages que vous ne souhaitez pas voir apparaitre.

Qu'est-ce que la balise meta robots ?

Une balise meta est une information sur la nature et le contenu d’une page web, ajoutée dans l’en-tête de la page au moyen de marqueurs HTML.

A la manière du fichier robots.txt, l'attribut robots de la balise meta est utilisé pour donner des directives aux moteurs de recherche sur la manière d'explorer, indexer et parcourir les liens sur une page.

Exemple de balise meta robots :

<html>
<head>
<title>Titre de la page</title>
<meta name="robots" content="noindex, nofollow">
</head>

La valeur noindex empêche la page d'être indexée et la valeur nofollow empêche les liens d'être suivis par les robots et de transmettre de la popularité.

Si vous souhaitez simplement bloquer l'indexationde la page mais laisser la possibilité aux moteurs de suivre les liens, il suffit de ne laisser que la valeur noindex :

<meta name="robots" content="noindex">

Les autres valeurs existantes

<meta name="robots" content="noarchive">

Cette balise permet de prévenir les moteurs que vous ne souhaitez pas qu'ils gardent une archive de la page. Sur Google, cela se traduit par l'impossibilité d'affichier le lien "En cache" associé à une page dans les résultats.

<meta name="robots" content="nosnippet">

La valeur "nosnippet" permet d'empêcher l'affichage d'un extrait (meta description) dans les résultats de recherche.

<meta name="robots" content="noodp">

Le "noodp" empêche les moteurs d'utiliser en remplacement le titre et/ou la description du site tirés du répertoire DMOZ.

Les attributs spécifiques à certains moteurs de recherche

Google

Pour cibler Google :

<meta name="google" content="xxxx">

Lorsque le contenu d'une page web n'est pas dans la langue choisie par l'utilisateur, Google peut fournir dans les résultats de recherche un lien permettant d'accéder à une traduction. Avec cette balise meta "nostranslate", vous interdisez à Google de fournir une traduction de votre page.

<meta name="google" content="notranslate">

La valeur "unavailable_after" permet de préciser l'heure et la date exactes auxquelles l'exploration et l'indexation de la page doivent cesser :

<meta name="google" content="unavailable_after:[date]">

noimageindex permet d'indiquer que vous ne souhaitez pas faire apparaître votre page comme source d'une image apparaissant dans les résultats de recherche :

<meta name="google" content="noimageindex">

Yahoo!

Pour cibler Yahoo! :

<meta name="Slurp" content="xxxx">

Comme la valeur "noodp", la valeur "noydir" empêche Yahoo! d'utiliser le titre et la description provenant de l'annuaire Yahoo! Directory.

<meta name="robots" content="noydir">

Bing

Pour cibler Bing / MSN :

<meta name="msnbot" content="xxxx">
<meta name="bingbot" content="xxxx">