Sitemap XML : les balises urlset, url, loc, lastmod, changefreq et priority

Dans un fichier sitemap.xml, certaines balises XML sont obligatoires : <urlset>, <url> ou <loc>. D'autres en revanche sont facultatives et permettent de fournir plus d'informations pour chaque URL : <lastmod>, <changefreq> et <priority>.

Pour rappel, un fichier sitemap XML "classique" s'ordonne de cette manière :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://mon-domaine.fr/</loc>
    <lastmod>2012-12-15</lastmod>
    <changefreq>daily</changefreq>
    <priority>1</priority>
  </url>
  <url>
    <loc>http://mon-domaine.fr/page-a.html</loc>
    <lastmod>2012-12-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Sitemap XML : la balise <urlset>

La balise <urlset> est obligatoire. Elle englobe le fichier sitemap et référence le standard de protocole utilisé.

Sitemap XML : la balise <url>

La balise <url> est également obligatoire. Elle représente la balise parent pour chaque URL référencées.

Sitemap XML : la balise <loc>

La balise <loc> est la dernière des trois balises obligatoires. Elle représente l'URL de la page. Celle-ci doit commencer obligatoirement par l'intitulé du protocole (http://, https://) et ne doit pas comporter plus de 2048 caractères.

Sitemap XML : la balise <lastmod>

La balise <lastmod> est facultative. Elle informe de la date de la dernière modification du fichier/page. Cette date doit être au format date et d'heure du W3C. Pour une question de simplicité, on utilise généralement le format AAAA-MM-JJ

Sitemap XML : la balise <changefreq>

La balise <changefreq> est également facultative. Elle représente la fréquence de modification de la page. Cette valeur fournit aux moteurs de recherche une information générale et est considérée comme une indication, et non comme une commande. Même si les robots d'exploration des moteurs de recherche peuvent tenir compte de cette information, ils ne l'appliquent pas nécessairement de façon stricte.

Les valeurs acceptées sont : "always" (toujours), "hourly" (toutes les heures), "daily" (quotidiennement), "weekly" (hebdomadairement), "monthly" (mensuellement), "yearly" (annuellement) et "never" (jamais).

La valeur "always" (toujours) doit être utilisée pour décrire les documents qui changent à chaque accès. La valeur "never" (jamais) doit être utilisée pour décrire les URL considérées comme étant archivées.

Sitemap XML : la balise <priority>

La balise <priority> est la dernière des trois balises facultatives. Elle représente la priorité d'une page par rapport aux autres du site. Les valeurs acceptées sont comprises entre 0.0 et 1. Par défaut (sans balise <priority>), la priorité d'une page est égale à 0.5.

Cette valeur permet uniquement de signaler aux moteurs de recherche les pages que vous jugez les plus importantes pour les robots d'exploration.