Sitemap index XML

Pour rappel, un fichier sitemap ne peut lister qu'au maximum 50 000 URL et sa taille ne peut dépasser les 10 Mo.

Pour gagner en bande passante, il est possible de gziper le fichier sitemap.xml. En revanche, une fois décompressé la taille du fichier sitemap.xml ne doit pas excéder 10 Mo.

Si vous voulez lister plus de 50 000 URL, il est nécessaire de créer plusieurs fichiers sitemap.

Si vous crééz plusieurs fichiers sitemap, il est préconisé de les répertorier dans un fichier appelé sitemap index ("sitemap parent"). Les sitemaps index peuvent répertorier jusqu'à 50 000 sitemaps classiques et, comme ceux-ci, ne doit pas avoir une taille exédant les 10 Mo.

Le fichier sitemap index doit :

  • Commencer par une balise <sitemapindex> et terminer par </sitemapindex>
  • Inclure pour chaque sitemap une entrée <sitemap>
  • Inclure une entrée enfant <loc> pour chaque balise parent <sitemap>
  • La balise facultative <lastmod> est également disponible pour les fichiers sitemap index

A noter également qu'un fichier sitemap index ne peut référencer que des sitemaps disponibles sur le même site que lui.

Exemple de fichier sitemap index

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
	<sitemap>
		<loc>http://www.mon-domaine.fr/sitemap1.xml.gz</loc>
		<lastmod>2012-12-15</lastmod>
	</sitemap>
	<sitemap>
		<loc>http://www.mon-domaine.frsitemap2.xml.gz</loc>
		<lastmod>2012-12-15</lastmod>
	</sitemap>
</sitemapindex>

Explication des balises :

  • La balise <sitemapindex> est obligatoire. Elle englobe les informations relatives à l'ensemble des sitesmaps
  • La balise <sitemap> est obligatoire. Elle englobe les informations relatives à un sitemap
  • La balise <loc> est obligatoire. Elle indique l'URL du sitemap
  • La balise <lastmod> est facultative. Elle informe de la date de la dernière modification du sitemap. En indiquant la date et l'heure de la dernière modification, vous permettez aux robots d'exploration des moteurs de recherche de n'extraire de l'index qu'une partie des sitemaps. Ce mécanisme d'extraction incrémentiel de sitemaps permet de découvrir rapidement de nouvelles URL sur des sites très volumineux.

Plus d'informations sur les sitemaps index sur le site sitemaps.org.