Archive pour juillet 2007

Le fichier sitemap en détail (3/3)

Dimanche 1 juillet 2007

Le sitemap, ça ressemble à quoi ?

Dans sa forme la plus simple, un sitemap est un fichier XML qui liste les urls d’un site web avec en plus quelques meta-données renseignant chaque url :

  • la date de sa dernière mise à jour,
  • selon quelle fréquence change l’url,
  • son importance relativement aux autres urls du site.

Ces informations aident les moteurs de recherche à crawler votre site web intelligemment.

Ce qui donne dans votre fichier XML sitemap.xml,

Code XML :

<?xml version='1.0' encoding='UTF-8' ?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
   <url>
      <loc>http://www.mon-site-web.com</loc>
      <lastmod>2007-06-03</lastmod>
      <changefreq>weekly</changefreq>
      <priority>1.0</priority>
   </url>
   <url>
      <loc>http://www.mon-site-web.com/une-page.html</loc>
      <lastmod>2007-05-15</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.1</priority>
   </url>
   <url>
      <loc>http://www.mon-site-web.com/autre-page.html</loc>
      <lastmod>2007-06-06</lastmod>
      <changefreq>dayly</changefreq>
      <priority>0.1</priority>
   </url>
   ...
</urlset>
</xml>

Comme nous le verrons par la suite, la plupart des balises sont optionnelles.

Les différentes balises de votre fichier sitemap

Urlset

Le tag urlset précise la version du standard XML sitemap utilisée. La valeur renvoie à une url qui décrit le format utilisé dans le fichier courant. Dans la mesure où le standard peut évoluer, ce tag permet de faire cohabiter des anciennes versions du standard avec la dernière sans que cela ne pose problème. Il est donc inutile de mettre à jour son fichier sitemap lorsque le standard évolue, à moins de vouloir profiter des nouvelles fonctionnalités que celui-ci propose.

Ce tag est obligatoire.

Url

Le tag url regroupe l’ensemble des informations concernant une unique url ou page web. Il en faut donc un par url ou page web décrite dans le fichier sitemap (sitemap.xml).

Ce tag est obligatoire.

Loc

<loc>http://www.mon-site-web.com</loc>

Le tag loc précise l’url courante, ici http://www.mon-site-web.com.

Ce tag est, bien entendu, obligatoire.

Lastmod

<lastmod>2007-06-03</lastmod>

Le tag lastmod précise la date de dernière mise à jour de l’url courante.
Cette date doit nécessairement être au format AAAA-MM-JJ, ici 2007-06-03, soit le 3 juin 2007.

Ce tag est optionnel. Il est donc possible de s’en passer parfois ou même toujours.

Changefreq

<changefreq>weekly</changefreq>

Le tag changefreq précise avec quelle fréquence change l’url courante.
Il peut prendre les valeurs always, hourly, dayly, weekly, monthly, yearly, never pour respectivement toujours (à chaque nouvel accès à l’url courante), chaque heure, chaque jour, chaque semaine, chaque mois, chaque année, ou jamais (pour les urls archivées), ici weekly, soit chaque semaine.

Ce tag est optionnel. Il est donc possible de s’en passer parfois ou même toujours.

Priority

<priority>1.0</priority>

Le tag priority précise l’importance de l’url courante relativement aux autres urls du même site (priority = 0.1, 1.0, etc…). Sa valeur varie de 0.0 (priorité faible) à 1.0 (priorité forte).

Ce tag est optionnel. Il est donc possible de s’en passer parfois ou même toujours. Si il est absent alors la valeur par défaut est 0.5. dans le cas présent, la valeur 1.0 indique une forte priorité.

Qu’est-ce que je fais de mon fichier sitemap ?

Les 4 principaux moteurs de recherche Google, Yahoo, MSN Live Search et Ask vérifient régulièrement les fichiers robots.txt des sites web. L’ajout d’une ligne dans ce fichier suffit alors pour indexer votre fichier sitemap.

Ce qui donne dans votre fichier robots.txt.
Sitemap: http:/www.mon-site-web.com/sitemap.xml

Attention, le fichier robots.txt doit se trouver à la racine de votre site web.
http:/www.mon-site-web.com/robots.txt

Vous pouvez néanmoins devancer leurs visites en soumettant directement vos fichiers sitemap à Google, Yahoo et Ask. Pour Google et Yahoo, il vous faudra un compte. Alors que pour Ask, il suffit de pinger l’url qui suit avec l’adresse de votre sitemap en paramètre http://submissions.ask.com/ping?sitemap=http%3A//www.mon-site-web.com/mon-sitemap.xml.

Le protocole sitemap peut vous aider à informer les moteurs de recherche à propos de vos pages web. Rappelez-vous, une indexation réussie est la première étape d’un référencement réussi. Vous trouverez davantage d’informations à propos du nouveau standard sitemap sur le site web officiel du sitemap. Il peut également être intéressant de visiter la page sitemap de Google et la page indexation de Ask.