| |
Archive pour la catégorie 'Indexation'
Dimanche 1 juillet 2007
Le sitemap, ça ressemble à quoi ?
Dans sa forme la plus simple, un sitemap est un fichier XML qui liste les urls d’un site web avec en plus quelques meta-données renseignant chaque url :
- la date de sa dernière mise à jour,
- selon quelle fréquence change l’url,
- son importance relativement aux autres urls du site.
Ces informations aident les moteurs de recherche à crawler votre site web intelligemment.
Ce qui donne dans votre fichier XML sitemap.xml,
Code XML :
<?xml version='1.0' encoding='UTF-8' ?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://www.mon-site-web.com</loc>
<lastmod>2007-06-03</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://www.mon-site-web.com/une-page.html</loc>
<lastmod>2007-05-15</lastmod>
<changefreq>monthly</changefreq>
<priority>0.1</priority>
</url>
<url>
<loc>http://www.mon-site-web.com/autre-page.html</loc>
<lastmod>2007-06-06</lastmod>
<changefreq>dayly</changefreq>
<priority>0.1</priority>
</url>
...
</urlset>
</xml>
Comme nous le verrons par la suite, la plupart des balises sont optionnelles.
Les différentes balises de votre fichier sitemap
Urlset
Le tag urlset précise la version du standard XML sitemap utilisée. La valeur renvoie à une url qui décrit le format utilisé dans le fichier courant. Dans la mesure où le standard peut évoluer, ce tag permet de faire cohabiter des anciennes versions du standard avec la dernière sans que cela ne pose problème. Il est donc inutile de mettre à jour son fichier sitemap lorsque le standard évolue, à moins de vouloir profiter des nouvelles fonctionnalités que celui-ci propose.
Ce tag est obligatoire.
Url
Le tag url regroupe l’ensemble des informations concernant une unique url ou page web. Il en faut donc un par url ou page web décrite dans le fichier sitemap (sitemap.xml).
Ce tag est obligatoire.
Loc
<loc>http://www.mon-site-web.com</loc>
Le tag loc précise l’url courante, ici http://www.mon-site-web.com.
Ce tag est, bien entendu, obligatoire.
Lastmod
<lastmod>2007-06-03</lastmod>
Le tag lastmod précise la date de dernière mise à jour de l’url courante.
Cette date doit nécessairement être au format AAAA-MM-JJ, ici 2007-06-03, soit le 3 juin 2007.
Ce tag est optionnel. Il est donc possible de s’en passer parfois ou même toujours.
Changefreq
<changefreq>weekly</changefreq>
Le tag changefreq précise avec quelle fréquence change l’url courante.
Il peut prendre les valeurs always, hourly, dayly, weekly, monthly, yearly, never pour respectivement toujours (à chaque nouvel accès à l’url courante), chaque heure, chaque jour, chaque semaine, chaque mois, chaque année, ou jamais (pour les urls archivées), ici weekly, soit chaque semaine.
Ce tag est optionnel. Il est donc possible de s’en passer parfois ou même toujours.
Priority
<priority>1.0</priority>
Le tag priority précise l’importance de l’url courante relativement aux autres urls du même site (priority = 0.1, 1.0, etc…). Sa valeur varie de 0.0 (priorité faible) à 1.0 (priorité forte).
Ce tag est optionnel. Il est donc possible de s’en passer parfois ou même toujours. Si il est absent alors la valeur par défaut est 0.5. dans le cas présent, la valeur 1.0 indique une forte priorité.
Qu’est-ce que je fais de mon fichier sitemap ?
Les 4 principaux moteurs de recherche Google, Yahoo, MSN Live Search et Ask vérifient régulièrement les fichiers robots.txt des sites web. L’ajout d’une ligne dans ce fichier suffit alors pour indexer votre fichier sitemap.
Ce qui donne dans votre fichier robots.txt.
Sitemap: http:/www.mon-site-web.com/sitemap.xml
Attention, le fichier robots.txt doit se trouver à la racine de votre site web.
http:/www.mon-site-web.com/robots.txt
Vous pouvez néanmoins devancer leurs visites en soumettant directement vos fichiers sitemap à Google, Yahoo et Ask. Pour Google et Yahoo, il vous faudra un compte. Alors que pour Ask, il suffit de pinger l’url qui suit avec l’adresse de votre sitemap en paramètre http://submissions.ask.com/ping?sitemap=http%3A//www.mon-site-web.com/mon-sitemap.xml.
Le protocole sitemap peut vous aider à informer les moteurs de recherche à propos de vos pages web. Rappelez-vous, une indexation réussie est la première étape d’un référencement réussi. Vous trouverez davantage d’informations à propos du nouveau standard sitemap sur le site web officiel du sitemap. Il peut également être intéressant de visiter la page sitemap de Google et la page indexation de Ask.
Publié dans Indexation |
Vendredi 29 juin 2007
Comment le fichier sitemap aide mon site web ?
Habituellement, les crawlers du web découvrent les nouvelles pages web à partir de liens faits par d’autres sites web. Le fichier sitemap permet aux crawlers qui supportent ce protocole de collecter en une fois toutes ces informations ainsi que les meta-données associées.
Le fichier sitemap vous permet d’informer les moteurs de recherche à propos des pages de votre site web. Il est souvent plus facile pour les moteurs de recherche de trouver toutes vos pages web si vous utilisez un fichier sitemap.
Est-ce qu’un fichier sitemap est indispensable à un bon référencement ?
De manière générale un site web bien construit n’a pas besoin de fichier sitemap. Utiliser le protocole sitemap ne garantit pas que vos pages web seront intégrées aux index des moteurs de recherche, mais cela facilite grandement et améliore la qualité du travail des crawlers.
Le fichier sitemap ne sert à rien, alors ?
Non, en plus de favoriser une indexation optimale, il est souvent incontournable. Il répond à des problématiques particulières liées à l’emploi de technologies spécifiques (flash, javascript, etc …) ou encore aux sites web de plusieurs milliers de pages.
Est-ce qu’un fichier sitemap améliore mon positionnement dans les moteurs de recherche ?
Il faut bien prendre garde à ne pas confondre indexation et positionnement dans les résultats de recherche. Indexation veut dire présent dans la base de données des moteurs de recherche. Or, une page web ne peut en aucun cas sortir dans les résultats de recherche, si elle n’est pas indexée.
Un sitemap aide les moteurs de recherche à trouver vos pages web mais ne vous aide pas à obtenir un meilleur positionnement dans les moteurs de recherche. Quand les moteurs de recherche indexent vos pages, ils doivent trouver des pages au contenu optimisé et de bons backlinks. Les moteurs de recherche vous positionneront bien uniquement si vous avez les deux.
Publié dans Indexation |
Vendredi 29 juin 2007
Exister pour un moteur de recherche, ça veut dire être indexé dans sa base de données. Le sitemap est une technique qui facilite le travail d’indexation des moteurs de recherche. Cette techniques est approuvée officiellement par les moteurs de recherche majeurs : Google, Yahoo, MSN Live et Ask. Le fichier sitemap permet à un webmaster d’indiquer aux moteurs de recherche comment indexer son site web. L’indexation de son site web est donc, en général, plus conforme à ses attentes.
Les crawlers
Un crawler est un robot (aussi appelé bot ou spider) qui parcourt le web et récupère automatiquement les pages web visitées. Les moteurs de recherche ont des crawlers qui se chargent du travail d’indexation. Le crawler de Google s’appelle GoogleBot alors que celui de Yahoo s’appelle Yahoo Slurp.
A chaque fois qu’un crawler visite une page web, il en fait l’analyse, en extrait les liens vers d’autres pages web et les indexe dans sa base de données. Quelques temps plus tard, il visite les pages nouvellement indéxées et réitère l’opération.
C’est ce qu’on pourrait appeler l’indexation naturelle. Il est néanmoins possible de devancer ce processus, à l’aide du protocole sitemaps.
Le protocole sitemaps
En novembre 2006, Google, Yahoo et Microsoft Live Search se sont mis d’accord pour supporter le protocole sitemaps (avec un s). Le protocole sitemaps est un standard qui peut vous aider à soumettre l’ensemble de vos pages web aux moteurs de recherche.
Ask a récemment rejoint Google, Yahoo et Microsoft. Désormais les 4 principaux moteurs de recherche supportent le protocole sitemaps.
Le fichier sitemap
Le protocole sitemaps s’implémente côté webmaster sous la forme d’un fichier sitemap. Les fichiers sitemap sont un moyen facile pour les webmasters d’informer les moteurs de recherche sur les pages de leurs sites web qui sont prêtes à être crawlées. C’est un format XML standard qui facilite la création d’un fichier sitemap compréhensible par tous les moteurs de recherche.
Les moteurs de recherche peuvent désormais détecter automatiquement votre fichier sitemap, nous verrons cela dans un prochain article.
Publié dans Indexation |
Dimanche 3 juin 2007
Les facteurs bloquants l’indexation au niveau de la page web sont ceux qui amènent les crawlers à négliger certains liens. Pour leur rendre la tâche facile, il faut faire en sorte que vos pages web soit au gabarit attendu par les crawlers.
Le nombre de liens
Vos pages ne doivent pas avoir plus de 100 liens, une vingtaine maximum est conseillée. Les robots estiment suspecte une page trop chargée en liens.
Le type des liens
Le Javascript
Ces liens ne doivent pas être en Javascript, sous peine de ne pas être indexés par les moteurs de recherche. Ils doivent être en dur :
A éviter, <a href=”javascript:window.open(’http://www.gnoztik.com’);”>logiciel de référencement gratuit</a>
Conseillé, <a href=”http://www. gnoztik.com”>logiciel de référencement gratuit</a>
L’url rewriting
Nettoyez l’url de chacune de vos pages. Les humains y gagneront aussi. Les robots préfèrent indexer une url qui ressemble à
http://www.monsite.com/baladeur-mp3-pas-cher.htm
plutôt qu’à
http://www.monsite.com/produit.php?id=123456§ion_id=123&subsection_id=456
Pour y arriver, on utilise une technique appelée url rewriting. Dans l’état actuel de vos connaissances, il est probable que vous ne sachiez pas en faire usage. Nous l’aborderons donc probablement dans un prochain article.
Le gabarit des pages
Evitez les longues pages. Les robots préfèrent en général les pages plus concises. De cette manière, vous pourrez construire plus de pages à indexer, vous aurez donc d’autant plus de pages candidates à un bon positionnement dans les moteurs de recherche et ces pages du fait de leur contenu thématique plus homogène auront davantage de chance d’être bien positionnées dans les résultats des moteurs de recherche.
Publié dans Indexation |
Samedi 2 juin 2007
Les facteurs bloquants l’indexation au niveau du site web sont ceux qui gênent la circulation des crawlers. Pour leur rendre la tâche facile, il faut faire en sorte que votre site web soit aisément parcourable en tout sens.
Le maillage
Chaque page de votre site web est importante. Elles doivent toutes être facilement accessibles aux moteurs de recherche. Pour ce faire, il vous faut organiser le maillage de votre site. Faîtes donc en sorte que chacune de vos pages soit :
- à moins de 3 clics de la page d’accueil,
- accessible à partir de plusieurs autres.
Ces deux mesures augmenteront ses chances d’indexation.
Travaillez la hiérarchie de votre site. N’hésitez pas à classer vos pages en catégories et sous catégories, vous arriverez ainsi à vos fins.
La page d’accueil
Votre page d’accueil est primordiale, mais ce n’est pas une raison suffisante pour négliger les autres pages. Vous pouvez considérer chaque page comme une porte d’entrée pour votre site, donc un point à partir duquel peut commencer l’indexation de votre site web.
Si on revient au point précédent, le maillage, on constate que la tâche se complique. En effet, si toute page peut-être virtuellement page d’accueil, il faut alors que toute autre page soit à moins de 3 clics. Autrement dit, à partir de n’importe quelle page, on doit pouvoir atteindre n’importe quelle autre page en moins de 3 clics.
Le cas des blogs est exemplaire. Ils réussissent tous cette tâche à merveille.
Le plan du site
Une solution pour prendre en considération les 2 critères précédents, est de concevoir une page spécifique plan du site. Cette page référencera de manière cohérente, un peu comme une table des matières, chaque page de votre site web. Enfin, cette page sera référencée par chaque page de votre site web, dans le pied de page par exemple. Cette technique fait l’unanimité parmi les spécialistes.
ATTENTION, le lien vers votre plan du site doit être un lien en dur (facile à suivre par les crawlers des moteurs de recherche). Pareillement votre plan du site doit être constitué de liens en dur. Dans le cas contraire, tous vos efforts seront vains.
N’oubliez pas que cette technique est surtout à destination des moteurs de recherche pour faciliter l’indexation de votre site web. Néanmoins, elle est souvent très utile à l’internaute désireux de se repérer dans un site web. Il est donc préférable de la soigner.
Publié dans Indexation |
Samedi 2 juin 2007
Le problème de ces technologies est qu’elles rendent difficile la lecture des urls qu’elles contiennent. Autrement dit, si une page de votre site web n’est accessible qu’à partir de ressources de ce type, il y a de fortes chances que cette page ne soit jamais indexée, donc jamais visitée par les moteurs de recherche.
Le format Flash
Le Flash est probablement la pire de toute, car illisible par la plupart des moteurs de recherche.
Le recours au Flash occasionne une double perte. D’une part, les liens ne seront pas suivis, donc les pages pointées par ces liens non indexées (à moins qu’elles ne soient pointées ailleurs via un lien “en dur”). Et d’autre part, la valorisation du texte du lien ne sera pas prise en compte ce qui représente une perte en matière d’optimisation de code HTML.
A cela s’ajoute la lourdeur de cette technologie. Nombreux sont les internautes qui quittent un site web avant d’avoir terminé le téléchargement de l’animation flash de la page d’accueil. N’oubliez pas que vous devez convaincre en moins de 10 secondes.
Le Javascript
Le Javascript reste délicat pour la plupart des moteurs de recherche. En général, ils ne lisent pas son contenu. La prudence invite donc à s’en passer pour la mention des urls, car elles leurs seront illisibles, donc inaccessibles. Pour le reste, il n’y a pas de mal à y recourir.
A éviter, <a href=”javascript:window.open(’http://www.gnoztik.com’);”>logiciel de référencement gratuit</a>
Conseillé, <a href=”http://www.gnoztik.com”>logiciel de référencement gratuit</a>
Comme pour le Flash, le recours au Javascript pour la mention des urls engendre une double perte. D’une part, les liens en Javascript ne seront pas suivis, donc les pages pointées par ces liens non indexées (à moins qu’elles ne soient pointées ailleurs via un lien “en dur”). Et d’autre part, la valorisation du texte du lien ne sera pas prise en compte ce qui représente une perte en matière d’optimisation de code HTML.
On évitera donc les obstacles que sont les roll-over, les pop-up, les menus dont les liens sont faits en Javascript, etc…
Les Frames
Les frames sont accessibles aux crawlers des moteurs de recherche. Cependant, chaque frame est perçue comme une page web différente. Autrement dit, les crawlers indexeront autant de pages web qu’il y a de frames contenues dans vos pages web. Le contenu de vos pages sera donc éclaté et les internautes risquent fort d’arriver sur des pages incohérentes parce qu’incomplètes.
L’usage de Frames est donc peu recommandé, néanmoins cette technologie étant obsolète, il nous semble vain de nous y attarder.
Publié dans Indexation |
Jeudi 31 mai 2007
Comme nous le disions dans un précédent article, rien ne vaut une indexation naturelle. Deux types de facteurs sont à prendre en considération : les facteurs bloquants, et les facteurs favorisants.
Les facteurs bloquants de l’indexation
Les facteurs bloquants l’indexation sont ceux qui concernent tout ce qui est susceptible de freiner l’indexation de votre site web. Autrement dit, il vous faut faciliter la tâche des moteurs de recherche, en évitant notamment certaines erreurs qui peuvent vous coûter très cher, au sens propre (si vous êtes E-commerçant) comme au sens figuré. Il est impératif de s’occuper d’eux en premier lieu.
On prendra notamment garde à éviter :
- de recourir à certaines technologies (Flash, Javascript),
- les erreurs à l’échelle du site (mauvais maillage),
- les erreurs au niveau des pages (liens sortants trop nombreux, poids des pages excessifs),
- les erreurs au niveau des urls (urls illisibles).
Nous détaillerons chacun de ces points dans un prochain article.
Les facteurs favorisants l’indexation
Les facteurs favorisants l’indexation sont ceux qui concernent tout ce qui est susceptible de faciliter l’indexation de votre site web. De manière générale, ils permettent une indexation personnalisée donc plus conforme aux besoins de votre site web. Ils sont toujours un atout supplémentaire mais ne sont pas incontournables pour la plupart des sites web. Ils répondent souvent à des problématiques particulières liées à l’emploi de technologies spécifiques ou encore aux sites web de plusieurs milliers de pages.
Nous nous arrêterons en particulier sur :
- le sitemap,
- le fichier robots.txt .
Nous nous proposons d’aborder en détail ces facteurs dans un prochain article.
Publié dans Indexation |
Jeudi 31 mai 2007
Les crawlers
Un crawler est un robot (aussi appelé bot ou spider) qui parcourt le web et récupère automatiquement les pages web visitées. Les moteurs de recherche ont donc des crawlers qui se chargent de ce travail d’indexation. Le crawler de Google s’appelle GoogleBot alors que celui de Yahoo s’appelle Yahoo Slurp.
A chaque fois qu’un crawler visite une page web, il en fait l’analyse, en extrait les liens vers d’autres pages web et les indexe dans sa base de données.
Connaître leur fonctionnement, permet de lever tout obstacle susceptible de freiner l’indexation de votre site web. Le but ici est de leur faciliter la tâche.
La soumission manuelle
La manière la plus conventionnelle pour signaler votre site web à un moteur de recherche est la soumission manuelle. Ci-dessous les adresses des formulaires de soumission :
Il n’y a plus qu’à remplir les formulaires en y indiquant l’adresse des pages de votre site web.
Dois-je soumettre toutes les pages de mon site web ?
Vous pouvez ne soumettre que votre page d’accueil. Dans ce cas, vous devrez compter sur le travail du moteur pour indexer le reste de vos pages. En général, il ne tarde pas à la visiter, à en faire l’analyse, à en extraire les liens qui pointent vers l’intérieur de votre site web et à les indexer dans sa base. Si tout se passe bien, quelque temps plus tard, il fait de même avec les liens indexés à l’étape précédente, et ainsi de suite, jusqu’à crawler l’intégralité de votre site web. Avec un peu de patience, l’intégralité de votre site web sera crawlé.
Vous pouvez aussi soumettre toutes les pages de votre site web. Le travail est fastidieux mais vous aurez, en contrepartie, la certitude de leur indexation. Bon courage !
Faites comme bon vous semble ! (en fait, ne faîtes ni l’un, ni l’autre)
L’indexation naturelle
Rien ne vaut une indexation naturelle. Nous verrons dans le prochain article que ce n’est pas tout à fait vrai, qu’il est possible de parfaire l’indexation naturelle.
Le mieux reste d’être recommandé par un autre. Si un site web fait un lien vers le votre et que celui-ci est indexé par les moteurs de recherche, l’indexation du votre site web ne tardera pas à commencer. Il vous faut donc pour ce faire, vous faire remarquer par d’autres. C’est doublement efficace. D’une part, les liens signaleront votre site aux moteurs de recherche de manière naturelle. D’autre part, ces mêmes liens vous octroieront un début de popularité. En effet, ces liens ne sont ni plus, ni moins que des backlinks.
Comment vous faire remarquer ?
En publiant des articles sur d’autres sites populaires par exemple. En faisant des échanges de liens avec d’autres sites web apparentés, en créant un buzz autour d’un événement, etc… Il existe de multiples méthodes qui ne sont pas vraiment l’objet de cet article. Ces méthodes relèvent davantage du Web marketing.
L’indexation par le Google Toolbar
Google concentrant de nombreux intérêts, il est intéressant de noter le rôle particulier que peut avoir la Google Toolbar. Lorsque celle-ci affiche le pagerank d’une page, elle envoie à Google l’adresse de la page et la lui soumet indirectement par ce biais. En générant du trafic sur votre site web, vous augmenterez la possibilité d’avoir des visiteurs ayant la fameuse toolbar. Ils soumettront donc les pages de votre site à Google à leur insu. Ce n’est certes pas sa vocation première, néanmoins les spécialistes sont plutôt de cet avis.
Publié dans Indexation |
Vendredi 25 mai 2007
Votre site web existe-t-il selon Google ?
Inutile de faire de vains efforts pour vous référencer, si vous n’existez pas au sens des moteurs de recherche. Exister pour un moteur de recherche, ça veut dire être indexé dans sa base de données.
Comment obtenir cette information ?
La commande site : de Google
Avec Google, pour connaître le nombre de pages indexées du site web http://www.zlio.com, il suffit de taper site:http://www.zlio.com.

Plus de 250 000 pages indexées à la date du 24 mai 2007. C’est pour le moins fameux. Pouvez-vous en dire autant de votre site web ?
La commande site : de Yahoo
Avec Yahoo, pour connaître le nombre de pages indexées du site web http://www.zlio.com, il suffit de taper site:http://www.zlio.com.

Plus de 90 000 pages indexées à la date du 24 mai 2007. Moins que pour Google, mais le score reste enviable.
Pouvez-vous en dire autant de votre site web ?
Publié dans Indexation |
|
|