Archive pour juin 2007

Les limites du sitemap (2/3)

Vendredi 29 juin 2007

Comment le fichier sitemap aide mon site web ?

Habituellement, les crawlers du web découvrent les nouvelles pages web à partir de liens faits par d’autres sites web. Le fichier sitemap permet aux crawlers qui supportent ce protocole de collecter en une fois toutes ces informations ainsi que les meta-données associées.
Le fichier sitemap vous permet d’informer les moteurs de recherche à propos des pages de votre site web. Il est souvent plus facile pour les moteurs de recherche de trouver toutes vos pages web si vous utilisez un fichier sitemap.

Est-ce qu’un fichier sitemap est indispensable à un bon référencement ?

De manière générale un site web bien construit n’a pas besoin de fichier sitemap. Utiliser le protocole sitemap ne garantit pas que vos pages web seront intégrées aux index des moteurs de recherche, mais cela facilite grandement et améliore la qualité du travail des crawlers.

Le fichier sitemap ne sert à rien, alors ?

Non, en plus de favoriser une indexation optimale, il est souvent incontournable. Il répond à des problématiques particulières liées à l’emploi de technologies spécifiques (flash, javascript, etc …) ou encore aux sites web de plusieurs milliers de pages.

Est-ce qu’un fichier sitemap améliore mon positionnement dans les moteurs de recherche ?

Il faut bien prendre garde à ne pas confondre indexation et positionnement dans les résultats de recherche. Indexation veut dire présent dans la base de données des moteurs de recherche. Or, une page web ne peut en aucun cas sortir dans les résultats de recherche, si elle n’est pas indexée.

Un sitemap aide les moteurs de recherche à trouver vos pages web mais ne vous aide pas à obtenir un meilleur positionnement dans les moteurs de recherche. Quand les moteurs de recherche indexent vos pages, ils doivent trouver des pages au contenu optimisé et de bons backlinks. Les moteurs de recherche vous positionneront bien uniquement si vous avez les deux.

Le sitemap, Kezako ? (1/3)

Vendredi 29 juin 2007

Exister pour un moteur de recherche, ça veut dire être indexé dans sa base de données. Le sitemap est une technique qui facilite le travail d’indexation des moteurs de recherche. Cette techniques est approuvée officiellement par les moteurs de recherche majeurs : Google, Yahoo, MSN Live et Ask. Le fichier sitemap permet à un webmaster d’indiquer aux moteurs de recherche comment indexer son site web. L’indexation de son site web est donc, en général, plus conforme à ses attentes.

Les crawlers

Un crawler est un robot (aussi appelé bot ou spider) qui parcourt le web et récupère automatiquement les pages web visitées. Les moteurs de recherche ont des crawlers qui se chargent du travail d’indexation. Le crawler de Google s’appelle GoogleBot alors que celui de Yahoo s’appelle Yahoo Slurp.

A chaque fois qu’un crawler visite une page web, il en fait l’analyse, en extrait les liens vers d’autres pages web et les indexe dans sa base de données. Quelques temps plus tard, il visite les pages nouvellement indéxées et réitère l’opération.

C’est ce qu’on pourrait appeler l’indexation naturelle. Il est néanmoins possible de devancer ce processus, à l’aide du protocole sitemaps.

Le protocole sitemaps

En novembre 2006, Google, Yahoo et Microsoft Live Search se sont mis d’accord pour supporter le protocole sitemaps (avec un s). Le protocole sitemaps est un standard qui peut vous aider à soumettre l’ensemble de vos pages web aux moteurs de recherche.

Ask a récemment rejoint Google, Yahoo et Microsoft. Désormais les 4 principaux moteurs de recherche supportent le protocole sitemaps.

Le fichier sitemap

Le protocole sitemaps s’implémente côté webmaster sous la forme d’un fichier sitemap. Les fichiers sitemap sont un moyen facile pour les webmasters d’informer les moteurs de recherche sur les pages de leurs sites web qui sont prêtes à être crawlées. C’est un format XML standard qui facilite la création d’un fichier sitemap compréhensible par tous les moteurs de recherche.

Les moteurs de recherche peuvent désormais détecter automatiquement votre fichier sitemap, nous verrons cela dans un prochain article.

Le nom de domaine

Dimanche 24 juin 2007

Pour aller droit au but, nous dirons qu’un nom de domaine à soi est chose quasi-incontournable pour un référencement digne de ce nom.

Hébergement gratuit ou payant ?

Il existe foule d’hébergeurs gratuits avec des niveaux de qualité de service variables. Il est possible d’y recourir au début d’un projet « pour voir ». Néanmoins votre crédibilité est sérieusement entachée. En effet, un hébergement professionnel est un investissement peu coûteux (moins de 50 euros à l’année). Si vous n’êtes pas prêt à faire cet effort, n’attendez pas de vos visiteurs qu’ils en fassent davantage et achètent vos produits. Vous montrez par là que vous ne croyez pas à ce que vous faîtes.

Enfin, votre référencement s’en trouvera nettement amélioré. Vous aurez un nom de domaine qui colle à votre activité, vous pourrez créer vos propres sous-domaines, organiser vos fichiers et répertoires (ce que nous verrons dans un prochain article) à votre guise, mettre en place l’url-rewriting (ce que nous verrons aussi dans un prochain article). En bref, vous pourrez faire tout ce qui profite à un bon référencement.

Pour vous en convaincre à la date du 20 juin 2007, Google renvoyait pour le mot-clé sport en Pages francophones les résultats suivants :

1 http://www.sport.fr/ domaine
2 http://fr.sports.yahoo.com/ sous-domaine
3 http://www.sport24.com/ domaine
4 http://www.lequipe.fr/
5 http://www.sports.fr/ domaine
6 http://fr.wikipedia.org/wiki/Sport répertoire
7 http://www.myfreesport.fr/ domaine
8 http://www.sport-plus.fr/ domaine
9 http://sport.aol.fr/ sous-domaine
10 http://www.lefigaro.fr/sport/ répertoire

9 sur 10 contiennent le mot sport dans l’url, 5 sur 10 l’ont dans leur nom de domaine, 2 sur 10 dans un sous-domaine, 1 sur 10 en répertoire et 1 sur 10 en fichier. Eloquent, non ?

Attention, avoir le mot-clé dans l’url ne suffit pas à être bien positionné. Il est nécessaire d’avoir un bon contenu, de bons backlinks, etc … Mais à optimisation égale, l’efficacité est radicale.

Choix du nom de domaine

Il faut lever un maximum d’obstacles dans la promotion de vos produits. Le nom de domaine se doit donc d’être simple et facile à retenir. Dans la mesure où vous disposez de peu de caractères (maximum 20 et c’est déjà beaucoup), vous ne pourrez pas y placer beaucoup de mots-clés, il faut donc bien les choisir. Il est impératif que votre nom de domaine soit centré sur votre activité.

Les sites web sur le sport du classement précédent sont instructifs http://www.sport.fr/ , http://www.sport24.com/ , http://www.myfreesport.fr/ , http://www.sport-plus.fr/ , etc …

Nous avons vu avec http://www.myfreesport.fr que Google détecte les mots-clés “collés” dans les urls. Cependant, la prudence reste de rigueur car il n’en est pas forcément de même pour tous les moteurs de recherche. Le séparateur le plus approprié est le tiret “-”, comme dans http://www.sport-plus.fr/. Le séparateur underscore “_” est à proscrire.

Le TLD

Le TLD (Top Level Domain) sont les extensions du type .com, .org, .net, .fr, etc … Ces extensions ne sont pas sans valeurs. De manière générale, il est préférable de choisir une extension adaptée à vos besoins. Si vous vous adressez à un public francophone, le .fr est adapté et sera probablement un facteur favorisant votre référencement sur les versions françaises des moteurs de recherche. Le .com est très intéressant pour les sites multilingues ou pour la simple raison que l’internaute a tendance à rajouter spontanément un .com.

On notera, parmi les sites web sur le sport du classement précédent, le manque de cohérence de http://www.myfreesport.fr/ qui associe l’anglais à un tld en .fr.

Les sous-domaines

Il est peu probable que vous trouviez un hébergement gratuit vous offrant la possibilité de créer des sous-domaines à votre guise. Prenez néanmoins garde à l’hébergement payant que vous choisissez, car tous ne le permettent pas.

Les sous-domaines sont intéressants à plus d’un titre. Ils sont une occasion supplémentaire de placer des mots clés dans vos urls. Apparemment, les mots-clés en sous-domaine sont plus efficaces que ceux dans les répertoires et les fichiers. Google considère que chaque sous-domaine est un site différent. De ce fait, les liens entre ces sous-domaines sont considérés comme des backlinks externes (venant d’un autre autre site web, ce qui est meilleur qu’un backlink interne, venant du même site web).

Pour un site web sur le sport, on pourra définir un sous-domaine spécifique par sport : football.sport-plus.fr, natation.sport-plus.fr, golf.sport-plus.fr, etc …

Les urls

Dimanche 24 juin 2007

L’optimisation des urls est un critère majeur. Le choix de bonnes urls est capital pour un bon référencement.

Anatomie d’une url

Une url se compose de plusieurs éléments. Nous ne verrons ici qu’une présentation simplifiée (plus de détails). Pour notre propos, nous nous intéresserons seulement aux éléments qui nous importent :

  • le sous-domaine (facultatif),
  • le nom de domaine (obligatoire),
  • le tld (Top Level Domain) (obligatoire),
  • le nom du répertoire (facultatif),
  • et le nom du fichier (facultatif).

Dans l’url http://sport.ados.fr/news/guy-roux-de-retour-sur-les-terrains_article5263.html on a,

  • le sous-domaine sport,
  • le nom de domaine ados.fr,
  • le tld (Top Level Domain) fr,
  • le nom des répertoires news,
  • et le nom du fichier guy-roux-de-retour-sur-les-terrains_article5263.html.

Décompte et densité dans une url

Comment fonctionnent décompte et densité avec les urls ?

Décompte

Le mot-clé sport apparaît

  • 0 fois dans l’url suivante : http://www.lequipe.fr/ .
  • 1 fois dans les urls suivantes : http://www.sports.fr/ , http://fr.wikipedia.org/wiki/Sport , http://sport.aol.fr/ .
  • 2 fois dans les urls suivantes : http://www.sports.fr/sport.html , http://sport.aol.fr/sport/index.html .

Densité

Le mot-clé sport apparaît

  • 0 fois dans l’url suivante : http://www.lequipe.fr/ et l’url contient 3 mots : www, lequipe, fr , la densité est donc de 0/3 = 0.
  • 1 fois dans l’url suivante : http://fr.wikipedia.org/wiki/Sport et l’url contient 5 mots : fr, wikipedia, org, wiki, Sport la densité est donc de 1/5 = 20%.
  • 2 fois dans l’url suivante : http://sport.aol.fr/sport/index.html et l’url contient 6 mots : sport, aol, fr, sport, index, html la densité est donc de 2/6 = 33%.

Pour améliorer la densité d’un mot-clé, on peut augmenter le décompte ou réduire le nombre total de mots. Rappelez vous, de bonnes valeurs en décompte et densité sont nécessaires pour optimiser vos urls.

En transformant http://sport.aol.fr/sport/index.html en http://sport.aol.fr/sport/sport.html la densité passe à 3/6 = 50% . En transformant http://sport.aol.fr/sport/index.html en http://sport.aol.fr/sport.html la densité passe à 2/5 = 40% .

Problème

Qu’en est-il de l’url http://www.myfreesport.fr pour le mot-clé sport ?
Le décompte est-il à 0 ou 1 ? Et la densité est-elle à 0/3 ou 1/3 ?
Apparemment Google détecte le mot sport dans l’url.

google url densité décompte

Pour pouvoir définitivement trancher, il faudrait faire des tests complémentaires. Comme nous le disions dans l’article sur le décompte et la densité, le référencement n’est pas une science exacte.

Optimisation

Optimiser une url sur un mot-clé, c’est améliorer les décompte et densité de ce mot-clé dans l’url. Modifier les urls n’est pas toujours chose facile. Aussi, il est impératif de faire les bons choix dès le départ.

Pour faire cette optimisation, 3 points importants sont à prendre en considération :

  • le nom de domaine,
  • la structure des répertoires et fichiers (arborescence) de votre site web,
  • la réécriture d’urls (url-rewriting).

Nous nous proposons d’aborder chacun de ces points en détail dans 3 articles séparés à paraître prochainement.

2 principes clés de l’optimisation : décompte et densité (IDM)

Samedi 23 juin 2007

Le décompte et la densité font partie des paramètres utilisés par les moteurs de recherche pour juger de la pertinence d’une page web par rapport à un mot-clé. La densité ou IDM (Indice de Densité d’un Mot-clé) semble plus importante que le décompte. Il ne faut néanmoins pas négliger le décompte.

Décompte

Le décompte renvoie simplement au nombre d’occurrence d’un mot-clé dans un texte.

Densité

La densité est un peu plus subtile, mais reste accessible ;-) . C’est le rapport entre le décompte et le nombre total de mots. Elle mesure l’importance de la présence d’un mot-clé par rapport à l’ensemble d’un texte. Si un mot-clé apparaît 2 fois sur un total de 400 mots, il est moins présent que s’il apparaît 1 fois pour un total de 30 mots.

Exemple détaillé

Dans le texte suivant,

Le football, appelé soccer aux États-Unis et au Canada par opposition au football américain et au football canadien, est un sport collectif qui opposent deux équipes de onze joueurs, dont le but est de mettre un ballon sphérique dans le but adverse, sans utiliser les bras. Le football est le sport le plus populaire dans le monde.

Le mot-clé football apparaît à 4 reprises et il y a au total 57 mots. Nous avons donc un décompte de 4 et une densité de 4/57 = 7%, ce qui est très élevé.

Pour améliorer la densité d’un mot-clé, on peut soit augmenter le décompte, soit réduire le nombre total de mots.

Transformons le texte précédant comme suit,

Le football, appelé soccer aux États-Unis et au Canada par opposition au football américain et au football canadien, est un sport opposant deux équipes de onze joueurs, ayant pour but de mettre un ballon dans le but adverse, sans utiliser les bras. Le football est un sport très populaire.

Le mot-clé football apparaît toujours à 4 reprises et il y a au total 49 mots. Nous avons donc un décompte de 4 et une densité de 4/49 = 8.2%, soit un gain de 1.2%, ce qui est encore plus élevé. La signification est très proche mais la densité est meilleure, ce qui favorise davantage un bon référencement.

Pour terminer

Le référencement n’est pas une science exacte. Les moteurs de recherche se gardent bien de livrer le secret de leurs algorithmes. Nous nous trouvons face à des boîtes noires et seule l’expérimentation fournit des pistes sérieuses. La plupart des conseils relèvent donc de l’expérience, d’observations et de tests.

Ces 2 critères de décompte et densité sont valables pour toutes les balises html : title, a/href, img/alt, h1, strong, etc … Ils le sont également pour les urls. De manière générale pour un bon référencement, il faut un décompte et une densité supérieurs à la moyenne (des meilleurs, soit le top 10) pour les mots-clés visés, sans toutefois tomber dans l’excès (spamdexing, parfois pénalisé en terme de positionnement).

GnoZtiK - onglet Url : position, page, pagerank, backlinks, html

Mardi 19 juin 2007

GnoZtiK propose d’abord un récapitulatif des indicateurs majeurs pour votre référencement :

  • la place (en position et en page) dans les résultats de recherche de Google conseils,
  • le pagerank et entre parenthèses la moyenne des 100 premiers,
  • les backlinks et entre parenthèses la moyenne des 100 premiers,
  • la pertinence HTML et entre parenthèses la moyenne des 100 premiers.

Ces informations permettent de voir rapidement, où est votre page web et comment se situe son optimisation par rapport aux 100 premiers.

Par exemple, pour le mot-clé graveur, on relève dans l’onglet URL pour la page http://www.tt-hardware.com/modules.php?name=News&File=article&sid=10481 (position 36 au 31/05/07 sur Google - Pages francophones), le récapitulatif suivant :

url position page pagerank backlinks html

tt-hardware.com est presque (inférieur) au niveau moyen des 100 premiers en pagerank.

tt-hardware.com souffre d’un gros déficit en backlinks. La page est très en dessous du niveau moyen des 100 premiers.

Enfin, tt-hardware.com est presque (inférieur) au niveau moyen des 100 premiers en pertinence HTML.

Le pronostic ne doit pas être trop difficile à faire.

GnoZtiK - onglet Url : le tableau des conseils

Mardi 19 juin 2007

En référencement, seules les 3 premières pages des résultats de Google sont intéressantes (uniquement la première selon certains). Le tableau des conseils permet de voir rapidement ce que peut faire votre page web pour se placer sur chacune des pages 1, 2 et 3 des résultats de Google. Pour chacune de ces pages, il y a une ligne dans laquelle sont indiqués l’effort objectif à fournir en backlinks, l’effort objectif à fournir en HTML, la difficulté objective et enfin le conseil subjectif de GnoZtiK.

Les conseils GnoZtiK sont de 3 types : « Persévérez », « Spécialisez » ou « Abandonnez ». « Persévérez » indique que le but est à votre portée. « Abandonnez », indique que vos efforts seront probablement vains. Enfin, « Spécialisez » vous invite pour plus d’efficacité à cibler un mot-clé proche. Le conseil étant subjectif, vous êtes libre de ne pas le suivre.

Par exemple, pour le mot-clé graveur, on relève dans l’onglet URL pour la page http://www.tt-hardware.com/modules.php?name=News&File=article&sid=10481 (position 36 au 31/05/07 sur Google - Pages francophones), le tableau des conseils suivants :

url tips

tt-hardware.com doit pouvoir gagner quelques places de sorte à se retrouver sur la 3ème page des résultats de Google.

Par contre, GnoZtiK indique qu’il est vain de tenter de se positionner sur la 1ère page des résultats de Google.

Quant à la 2ème des résultats de Google, elle ne semble accessible qu’en spécialisant le mot-clé.

GnoZtiK - onglet Url : la réglette

Mardi 19 juin 2007

Une image vaut mieux que mille mots disent les chinois. La réglette permet d’appréhender rapidement la situation de votre page web : position, potentiel, menace, conseil, etc …

Par exemple, pour le mot-clé graveur, on relève dans l’onglet URL pour la page http://www.tt-hardware.com/modules.php?name=News&File=article&sid=10481 (position 36 au 31/05/07 sur Google - Pages francophones), la réglette suivante :

onglet url reglette

tt-hardware.com est en position 36. Cependant la page est menacée, si rien n’est fait, elle risque fort de se retrouver aux alentours de la 9ème page des résultats de Google, qui est sans intérêts pour le référencement. En faisant un effort, tt-hardware.com doit pouvoir gagner quelques places de sorte à se retrouver sur la 3ème page des résultats de Google.

Par contre, GnoZtiK indique qu’il est vain de tenter de se positionner sur la 1ère page des résultats de Google. Quant à la 2ème des résultats de Google, elle ne semble accessible qu’en spécialisant le mot-clé.

GnoZtiK - onglet Url : le Tagcloud

Mardi 19 juin 2007

Le tagcloud renvoie au contenu HTML de votre page web. Il donne une représentation graphique mettant en évidence la thématique de votre page web. Il est impératif que ce contenu soit en rapport avec le mot-clé convoité. De manière générale, plus un mot a d’importance (au sens des moteurs de recherche) dans votre page web, plus il apparaît gros. Attention, les tags HTML n’ont pas tous la même valeur en référencement. Ce tagcloud en tient compte.

Par exemple, pour le mot-clé graveur, on relève dans l’onglet URL pour la page http://www.gravure-news.com/visunews.php?n=2748 (position 49 au 31/05/07 sur Google - Pages francophones), le tagcloud suivant :

url tagcloud

Les mots-clés les plus présents sont donc : graveur, externe, memorex, droppix, … ce qui colle avec le mot-clé graveur. Ce sont les mots dominants côté contenu HTML.

Les mots colorés en vert sont utiles lorsque vous peinez à vous positionner sur le mot-clé en cours d’analyse. Ils vous permettent de construire un nouveau mot-clé connexe au mot-clé initial mais davantage ciblé de sorte à limiter la concurrence sur ce nouveau mot-clé et augmenter vos chances de drainer un trafic encore plus ciblé. Ces mots colorés en vert donne donc des pistes pour des mots-clés plus ciblés.

Dans le même exemple, si gravure-news.com peine à mieux se positionner sur le mot-clé graveur, il est possible de construire un nouveau mot-clé à partir de graveur et de l’un des mots colorés en vert dans le Tagcloud. Pour le mot-clé graveur memorex, on constate que gravure-news.com est en 18ème position le 19/06/07 sur Google - Pages francophones. Pour le mot-clé graveur externe, on constate que gravure-news.com est en 13ème position le 19/06/07 sur Google - Pages francophones. Un petit effort devrait permettre de se placer en première page de Google - Pages francophones.

GnoZtiK - onglet “Pour aller plus loin” : les urls à étudier

Mardi 19 juin 2007

Lorsque le cas se présente, GnoZtiK vous propose d’étudier des urls particulières. Elles se divisent en 2 groupes :

  • Les urls mieux positionnées que votre page web avec un contenu HTML comparable mais avec moins de backlinks et un pagerank inférieur ou égal,
  • Les urls moins bien positionnées que votre page web avec un contenu HTML comparable mais avec plus de backlinks et un pagerank supérieur ou égal.

Dans les 2 cas, pour que les pages soient comparables en pagerank et backlinks, leur contenu HTML doit être proche de celui de votre page web.

Ces pages web sont particulières car leur position n’est manifestement pas en adéquation avec leurs caractéristiques. En règle générale, une page ayant plus de backlinks et un meilleur pagerank est mieux classée et inversement. Cette situation peut avoir plusieurs explications relatives aux backlinks :

  • les pagerank des backlinks sont faibles (backlinks peu crédibles),
  • le texte des backlinks est sans rapport avec le mot-clé étudié.

Par exemple, en étudiant le 49ème du classement pour la requête “word of warcraft“, il apparaît que la page qui est à la 17ème place ne dispose que de 19 backlinks (contre 6840 pour le 49ème). Ses backlinks sont probablement de très bonne qualité.

onglet “pour aller plus loin” - les meilleures pages

A l’inverse, en étudiant le 5ème du classement pour la requête “outil référencement” (position 5), il apparaît que la page qui est en 11ème place dispose de 407 backlinks (contre 12 pour le 5ème) et d’un pagerank de 5 (contre 4 pour le 5ème). Les backlinks de cette page souffrent probablement d’un pagerank trop faible ou d’un texte inadéquat.

onglet “pour aller plus loin” - moins bonnes pages