Archive pour la catégorie 'Indexation'

Tout sur l’indexation

Dimanche 25 janvier 2009

Nombreux sont ceux parmi vous qui nous contactent pour améliorer leur positionnement dans les SERP. Après examen, nous constatons souvent un défaut d’indexation (peu de pages indexées / l’ensemble du site). Ci-dessous, vous trouverez les ressources suffisantes à parcourir dans l’ordre pour régler vos problèmes d’indexation, premier étape à valider avant de pouvoir prétendre à un bon positionnement dans les résultats de recherche des moteurs de recherche.

  1. L’indexation, ou votre existence selon Google
  2. L’indexation, comment ça marche ?
  3. Indexation, les facteurs importants
  4. Indexation, les technologies à proscrire
  5. Indexation, les facteurs bloquants au niveau du site
  6. Indexation, les facteurs bloquants au niveau des pages
  7. L’effet sandbox
  8. Le sitemap, Kezako ? (1/3)
  9. Les limites du sitemap (2/3)
  10. Le fichier sitemap en détail (3/3)
  11. Le fichier robots.txt

Bonne lecture !

Le fichier robots.txt

Jeudi 15 janvier 2009

Le fichier robots.txt est une technologie qui permet de personnaliser l’indexation de votre site web par les crawlers des moteurs de recherche. Elle n’aura pas l’impact que peut avoir le fichier sitemap.xml, elle peut néanmoins vous rendre quelques petits services.

Qu’est ce que le fichier robots.txt ?

Le fichier robots.txt (avec un « s ») est le premier fichier que visitent les crawlers des moteurs de recherche lorsqu’ils commencent à indexer un site web. Dans ce fichier, sont consignés des directives écrites par le webmaster du site web à destination des robots et donc des crawlers des moteurs de recherche. La présence de ce fichier n’a rien d’obligatoire.

Le fichier robots.txt (ou fichier d’exclusion des robots) est le moyen côté webmaster d’implémenter le protocole d’exclusion des robots (Robots Exclusion Protocol).

« Robots Exclusion Protocol », kezako ?

Plus précisément, ce protocole permet aux webmasters de communiquer aux robots (et donc aussi aux crawlers des moteurs de recherche) :

  • les parties (privées) de leurs sites web à ne pas indexer,
  • la vitesse maximale d’indexation souhaitée (directive non standard),
  • ainsi que l’emplacement de leur fichier sitemap.xml (directive non standard).

Ce protocole est issu d’un consensus, il n’a pas valeur d’obligation. Néanmoins, les crawlers des moteurs de recherche s’y astreignent.

Pourquoi s’embarrasser d’un fichier robots.txt ?

Le fichier robots.txt n’est pas une technologie incontournable. Elle peut cependant avoir son utilité. Si vous avez des milliers de pages qu’il n’est pas intéressant de voir indexées, le signaler aux robots via le fichier robots.txt vous permet d’économiser de précieuses ressources (bande passante, cpu, etc.). Les crawlers ne rapatrieront plus inutilement toutes ces pages web. Sachez que lorsque les robots se déchaînent, ils peuvent être gros consommateurs de ressources pour votre serveur web (hébergeur) et pénaliser lourdement dans leur navigation (ralentir) les internautes qui visitent votre site web au même moment.

Le fichier robots.txt n’est visité que par les robots. Si vous surveillez l’indexation de votre site web, c’est un moyen pour vous de savoir quels sont les robots qui vous rendent le plus souvent visite. La consultation de vos fichiers de logs (sur votre serveur web) vous fournira ces informations.

Mise en garde

Le protocole REP n’a pas valeur d’obligation pour les robots. Rendre inaccessible une partie de votre site web via le fichier robots.txt est donc une très mauvaise idée. Le fichier robots.txt est publique, donc accessible à tout robot. N’oubliez pas qu’il en existe aussi de malveillants qui sont à la recherche de failles en tout genre. En signalant les parties privées de votre site web sans autre moyen que le fichier robots.txt pour empêcher d’y accéder, vous encouragez les actes de pirateries sur votre propre site web.

Comment rédiger mon fichier robots.txt ?

Le fichier robots.txt se compose d’un ou plusieurs blocs d’instructions. Chaque bloc contient des directives et éventuellement des commentaires. Les commentaires commencent par le caractère « # » (ils sont ignorés par les robots). Une ou plusieurs lignes vides marquent la fin d’un bloc d’instructions.

Le fichier robots.txt est construit à l’aide de deux directives standards : User-agent et Disallow. Chaque bloc débute par une ou plusieurs directives User-agent suivies par une ou plusieurs directives Disallow. Des commentaires peuvent être placés à n’importe quel endroit.

La directive « User-agent »

Chaque crawler est identifiable par son User Agent (identité qu’il s’est lui-même attribué). A chaque fois qu’il effectue une requête auprès d’un serveur web, il se présente avec son User Agent.


Le crawler de Google a pour User Agent, Googlebot. Tandis que celui de Yahoo a pour User Agent Yahoo Slurp. Pareillement, le crawler de Live Search a pour User Agent msnbot.

Cette directive est une directive standard, elle vous permet d’indiquer à quels crawlers s’adresse le bloc d’instructions qui la suit.

La directive « Disallow »

Cette directive est une directive standard, elle signale quels sont les répertoires ou fichiers qui ne doivent pas être visités.

Exemples

Le caractère « * » est un caractère spécial qui désigne n’importe quel User Agent.


Le bloc d’instructions suivant autorise tout robot à parcourir l’ensemble de votre site web. Ne pas avoir de fichier robots.txt produit le même effet.

Code robots.txt

User-agent: *
Disallow:


Le bloc d’instructions suivant interdit à tout robot de parcourir la moindre partie de votre site web. N’espérez pas être bien positionné dans les SERP !

Code robots.txt

User-agent: *
Disallow: /


Le bloc d’instructions suivant interdit à tout robot l’accès aux répertoires /cgi-bin, /images, /tmp, /private (et à tout ce qu’ils contiennent).

Code robots.txt

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Le nombre de blocs d’instructions n’est pas limité. Vous pouvez en utiliser autant que nécessaire.


Les deux blocs d’instructions suivants interdisent à tout robot, excepté le googlebot, l’accès au répertoire /forum (et à tout ce qu’ils contient).

Code robots.txt

# interdiction à tous les robots d'indexer /forum
User-agent: *
Disallow: /forum

# excepté au googlebot
User-agent: googlebot
Disallow:

Les directives non standards

Il existe des directives non standards comme :

  • Crawl-delay (fixe le délai minimum en secondes entre deux requêtes successives à un serveur web),
  • Allow (accorde une permission à la différence de Disallow),
  • ou Sitemap (indique l’emplacement du fichier sitemap.xml). Elles sont comprises par les principaux crawlers.

    Le bloc d’instructions suivant :

    • fixe à 10 secondes le délai minimum entre deux requêtes successives au serveur web, pour tout crawler,
    • autorise le googlebot à crawler l’intégralité de votre site web,
    • interdit aux autres crawlers l’accès au répertoire /forum (et à tout ce qu’ils contient), excepté le fichier public.html.

Code robots.txt

User-agent: *
Crawl-delay: 10

# restriction pour tous les robots
User-agent: *
Allow: /forum/public.html
Disallow: /forum

# excepté le googlebot
User-agent: googlebot
Disallow:

Diverses propositions vont dans le sens d’étoffer le standard avec de nouvelles directives.

Qu’est ce que je fais de mon fichier robots.txt ?

La présence du fichier robots.txt n’est pas obligatoire. Néanmoins si il existe, il doit nécessairement se trouver à la racine de votre site web pour pouvoir produire son effet. Les crawlers des moteurs de recherche n’iront pas le chercher ailleurs.


Par exemple, pour le site web du logiciel de référencement gratuit GnoZtiK, le fichier est accessible à l’url http://www.gnoztik.com/robots.txt.

Le duplicate content : mécanismes, effets et solutions

Lundi 28 janvier 2008

Tout contenu web en double est susceptible de subir la pénalité dite du « duplicate content ». Une page web qualifiée « duplicate content » voit alors sa capacité de positionnement dans les SERP (Search Engine Result Page) fortement diminuée. Cette pénalité s’applique uniquement à la page web qualifiée « duplicate content » et non à l’ensemble du site web auquel elle appartient.

Appliquez les conseils qui suivent et vous devriez éviter à vos pages web des problèmes de duplicate content.

Pourquoi les moteurs de recherche luttent contre le duplicate content ?

Les moteurs de recherche veulent diversifier autant que possible leurs SERP (résultats de recherche). Pour ce faire, ils tâchent d’éliminer les contenus en double.

Le duplicate content, c’est quoi ?

Vous risquez la pénalité duplicate content lorsque :

  • une ou plusieurs de vos pages web sont identiques ou très proches,
  • une de vos pages web est identique ou très proche d’une page d’un autre site web.

Attention, il n’est pas nécessaire d’avoir deux contenus identiques à 100 % pour se voir appliquer la pénalité du duplicate content.

Comment les moteurs de recherche élisent la page Web qui figurera dans les SERP ?

  1. Lorsque un moteur de recherche trouve une page Web, il la compare aux pages web déjà présentes dans sa base de données. Il détermine ainsi si il existe plusieurs exemplaires (pas nécessairement identiques à 100%).
  2. Les pages Web issues des sites reconnus spammer sont alors retirées de la liste.
  3. Les autres pages Web sont classées en fonction de la quantité et de la qualité de leurs backlinks (liens entrants).
  4. La page web avec les meilleurs backlinks (liens entrants) est retenue pour paraître dans les SERP.

Comment éviter un duplicate content à vos pages Web ?

Masquez vos contenus « en double » aux moteurs de recherche

Si vous possédez différentes version d’un même document (web classique, web mobile, imprimer, etc …), les moteurs de recherche peuvent prendre la mauvaise version (la moins avantageuse) pour leurs SERP.

Ajoutez (dans les headers HTML) une balise META NOINDEX aux versions en double de votre contenu que vous ne voulez pas voir indexer.

<META NAME= »ROBOTS » CONTENT= »NOINDEX, NOFOLLOW »>

Exigez un backlink des sites web qui diffusent votre contenu

Si des sites web tiers reprennent une partie de votre contenu, les moteurs de recherche peuvent favoriser leur version du document plutôt que la vôtre.

Exigez de ces sites web en retour qu’ils créent un lien (backlink) vers le document d’origine (le vôtre) sur leur propre version de votre contenu.

Le duplicate content peut gravement pénaliser votre positionnement dans les SERP (Search Engine Result Page). En mettant en pratique les conseils ci-dessus, les crawlers des moteurs de recherche devraient indexer correctement vos pages web.

Le fichier sitemap en détail (3/3)

Dimanche 1 juillet 2007

Le sitemap, ça ressemble à quoi ?

Dans sa forme la plus simple, un sitemap est un fichier XML qui liste les urls d’un site web avec en plus quelques meta-données renseignant chaque url :

  • la date de sa dernière mise à jour,
  • selon quelle fréquence change l’url,
  • son importance relativement aux autres urls du site.

Ces informations aident les moteurs de recherche à crawler votre site web intelligemment.

Ce qui donne dans votre fichier XML sitemap.xml,

Code XML :

<?xml version='1.0' encoding='UTF-8' ?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
   <url>
      <loc>http://www.mon-site-web.com</loc>
      <lastmod>2007-06-03</lastmod>
      <changefreq>weekly</changefreq>
      <priority>1.0</priority>
   </url>
   <url>
      <loc>http://www.mon-site-web.com/une-page.html</loc>
      <lastmod>2007-05-15</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.1</priority>
   </url>
   <url>
      <loc>http://www.mon-site-web.com/autre-page.html</loc>
      <lastmod>2007-06-06</lastmod>
      <changefreq>dayly</changefreq>
      <priority>0.1</priority>
   </url>
   ...
</urlset>
</xml>

Comme nous le verrons par la suite, la plupart des balises sont optionnelles.

Les différentes balises de votre fichier sitemap

Urlset

Le tag urlset précise la version du standard XML sitemap utilisée. La valeur renvoie à une url qui décrit le format utilisé dans le fichier courant. Dans la mesure où le standard peut évoluer, ce tag permet de faire cohabiter des anciennes versions du standard avec la dernière sans que cela ne pose problème. Il est donc inutile de mettre à jour son fichier sitemap lorsque le standard évolue, à moins de vouloir profiter des nouvelles fonctionnalités que celui-ci propose.

Ce tag est obligatoire.

Url

Le tag url regroupe l’ensemble des informations concernant une unique url ou page web. Il en faut donc un par url ou page web décrite dans le fichier sitemap (sitemap.xml).

Ce tag est obligatoire.

Loc

<loc>http://www.mon-site-web.com</loc>

Le tag loc précise l’url courante, ici http://www.mon-site-web.com.

Ce tag est, bien entendu, obligatoire.

Lastmod

<lastmod>2007-06-03</lastmod>

Le tag lastmod précise la date de dernière mise à jour de l’url courante.
Cette date doit nécessairement être au format AAAA-MM-JJ, ici 2007-06-03, soit le 3 juin 2007.

Ce tag est optionnel. Il est donc possible de s’en passer parfois ou même toujours.

Changefreq

<changefreq>weekly</changefreq>

Le tag changefreq précise avec quelle fréquence change l’url courante.
Il peut prendre les valeurs always, hourly, dayly, weekly, monthly, yearly, never pour respectivement toujours (à chaque nouvel accès à l’url courante), chaque heure, chaque jour, chaque semaine, chaque mois, chaque année, ou jamais (pour les urls archivées), ici weekly, soit chaque semaine.

Ce tag est optionnel. Il est donc possible de s’en passer parfois ou même toujours.

Priority

<priority>1.0</priority>

Le tag priority précise l’importance de l’url courante relativement aux autres urls du même site (priority = 0.1, 1.0, etc…). Sa valeur varie de 0.0 (priorité faible) à 1.0 (priorité forte).

Ce tag est optionnel. Il est donc possible de s’en passer parfois ou même toujours. Si il est absent alors la valeur par défaut est 0.5. dans le cas présent, la valeur 1.0 indique une forte priorité.

Qu’est-ce que je fais de mon fichier sitemap ?

Les 4 principaux moteurs de recherche Google, Yahoo, MSN Live Search et Ask vérifient régulièrement les fichiers robots.txt des sites web. L’ajout d’une ligne dans ce fichier suffit alors pour indexer votre fichier sitemap.

Ce qui donne dans votre fichier robots.txt.
Sitemap: http:/www.mon-site-web.com/sitemap.xml

Attention, le fichier robots.txt doit se trouver à la racine de votre site web.
http:/www.mon-site-web.com/robots.txt

Vous pouvez néanmoins devancer leurs visites en soumettant directement vos fichiers sitemap à Google, Yahoo et Ask. Pour Google et Yahoo, il vous faudra un compte. Alors que pour Ask, il suffit de pinger l’url qui suit avec l’adresse de votre sitemap en paramètre http://submissions.ask.com/ping?sitemap=http%3A//www.mon-site-web.com/mon-sitemap.xml.

Le protocole sitemap peut vous aider à informer les moteurs de recherche à propos de vos pages web. Rappelez-vous, une indexation réussie est la première étape d’un référencement réussi. Vous trouverez davantage d’informations à propos du nouveau standard sitemap sur le site web officiel du sitemap. Il peut également être intéressant de visiter la page sitemap de Google et la page indexation de Ask.

Les limites du sitemap (2/3)

Vendredi 29 juin 2007

Comment le fichier sitemap aide mon site web ?

Habituellement, les crawlers du web découvrent les nouvelles pages web à partir de liens faits par d’autres sites web. Le fichier sitemap permet aux crawlers qui supportent ce protocole de collecter en une fois toutes ces informations ainsi que les meta-données associées.
Le fichier sitemap vous permet d’informer les moteurs de recherche à propos des pages de votre site web. Il est souvent plus facile pour les moteurs de recherche de trouver toutes vos pages web si vous utilisez un fichier sitemap.

Est-ce qu’un fichier sitemap est indispensable à un bon référencement ?

De manière générale un site web bien construit n’a pas besoin de fichier sitemap. Utiliser le protocole sitemap ne garantit pas que vos pages web seront intégrées aux index des moteurs de recherche, mais cela facilite grandement et améliore la qualité du travail des crawlers.

Le fichier sitemap ne sert à rien, alors ?

Non, en plus de favoriser une indexation optimale, il est souvent incontournable. Il répond à des problématiques particulières liées à l’emploi de technologies spécifiques (flash, javascript, etc …) ou encore aux sites web de plusieurs milliers de pages.

Est-ce qu’un fichier sitemap améliore mon positionnement dans les moteurs de recherche ?

Il faut bien prendre garde à ne pas confondre indexation et positionnement dans les résultats de recherche. Indexation veut dire présent dans la base de données des moteurs de recherche. Or, une page web ne peut en aucun cas sortir dans les résultats de recherche, si elle n’est pas indexée.

Un sitemap aide les moteurs de recherche à trouver vos pages web mais ne vous aide pas à obtenir un meilleur positionnement dans les moteurs de recherche. Quand les moteurs de recherche indexent vos pages, ils doivent trouver des pages au contenu optimisé et de bons backlinks. Les moteurs de recherche vous positionneront bien uniquement si vous avez les deux.

Le sitemap, Kezako ? (1/3)

Vendredi 29 juin 2007

Exister pour un moteur de recherche, ça veut dire être indexé dans sa base de données. Le sitemap est une technique qui facilite le travail d’indexation des moteurs de recherche. Cette techniques est approuvée officiellement par les moteurs de recherche majeurs : Google, Yahoo, MSN Live et Ask. Le fichier sitemap permet à un webmaster d’indiquer aux moteurs de recherche comment indexer son site web. L’indexation de son site web est donc, en général, plus conforme à ses attentes.

Les crawlers

Un crawler est un robot (aussi appelé bot ou spider) qui parcourt le web et récupère automatiquement les pages web visitées. Les moteurs de recherche ont des crawlers qui se chargent du travail d’indexation. Le crawler de Google s’appelle GoogleBot alors que celui de Yahoo s’appelle Yahoo Slurp.

A chaque fois qu’un crawler visite une page web, il en fait l’analyse, en extrait les liens vers d’autres pages web et les indexe dans sa base de données. Quelques temps plus tard, il visite les pages nouvellement indéxées et réitère l’opération.

C’est ce qu’on pourrait appeler l’indexation naturelle. Il est néanmoins possible de devancer ce processus, à l’aide du protocole sitemaps.

Le protocole sitemaps

En novembre 2006, Google, Yahoo et Microsoft Live Search se sont mis d’accord pour supporter le protocole sitemaps (avec un s). Le protocole sitemaps est un standard qui peut vous aider à soumettre l’ensemble de vos pages web aux moteurs de recherche.

Ask a récemment rejoint Google, Yahoo et Microsoft. Désormais les 4 principaux moteurs de recherche supportent le protocole sitemaps.

Le fichier sitemap

Le protocole sitemaps s’implémente côté webmaster sous la forme d’un fichier sitemap. Les fichiers sitemap sont un moyen facile pour les webmasters d’informer les moteurs de recherche sur les pages de leurs sites web qui sont prêtes à être crawlées. C’est un format XML standard qui facilite la création d’un fichier sitemap compréhensible par tous les moteurs de recherche.

Les moteurs de recherche peuvent désormais détecter automatiquement votre fichier sitemap, nous verrons cela dans un prochain article.

Indexation, les facteurs bloquants au niveau des pages

Dimanche 3 juin 2007

Les facteurs bloquants l’indexation au niveau de la page web sont ceux qui amènent les crawlers à négliger certains liens. Pour leur rendre la tâche facile, il faut faire en sorte que vos pages web soit au gabarit attendu par les crawlers.

Le nombre de liens

Vos pages ne doivent pas avoir plus de 100 liens, une vingtaine maximum est conseillée. Les robots estiment suspecte une page trop chargée en liens.

Le type des liens

Le Javascript

Ces liens ne doivent pas être en Javascript, sous peine de ne pas être indexés par les moteurs de recherche. Ils doivent être en dur :

A éviter, <a href= »javascript:window.open(‘http://www.gnoztik.com’); »>logiciel de référencement gratuit</a>

Conseillé, <a href= »http://www. gnoztik.com »>logiciel de référencement gratuit</a>

L’url rewriting

Nettoyez l’url de chacune de vos pages. Les humains y gagneront aussi. Les robots préfèrent indexer une url qui ressemble à

http://www.monsite.com/baladeur-mp3-pas-cher.htm

plutôt qu’à

http://www.monsite.com/produit.php?id=123456&section_id=123&subsection_id=456

Pour y arriver, on utilise une technique appelée url rewriting. Dans l’état actuel de vos connaissances, il est probable que vous ne sachiez pas en faire usage. Nous l’aborderons donc probablement dans un prochain article.

Le gabarit des pages

Evitez les longues pages. Les robots préfèrent en général les pages plus concises. De cette manière, vous pourrez construire plus de pages à indexer, vous aurez donc d’autant plus de pages candidates à un bon positionnement dans les moteurs de recherche et ces pages du fait de leur contenu thématique plus homogène auront davantage de chance d’être bien positionnées dans les résultats des moteurs de recherche.

Indexation, les facteurs bloquants au niveau du site

Samedi 2 juin 2007

Les facteurs bloquants l’indexation au niveau du site web sont ceux qui gênent la circulation des crawlers. Pour leur rendre la tâche facile, il faut faire en sorte que votre site web soit aisément parcourable en tout sens.

Le maillage

Chaque page de votre site web est importante. Elles doivent toutes être facilement accessibles aux moteurs de recherche. Pour ce faire, il vous faut organiser le maillage de votre site. Faîtes donc en sorte que chacune de vos pages soit :

  • à moins de 3 clics de la page d’accueil,
  • accessible à partir de plusieurs autres.

Ces deux mesures augmenteront ses chances d’indexation.

Travaillez la hiérarchie de votre site. N’hésitez pas à classer vos pages en catégories et sous catégories, vous arriverez ainsi à vos fins.

La page d’accueil

Votre page d’accueil est primordiale, mais ce n’est pas une raison suffisante pour négliger les autres pages. Vous pouvez considérer chaque page comme une porte d’entrée pour votre site, donc un point à partir duquel peut commencer l’indexation de votre site web.

Si on revient au point précédent, le maillage, on constate que la tâche se complique. En effet, si toute page peut-être virtuellement page d’accueil, il faut alors que toute autre page soit à moins de 3 clics. Autrement dit, à partir de n’importe quelle page, on doit pouvoir atteindre n’importe quelle autre page en moins de 3 clics.

Le cas des blogs est exemplaire. Ils réussissent tous cette tâche à merveille.

Le plan du site

Une solution pour prendre en considération les 2 critères précédents, est de concevoir une page spécifique plan du site. Cette page référencera de manière cohérente, un peu comme une table des matières, chaque page de votre site web. Enfin, cette page sera référencée par chaque page de votre site web, dans le pied de page par exemple. Cette technique fait l’unanimité parmi les spécialistes.

ATTENTION, le lien vers votre plan du site doit être un lien en dur (facile à suivre par les crawlers des moteurs de recherche). Pareillement votre plan du site doit être constitué de liens en dur. Dans le cas contraire, tous vos efforts seront vains.

N’oubliez pas que cette technique est surtout à destination des moteurs de recherche pour faciliter l’indexation de votre site web. Néanmoins, elle est souvent très utile à l’internaute désireux de se repérer dans un site web. Il est donc préférable de la soigner.

Indexation, les technologies à proscrire

Samedi 2 juin 2007

Le problème de ces technologies est qu’elles rendent difficile la lecture des urls qu’elles contiennent. Autrement dit, si une page de votre site web n’est accessible qu’à partir de ressources de ce type, il y a de fortes chances que cette page ne soit jamais indexée, donc jamais visitée par les moteurs de recherche.

Le format Flash

Le Flash est probablement la pire de toute, car illisible par la plupart des moteurs de recherche.

Le recours au Flash occasionne une double perte. D’une part, les liens ne seront pas suivis, donc les pages pointées par ces liens non indexées (à moins qu’elles ne soient pointées ailleurs via un lien « en dur »). Et d’autre part, la valorisation du texte du lien ne sera pas prise en compte ce qui représente une perte en matière d’optimisation de code HTML.

A cela s’ajoute la lourdeur de cette technologie. Nombreux sont les internautes qui quittent un site web avant d’avoir terminé le téléchargement de l’animation flash de la page d’accueil. N’oubliez pas que vous devez convaincre en moins de 10 secondes.

Le Javascript

Le Javascript reste délicat pour la plupart des moteurs de recherche. En général, ils ne lisent pas son contenu. La prudence invite donc à s’en passer pour la mention des urls, car elles leurs seront illisibles, donc inaccessibles. Pour le reste, il n’y a pas de mal à y recourir.

A éviter, <a href= »javascript:window.open(‘http://www.gnoztik.com’); »>logiciel de référencement gratuit</a>

Conseillé, <a href= »http://www.gnoztik.com »>logiciel de référencement gratuit</a>

Comme pour le Flash, le recours au Javascript pour la mention des urls engendre une double perte. D’une part, les liens en Javascript ne seront pas suivis, donc les pages pointées par ces liens non indexées (à moins qu’elles ne soient pointées ailleurs via un lien « en dur »). Et d’autre part, la valorisation du texte du lien ne sera pas prise en compte ce qui représente une perte en matière d’optimisation de code HTML.

On évitera donc les obstacles que sont les roll-over, les pop-up, les menus dont les liens sont faits en Javascript, etc…

Les Frames

Les frames sont accessibles aux crawlers des moteurs de recherche. Cependant, chaque frame est perçue comme une page web différente. Autrement dit, les crawlers indexeront autant de pages web qu’il y a de frames contenues dans vos pages web. Le contenu de vos pages sera donc éclaté et les internautes risquent fort d’arriver sur des pages incohérentes parce qu’incomplètes.

L’usage de Frames est donc peu recommandé, néanmoins cette technologie étant obsolète, il nous semble vain de nous y attarder.

Indexation, les facteurs importants

Jeudi 31 mai 2007

Comme nous le disions dans un précédent article, rien ne vaut une indexation naturelle. Deux types de facteurs sont à prendre en considération : les facteurs bloquants, et les facteurs favorisants.

Les facteurs bloquants de l’indexation

Les facteurs bloquants l’indexation sont ceux qui concernent tout ce qui est susceptible de freiner l’indexation de votre site web. Autrement dit, il vous faut faciliter la tâche des moteurs de recherche, en évitant notamment certaines erreurs qui peuvent vous coûter très cher, au sens propre (si vous êtes E-commerçant) comme au sens figuré. Il est impératif de s’occuper d’eux en premier lieu.

On prendra notamment garde à éviter :

  • de recourir à certaines technologies (Flash, Javascript),
  • les erreurs à l’échelle du site (mauvais maillage),
  • les erreurs au niveau des pages (liens sortants trop nombreux, poids des pages excessifs),
  • les erreurs au niveau des urls (urls illisibles).

Nous détaillerons chacun de ces points dans un prochain article.

Les facteurs favorisants l’indexation

Les facteurs favorisants l’indexation sont ceux qui concernent tout ce qui est susceptible de faciliter l’indexation de votre site web. De manière générale, ils permettent une indexation personnalisée donc plus conforme aux besoins de votre site web. Ils sont toujours un atout supplémentaire mais ne sont pas incontournables pour la plupart des sites web. Ils répondent souvent à des problématiques particulières liées à l’emploi de technologies spécifiques ou encore aux sites web de plusieurs milliers de pages.

Nous nous arrêterons en particulier sur :

  • le sitemap,
  • le fichier robots.txt .

Nous nous proposons d’aborder en détail ces facteurs dans un prochain article.