Archive pour janvier 2009

Tout sur l’indexation

Dimanche 25 janvier 2009

Nombreux sont ceux parmi vous qui nous contactent pour améliorer leur positionnement dans les SERP. Après examen, nous constatons souvent un défaut d’indexation (peu de pages indexées / l’ensemble du site). Ci-dessous, vous trouverez les ressources suffisantes à parcourir dans l’ordre pour régler vos problèmes d’indexation, premier étape à valider avant de pouvoir prétendre à un bon positionnement dans les résultats de recherche des moteurs de recherche.

  1. L’indexation, ou votre existence selon Google
  2. L’indexation, comment ça marche ?
  3. Indexation, les facteurs importants
  4. Indexation, les technologies à proscrire
  5. Indexation, les facteurs bloquants au niveau du site
  6. Indexation, les facteurs bloquants au niveau des pages
  7. L’effet sandbox
  8. Le sitemap, Kezako ? (1/3)
  9. Les limites du sitemap (2/3)
  10. Le fichier sitemap en détail (3/3)
  11. Le fichier robots.txt

Bonne lecture !

Link Ninja contre Link Baiting

Jeudi 22 janvier 2009

Les deux techniques link ninja et link baiting ont chacune leurs avantages et leurs inconvénients.

Le link ninja permet de mettre en place le réseau de backlinks désirés : choix des ancres, des pages pointées comme des pages qui pointent, etc. Le principe est simple, on n’est jamais aussi bien servi que par soi-même. Toutefois, la mise en place de ce réseau est laborieuse. Elle se fait au prix de très lourds efforts et prend beaucoup de temps. De plus, souvent les backlinks sont en fait des échanges de liens qui ont moins de poids dans les moteurs de recherche car ils sont identifiés comme une tentative de gonflement artificiel de la popularité d’un site web. Les échanges de liens triangulaires sont aussi aisés à identifier par les moteurs de recherche.

Le link baiting est plus aléatoire quant au résultat final. Il est difficile de maîtriser la croissance d’un réseau de backlinks avec cette méthode. Il n’y a pas de choix sur les ancres, les pages pointées, etc. Tout ceci provoque souvent une distribution très inégale des backlinks sur l’ensemble des pages d’un site web, avec souvent une forte dominance de la page d’accueil. Par contre, l’effort est nettement moindre. Les backlinks ne sont pas des échanges de liens, ce sont de vrais backlinks (plus de valeur). Parfois, il y a la bonne surprise de récolter des backlinks de sites web de référence, qui font autorité dans leur secteur d’activité, et qui donne un vrai coup de booster au référencement.

Ces deux techniques sont complémentaires et il faut savoir user de l’une et de l’autre au gré de la nécessité. Dans un premier temps, le link baiting semble plus approprié. Il renvoie finalement à la nécessité de produire du contenu original et de qualité, sans lequel tout travail de référencement est vain. Dans une seconde phase, le link ninja pourra venir compenser les lacunes du link baiting qui produit rarement un résultat équilibré. Par des actions plus précises ciblant des pages web et des mots-clés précis, vous étendrez la surface d’exposition de votre site web en mettant en valeur les pages web sous-exploitées.

Le link baiting

Jeudi 22 janvier 2009

Le link baiting (to bait = appâter) vise à l’accumulation de backlinks, mais par d’autres moyens que le link ninja.

Dans le link baiting, les backlinks se font sur l’initiative des webmasters qui trouvent un intérêt à pointer vers l’une des pages de votre site web. On laisse ici le backlink se faire naturellement.

Mais qu’est ce qui peut pousser un webmaster à vous offrir un backlink ?

Le concept est simple, il faut lui donner envie de pointer vers votre site web.

Comment donner envie aux webmasters de pointer vers votre site web ?

Il vous faut proposer un contenu de qualité et différencié par rapport aux autres sites web. Vous pouvez, par exemple :

  • publier un scoop,
  • traduire un article de référence,
  • concevoir un événement original,
  • publier un article polémique qui fera réagir,
  • proposer un service gratuit,
  • rédiger un livre blanc gratuit,
  • proposer un service innovant,
  • vous démarquer par une compétence très spécifique,
  • mettre à disposition un feed RSS (souvent repris par des sites aggrégateurs de contenu),
  • etc.

En bref, faire du buzz autour de votre site web.

Le link ninja

Jeudi 22 janvier 2009

Que se cache t-il derrière cette expression, pour le moins, saugrenue ?

Les adeptes du link ninja s’efforcent de construire un réseau de backlinks complètement sur mesure. Ils partent (parfois à l’aide de logiciels) à la recherche des pages web candidates susceptibles d’accueillir un backlink à forte valeur ajoutée (référencement) vers l’une de leurs pages web. Pour ce faire, ils sélectionnent des pages web présentes dans l’index des moteurs de recherche majeurs et ayant,

  • un thème apparenté à la page web qu’ils veulent voir pointée,
  • une popularité suffisante (nombre de backlinks),
  • un nombre raisonnable (pas trop important) de liens sortants (dilution faible de la notoriété),
  • et un pagerank légèrement supérieur à la page web qu’ils veulent valoriser.

Une fois la sélection faite, ils contactent les webmasters de ces sites web pour négocier un échange de liens. Les intérêts de cette approche sont multiples. Elle permet notamment :

  • de choisir exactement les pages web qui seront pointées,
  • de quantifier exactement le nombre des backlinks pour chacune de ces pages web,
  • de choisir le niveau de proximité thématique entre backlinks et pages pointées,
  • de choisir les textes (ancres) des backlinks,
  • d’obtenir des backlinks de pages « anciennes » qui ont souvent davantage d’autorité.

C’est un travail de précision qui demande beaucoup de temps et est souvent laborieux (beaucoup d’échanges d’emails, vérification des backlinks, etc.). Le résultat est quant à lui très efficace lorsque la campagne est bien menée.

Le fichier robots.txt

Jeudi 15 janvier 2009

Le fichier robots.txt est une technologie qui permet de personnaliser l’indexation de votre site web par les crawlers des moteurs de recherche. Elle n’aura pas l’impact que peut avoir le fichier sitemap.xml, elle peut néanmoins vous rendre quelques petits services.

Qu’est ce que le fichier robots.txt ?

Le fichier robots.txt (avec un « s ») est le premier fichier que visitent les crawlers des moteurs de recherche lorsqu’ils commencent à indexer un site web. Dans ce fichier, sont consignés des directives écrites par le webmaster du site web à destination des robots et donc des crawlers des moteurs de recherche. La présence de ce fichier n’a rien d’obligatoire.

Le fichier robots.txt (ou fichier d’exclusion des robots) est le moyen côté webmaster d’implémenter le protocole d’exclusion des robots (Robots Exclusion Protocol).

« Robots Exclusion Protocol », kezako ?

Plus précisément, ce protocole permet aux webmasters de communiquer aux robots (et donc aussi aux crawlers des moteurs de recherche) :

  • les parties (privées) de leurs sites web à ne pas indexer,
  • la vitesse maximale d’indexation souhaitée (directive non standard),
  • ainsi que l’emplacement de leur fichier sitemap.xml (directive non standard).

Ce protocole est issu d’un consensus, il n’a pas valeur d’obligation. Néanmoins, les crawlers des moteurs de recherche s’y astreignent.

Pourquoi s’embarrasser d’un fichier robots.txt ?

Le fichier robots.txt n’est pas une technologie incontournable. Elle peut cependant avoir son utilité. Si vous avez des milliers de pages qu’il n’est pas intéressant de voir indexées, le signaler aux robots via le fichier robots.txt vous permet d’économiser de précieuses ressources (bande passante, cpu, etc.). Les crawlers ne rapatrieront plus inutilement toutes ces pages web. Sachez que lorsque les robots se déchaînent, ils peuvent être gros consommateurs de ressources pour votre serveur web (hébergeur) et pénaliser lourdement dans leur navigation (ralentir) les internautes qui visitent votre site web au même moment.

Le fichier robots.txt n’est visité que par les robots. Si vous surveillez l’indexation de votre site web, c’est un moyen pour vous de savoir quels sont les robots qui vous rendent le plus souvent visite. La consultation de vos fichiers de logs (sur votre serveur web) vous fournira ces informations.

Mise en garde

Le protocole REP n’a pas valeur d’obligation pour les robots. Rendre inaccessible une partie de votre site web via le fichier robots.txt est donc une très mauvaise idée. Le fichier robots.txt est publique, donc accessible à tout robot. N’oubliez pas qu’il en existe aussi de malveillants qui sont à la recherche de failles en tout genre. En signalant les parties privées de votre site web sans autre moyen que le fichier robots.txt pour empêcher d’y accéder, vous encouragez les actes de pirateries sur votre propre site web.

Comment rédiger mon fichier robots.txt ?

Le fichier robots.txt se compose d’un ou plusieurs blocs d’instructions. Chaque bloc contient des directives et éventuellement des commentaires. Les commentaires commencent par le caractère « # » (ils sont ignorés par les robots). Une ou plusieurs lignes vides marquent la fin d’un bloc d’instructions.

Le fichier robots.txt est construit à l’aide de deux directives standards : User-agent et Disallow. Chaque bloc débute par une ou plusieurs directives User-agent suivies par une ou plusieurs directives Disallow. Des commentaires peuvent être placés à n’importe quel endroit.

La directive « User-agent »

Chaque crawler est identifiable par son User Agent (identité qu’il s’est lui-même attribué). A chaque fois qu’il effectue une requête auprès d’un serveur web, il se présente avec son User Agent.


Le crawler de Google a pour User Agent, Googlebot. Tandis que celui de Yahoo a pour User Agent Yahoo Slurp. Pareillement, le crawler de Live Search a pour User Agent msnbot.

Cette directive est une directive standard, elle vous permet d’indiquer à quels crawlers s’adresse le bloc d’instructions qui la suit.

La directive « Disallow »

Cette directive est une directive standard, elle signale quels sont les répertoires ou fichiers qui ne doivent pas être visités.

Exemples

Le caractère « * » est un caractère spécial qui désigne n’importe quel User Agent.


Le bloc d’instructions suivant autorise tout robot à parcourir l’ensemble de votre site web. Ne pas avoir de fichier robots.txt produit le même effet.

Code robots.txt

User-agent: *
Disallow:


Le bloc d’instructions suivant interdit à tout robot de parcourir la moindre partie de votre site web. N’espérez pas être bien positionné dans les SERP !

Code robots.txt

User-agent: *
Disallow: /


Le bloc d’instructions suivant interdit à tout robot l’accès aux répertoires /cgi-bin, /images, /tmp, /private (et à tout ce qu’ils contiennent).

Code robots.txt

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Le nombre de blocs d’instructions n’est pas limité. Vous pouvez en utiliser autant que nécessaire.


Les deux blocs d’instructions suivants interdisent à tout robot, excepté le googlebot, l’accès au répertoire /forum (et à tout ce qu’ils contient).

Code robots.txt

# interdiction à tous les robots d'indexer /forum
User-agent: *
Disallow: /forum

# excepté au googlebot
User-agent: googlebot
Disallow:

Les directives non standards

Il existe des directives non standards comme :

  • Crawl-delay (fixe le délai minimum en secondes entre deux requêtes successives à un serveur web),
  • Allow (accorde une permission à la différence de Disallow),
  • ou Sitemap (indique l’emplacement du fichier sitemap.xml). Elles sont comprises par les principaux crawlers.

    Le bloc d’instructions suivant :

    • fixe à 10 secondes le délai minimum entre deux requêtes successives au serveur web, pour tout crawler,
    • autorise le googlebot à crawler l’intégralité de votre site web,
    • interdit aux autres crawlers l’accès au répertoire /forum (et à tout ce qu’ils contient), excepté le fichier public.html.

Code robots.txt

User-agent: *
Crawl-delay: 10

# restriction pour tous les robots
User-agent: *
Allow: /forum/public.html
Disallow: /forum

# excepté le googlebot
User-agent: googlebot
Disallow:

Diverses propositions vont dans le sens d’étoffer le standard avec de nouvelles directives.

Qu’est ce que je fais de mon fichier robots.txt ?

La présence du fichier robots.txt n’est pas obligatoire. Néanmoins si il existe, il doit nécessairement se trouver à la racine de votre site web pour pouvoir produire son effet. Les crawlers des moteurs de recherche n’iront pas le chercher ailleurs.


Par exemple, pour le site web du logiciel de référencement gratuit GnoZtiK, le fichier est accessible à l’url http://www.gnoztik.com/robots.txt.

La longue traîne

Mercredi 14 janvier 2009

L’expression longue traîne (long tail en anglais) n’est pas spécifique au référencement.

En 2004, une analyse des parts de marché de grands sites e-commerce (Amazon, etc.) met en évidence un phénomène jusque là ignoré : la longue traîne. Les produits les moins demandés (très nombreux) engendrent un chiffre d’affaires plus élevé que les produits les plus populaires (peu nombreux). La diversité de l’offre vient compenser le peu de ventes qu’occasionne chaque produit.

Ce phénomène vient contrecarrer la célèbre loi de Pareto (loi des 80/20) qui dit qu’en vente, 20% des produits engendrent 80% du chiffre d’affaires.

La longue traîne, kezako ?

En collectant le nombre de visites qu’apporte chaque mot-clé à un site web, il est possible de tracer le graphique suivant.

longue traîne définition

Ce graphique nous dit que :

  • les mots-clés à fort trafic sont peu nombreux,
  • les mots-clés à trafic faible sont très nombreux.

La partie en jaune sur le graphique correspond à ce qu’on appelle la longue traîne. Ici elle est coupée, mais en réalité, elle s’étire très loin vers la droite.

Ce graphique nous dit donc que le trafic total engendré par les mots-clés à trafic faible est supérieur au trafic total engendré par les mots-clés à fort trafic. En pratique, ce trafic issu des mots-clés à trafic faible peut constituer plus de 80% du trafic total.

Longue traîne et longueur de mots-clés

longue traîne et longueur des mots-clés

En regardant la longue traîne d’un peu plus près, nous constatons ce qui suit.

De manière générale, les mots-clés appartenants à la longue traîne se compose de plusieurs mots, quatre et souvent davantage. De la même manière, les mots-clés à fort trafic sont habituellement composés de peu de mots, un et rarement plus.

Attention, il est important de pondérer ce constat, qui repose sur une moyenne. Dans un marché très concurrentiel, les mots-clés concurrentiels pourront parfois aller jusqu’à trois mots. Alors que dans un marché peu disputé les mots-clés de longue traîne pourront quelquefois commencer à trois mots.

La longue traîne, trafic et concurrence

Longue traîne : trafic et concurrence

En poursuivant notre analyse de la longue traîne, des tendances se dégagent en matière de trafic et de concurrence.

Les mots-clés qui génèrent un important trafic sont aussi souvent les plus concurrentiels autrement dit, ceux pour lesquels l’effort nécessaire pour bien se positionner dans les SERP sera le plus grand. Les mots-clés qui génèrent un faible trafic (ceux de la longue traîne) sont sans concurrence. Ils sont également ceux qui présentent le taux de transformation le plus élevé.

Attention, lorsqu’un mot-clé amène trois visites mensuelles et qu’une de ces visites est transformée (achat, inscription newsletter, etc.), le taux de transformation est d’1/3 > 33%, ce qui est certes très élevé, mais qui demande à être relativisé vu le nombre total de visites (ici, trois). Un mot-clé qui vous apporte 300 visites mensuelles avec un taux de transformation de 5% vous permet de transformer à 15 reprises, donc 15 fois plus que dans le premier cas.

Autre mise en garde, la longue traîne n’est pas l’eldorado : tout ce qui s’y trouve n’est pas merveilleux. Elle se compose aussi de beaucoup de mots-clés déchets (fautes d’orthographe, expressions dépourvues de sens, etc.) qui n’amènent qu’un trafic sans intérêts. Des observations qui précédent, il n’est donc pas possible de tirer de règle systématique.

Longue traîne et typologie des mots-clés

La longue traîne est simple en apparence. Mais en matière de référencement, elle n’est pas aussi triviale qu’elle le semble au premier abord. Dans un précédent article, nous avons défini une typologie des mots-clés : concurrentiels, parasités, de niche ou délaissés. Voyons maintenant comment cette typologie se répartit sur notre graphique de longue traîne.

longue traîne et typologie des mots-clés

Attention, pour bien interpréter ce graphique, il est nécessaire d’avoir en mémoire les mises en garde que nous avons faîtes dans les deux sections précédentes. Le graphique de longue traîne ne dissocie pas les mots-clés concurrentiels des mots-clés parasités ce qui rend délicat l’interprétation de la partie grisée. Ces mots-clés apportent un trafic important, mais seule une partie d’entre eux possède un taux de transformation intéressant : les mots-clés concurrentiels. Alors que les mots-clés parasités drainent un fort trafic mais peu qualifié.

Comment se traduit la longue traîne pour mon site web ?

Tout ce qui précède est valable pour tous les sites web, donc également pour le vôtre. En consultant les statistiques de votre site web et les mots-clés qui vous amènent des visiteurs, vous devez pouvoir observer une foule de mots-clés, en général assez longs (quatre mots et plus), qui chacun vous amène chaque mois quelques visites. Vous pouvez même contrôler mois après mois si votre longue traîne s’étend (quantité de mots-clés souvent longs apportant peu de visites). Si c’est le cas, cela indique que votre site web colonise progressivement les SERP, c’est bon signe.

Comment tirer profit de la longue traîne ?

Ne faites pas de fixation sur vos mots-clés favoris, la part de trafic qu’ils vous apportent n’est pas aussi importante que souvent vous le pensez. Il vous faut immanquablement travailler sur un ensemble de mots-clés représentatifs de votre offre : c’est votre base de travail. Mais il vous faut songer à décliner cet ensemble de mots-clés au maximum.

Comment ? En veillant à varier les formulations, les synonymes, etc. De cette manière, votre référencement ne perdra pas en qualité puisque votre contenu restera ciblé et homogène. Bien au contraire, avec un contenu de même volume, simplement plus varié votre surface d’exposition ne sera que plus grande.

L’effet sandbox

Mercredi 14 janvier 2009

La réalité de l’effet sandbox ne fait pas l’unanimité chez les professionnelles. Nombreux parmi eux déclarent en avoir observé les effets, sans pour autant avoir été en mesure d’en cerner précisément les contours.

Plus qu’un mécanisme mis en place par Google, il serait du à un cumul de facteurs intervenants dans l’algorithme de classification des pages web. Dans la suite de cet article, nous partirons de principe que la sandbox est une réalité voulue par Google.

La sandbox, kezako ?

L’effet sandbox semble affecter la plupart des nouveaux sites web, mais également quelques anciens. Ils apparaissent rapidement dans l’index de Google, mais sont souvent très mal classés dans les SERP, surtout (mais pas uniquement) sur les mots-clés compétitifs. Ces sites web sont dits « sandboxés » ou « dans la sandbox ». Cette situation est temporaire.

A quoi sert la sandbox ?

La sandbox inflige une période probatoire pour les nouveaux arrivants. Elle permet notamment d’éviter un bouleversement permanent des résultats de recherche de Google avec l’arrivée des nouveaux entrants très rapidement indexés.

La sandbox est également un filtre contre les tricheurs qui voudraient détourner l’algorithme de Google pour rapidement passer devant les autres. Elle vise donc à garantir une certaine stabilité des classements proposés par Google sur les différents mots-clés. Lorsqu’un site ancien subit un fort déclassement dans les SERP, il est fort probable qu’il vient d’être placé en sandbox.

Attention, la sandbox n’est pas la blacklist. Un site web blacklisté n’apparaît plus dans l’index de Google.

Mon site est-il dans la sandbox ?

Tout dépend de l’ancienneté de votre site web.

Si votre site web est récent,

  • indexé par Google,
  • mal positionné dans les résultats de recherche Google,
  • et qu’il est bien positionné sur d’autres moteurs de recherche,

alors il est fort probable qu’il se trouve dans la sandbox.

Si votre site web est ancien,

  • indexé par Google,
  • brutalement déclassé dans les résultats de recherche Google,
  • et qu’il est bien positionné sur d’autres moteurs de recherche,

alors il est possible qu’il vienne d’atterrir en sandbox.

Quel impact a la sandbox sur mon site web ?

Les effets de la sandbox durent entre quelques semaines et quelques mois selon les sites web. Durant cette période, Google ne vous amènera que peu de visites. Il faut alors vous armer de patience et savoir attendre votre heure. Dès que la pénalité sandbox sera levée, votre site web pourra être propulsé en haut des SERP, à condition qu’il soit jugé pertinent par Google.

Comment sortir de la sandbox ?

Votre site web est récent

La sandbox est souvent un passage obligé pour les nouveaux sites web. La plupart du temps, il n’y a rien à faire, si ce n’est patienter et mettre à profit cette période qui peut s’étendre sur plusieurs mois pour continuer votre travail de référencement (production de contenu original, optimisation html, collecte de backlinks).

Vous pouvez cependant vous concentrer sur des actions qui vous seront bénéfiques durablement et pourront peut-être réduire la durée de l’effet sandbox sur votre site web.

Votre site web est ancien

Recherchez les récentes modifications de votre site web qui ont pu contrarier Google. Toute manoeuvre (ou cumul de manoeuvres) artificielle visant un gain de positionnement peut être à l’origine de ce déclassement brutal. Dans ce cas, mieux vaut rebrousser chemin.

Vous pouvez également prendre des mesures positives. Réorientez vos objectifs vers des actions qui vous seront profitables dans la durée et pourront peut-être réduire le temps passé en sandbox par votre site web.

Quelles mesures concrètes pour sortir de la sandbox ?

Parmi les mesures que vous pouvez prendre, que votre site web soit récent ou ancien, les suivantes devraient vous être avantageuses (sans garantie) :

  • évitez les inscriptions en masse dans des annuaires ou des sites d’échanges de liens (gonflement artificiel de la popularité – nombre de backlinks),
  • obtenez des backlinks depuis des sites à forte notoriété (gagnez en crédibilité),
  • obtenez des backlinks à sens unique de sites web de même thématique (backlink naturel, autres que de simples échanges de liens – pas naturel).

Mise en garde

Prenez garde à ne pas tenter de forcer la sortie de la sandbox, vous risquez fort de voir votre situation empirer. Rappelez-vous que le comportement de votre site web (contenu html, réseau de backlinks, etc.) doit toujours apparaître normal aux moteurs de recherche. Si votre site web apparaît déviant, il risque fort d’être pénalisé par de sévères déclassements (sandbox), ou même une désindexation généralisée (blacklist) d’où il est souvent difficile de revenir.

Un comportement normal pour un site web, c’est, par exemple, ne pas avoir de contenu caché aux internautes, accumuler des backlinks progressivement (à un rythme crédible), avoir des backlinks à sens unique (autres que de simples échanges de liens), etc.

Soyez donc confiant et poursuivez la promotion de votre contenu par des voies saines.