[PDF] Les techniques de référencement sur internet | Cours informatique

(1)

MOUHOT

Pierre Etienne

Maîtrise MIAGE du CFA AFIA en apprentissage à l'IEA de Paris 1 – Panthéon - Sorbonne Année 2004-2005

MEMOIRE DE FIN D'ANNEE

Pôle d'accueil : Direction des Systèmes d'Informations du GIE AXA

TECHNIQUES DE REFERENCEMENT

SUR INTERNET

Mots-clés : Visibilité sur Internet, référencement, positionnement, annuaire, moteur de recherche, robots, soumission manuelle.

Tutrice Enseignante : Mme Carine SOUVEYET - Maître de Conférences à l'Université Paris 1 – Panthéon – Sorbonne.

Maître d'apprentissage : M. Jean-François MIGNÉ - Responsable du pôle Etudes et Développement de la DSI du GIE AXA.

(2)

Sommaire

Remerciements... 3

Préface ... 4

I. Introduction au référencement web ou la nécessité d'un bon référencement... 4

A. Classification des outils de recherche... 5

B. Guerre des outils de recherche et futures évolutions du marché ... 11

C. Différence entre référencement, indexation, positionnement et visibilité. ... 13

D. Différents points de vue du référencement ... 14

II. L'état de l'art du référencement ... 16

A. Les éternelles (?) balises META... 16

B. Les autres balises ... 21

C. Gestion des différents contenus ... 27

D. L'URL ReWriting ... 28

E. Les fichiers robots.txt... 30

F. Plan du site... 31

G. Redirections ... 33

H. Référencer un site multilingue ... 35

I. Soumission manuelle dans les annuaires... 36

J. Dernières astuces. ... 38

III. Pratiques condamnables ... 39

A. Les pages satellites... 39

B. Spamdexing ... 42

C. Cloaking ... 42

D. Google Bombing ... 43

IV. Les solutions payantes... 45

A. Soumission payante... 45

B. Référencement payant ... 45

C. Positionnement payant... 45

D. Référencement par des prestataires ... 46

V. Exemple de référencement... 47

Cas du "Mangeur de cigogne"... 47

VI. IMS-Entreprendre pour la Cité ... 49

A. Présentation... 49 B. Le site ... 49 C. Application... 52 VII. Conclusion ... 60 Annexe 1 ... 62 Annexe 2 ... 63

(3)

Remerciements

Mes remerciements vont tout d’abord à Jean-François MIGNE, mon maître d’apprentissage. Je le remercie de m'avoir laissé effectuer mes recherches et rédiger ce rapport en parfaite autonomie.

Je lui suis extrêmement reconnaissant pour le temps qu'il a su consacrer à la relecture de ce mémoire et pour les conseils toujours justifiés qu'il aura pu me donner.

Je tenais également à remercier toutes les personnes de l'IMS-Entreprendre pour

la Cité avec qui j'ai eu l'occasion de travailler au cours de la rédaction de ce mémoire.

Ces personnes m'ont fait confiance en me laissant mettre en application les techniques de référencement sur leur site Internet. Sans leur aide, je n'aurais certainement pas pu avoir l'approche pratique du référencement que j'ai aujourd'hui.

Merci à Carine SOUVEYET, ma tutrice enseignante, pour m'avoir accordé de son temps et apporté une aide précieuse lors de la rédaction de ce présent mémoire.

Enfin, merci également à M. DUBUC, directeur du CFA AFIA, pour son suivi continu durant mes deux années d'apprentissage ainsi que pour les efforts qu'il fournit pour nous assurer le bon déroulement de notre formation à l'université comme en entreprise.

(4)

Préface

Etudiant en dernière année d'IUP MIAGE effectué en apprentissage à la fois à Paris 1 – Panthéon – Sorbonne et au sein de la DSI du GIE AXA, j'ai choisi, pour mon mémoire de fin d'études, de traiter la question du référencement sur Internet.

En effet, voilà 3 ans que je touche de près ou de loin au développement de sites web dynamiques pour différentes sociétés or je n'avais jamais eu l'occasion de réfléchir à la future visibilité sur Internet des sites que je développais.

Pour illustrer ce mémoire par des exemples concrets, j'ai eu la chance de pouvoir expérimenter ce que j'ai appris au fur et à mesure de mes recherches sur le site web de l'IMS-Entreprendre pour la cité1_{. Dans le cadre de mes années d'apprentissage au sein} d'AXA, j'ai eu à faire évoluer le site de cette association de mécénat de solidarité. Il m'a également été demandé de m'occuper de référencer ce site auprès des principaux outils de recherche. C'est de là qu'est née l'idée d'utiliser ce thème comme sujet pour mon mémoire de fin d'année.

I. Introduction au référencement web ou la

nécessité d'un bon référencement

Cela fait plus de 15 ans qu'Internet existe. D'abord peu utilisé, réservé aux initiés Américains, il s'est ensuite doucement développé pour enfin véritablement arriver en France dans les années 1996-1997.

Cependant, on peut dire que les années 2000 ont réellement contribué à la démocratisation du web en France.

Au cours des quatre dernières années, et principalement parce que des technologies haut débit sont arrivées sur le marché, le nombre d'internautes français est passé de 10 millions à plus de 24 millions.

La France a aujourd'hui pratiquement comblé son retard en matière de nouvelles technologies. Elle se situe ainsi dans la moyenne des pays développés.

Il va sans dire que si le nombre d'Internautes a explosé de la sorte, le nombre de pages et de services sur Internet a fait de même.

En 2005, le nombre mondial d'internautes devrait dépasser un milliard. Et ce nombre ne va cesser d'augmenter avec l'arrivée des nouveaux pays développés.

Aujourd'hui, la question n'est plus de savoir où l'on va trouver l'information qui nous intéresse mais plutôt comment est ce qu'on va pouvoir trouver une information pertinente parmi la multitude des pages qui nous sont proposées.

Partant de ce principe, les différents annuaires et moteurs de recherche ont développé leurs méthodes pour indexer et référencer le contenu des sites internet.

Il y a encore quelques années, seules les grandes entreprises possédaient leur site web. Celles-ci n'avaient pas besoin de se pencher sur la question du référencement puisque les moteurs de recherche et autres annuaires n'étaient que très peu nombreux.

(5)

A cette époque, la grande majorité des connexions sur un site quelconque se faisait par accès direct (en connaissant l'URLi_{) ou par liens externes (en suivant des liens} hypertexte).

Aujourd'hui, c'est différent. La majorité des entreprises, petites ou grandes possèdent un site web.

Si elles ont compris qu'un bon site pouvait étendre considérablement leur zone d'influence et leurs parts de marché, elles savent aussi qu'il est impératif que leur site puisse être visible sur la toile.

Des études comparatives montrent que le référencement reste une méthode moins onéreuse que les méthodes de marketing traditionnelles.ii

A l'heure actuelle, en France, les différents moyens d'accéder à un site sont les suivants :

37% 33% 30%

Moteurs de recherche / annuaires Liens

Accès direct (liens et favoris)

L'accès par les outils de recherche n'est donc évidemment pas à négliger.

Le principal problème pour ces outils est le nombre monumental de pages à indexer. Par exemple, Google recense à l'heure actuelle environ 8 milliards de pages au contenu statique (.html, .doc, .pdf, .ppt, image etc). Or les ordinateurs (serveurs) qu'il utilise pour l'instant ne lui permettent pas, a priori, d'indexer beaucoup plus de pages que cela.

En effet, le risque est qu'en voulant indexer encore plus de pages dans sa base de données, Google soit obligé de gérer des index de 40 bits. Dans ce cas, les temps de calculs et d'accès aux différents documents seraient beaucoup trop longs.

Google, comme les autres, travaille sur la possibilité de gérer des bases de

données gigantesques avec des machines toujours plus puissantes (serveur 64 bits) iii_{. En} attendant, il n'est pas rare de voir des pages, jusque là indexées, remplacées par de nouvelles au contenu plus pertinent. Cela est d'autant plus vrai pour les annuaires qui, en général, disposent d'un index plus petit et ont des critères de sélection beaucoup plus stricts.

Ainsi, le classement dans les outils de recherche n'est pas définitif est doit être suivi en permanence.

A. Classification des outils de recherche

Nous utilisons quotidiennement les outils de recherche qui sont à notre disposition sur Internet. Cette étape est devenue quasiment obligatoire lorsque l'on recherche des informations sur le net. Il faut savoir que "plus de 80% des internautes utilisent les outils de recherche pour trouver le site d'une enseigne qu'ils connaissent"iv_{. Il est évident que} "la recherche sur les moteurs de recherche est devenu un réflexe pour plus de 90% des utilisateurs réguliers d'Internet"v_.

Nous utilisons donc couramment les outils de recherche mais combien d'entre nous savent qu'il existe deux principaux types d'outils ?

(6)

Il s'agit des annuaires et des moteurs de recherche. Ils se différencient principalement par le fait qu'ils n'utilisent pas la même méthode pour indexer leurs pages.

Cette distinction essentielle n'est pourtant pas celle qui saute aux yeux de l'utilisateur lambda. Pour lui, la différence s'arrête certainement au mode de recherche et à l'agencement des résultats.

Plus pratiquement, si on voulait assimiler Internet à un grand un livre, "les annuaires (ou guides) thématiques en seraient la table des matières, bien partielle, et les moteurs de recherche un moyen de chercher l'information mot par mot, mais sans bien savoir le contenu du livre".vi

1. Les annuaires

Les annuaires (ou répertoire) indexent les sites web grâce au travail de personnes physiques. Ils classent les sites par catégorie et sous catégorie de la plus générale à la plus spécifique. Les recherches se font donc sur ces catégories et les résultats sont présentés par ordre alphabétique.

Un webmestre souhaitant enregistrer son site doit le faire au moyen d'un formulaire électronique généralement accessible depuis la page d'accueil de l'annuaire. Il renseigne alors ce formulaire avec la description de son site, son adresse, son titre, sa catégorie et la sous catégorie. Après validation du formulaire, sa demande sera traitée par une personne physique qui ira regarder le site. Suivant une notation par rapport à des critères propres à chaque annuaire, cette personne (nommée "netsurfeur") décidera ou non d'inclure le site dans la base de données de l'annuaire.

Les éléments requis lors d'une demande d'inscription sont très importants car la recherche au moyen d'un mot-clé est basée sur ces éléments (adresse Web, titre, description) et non sur le contenu des pages du site en question.

Les avantages Les inconvénients

Lors d'une recherche, on obtient rapidement une sélection de sites correspondant à une catégorie précise

Les sites répertoriés doivent être inscrits manuellement1

Qualité des sites répertoriés La mise à jour de la base de données est plus longue que pour un moteur de recherche

Le classement des résultats se fait par ordre alphabétique et non par pertinence Comme le contenu des sites a été examiné

par des personnes, il y a moins de risques

d'obtenir des résultats erronés Les critères d'acceptation sont souvent sévères

L'annuaire le plus connu reste sans doute Yahoo!. Il fut le pionnier et, en 1994, recevait déjà plus de 10 000 visiteurs par jour. Aujourd'hui, c'est plus de 200 millions de visiteurs par mois.vii_{Pourtant il reste derrière le moteur de recherche Google. Il est vrai} qu'historiquement, les annuaires sont arrivés avant les moteurs de recherche puisque la technologie ne permettait pas d'indexer automatiquement les pages. Pour contrer cette attaque, Yahoo! dispose depuis 2004 d'un moteur de recherche en plus de son annuaire.

(7)

L'Open Directory Project

"L'Open Directory Project (ou ODP) est le plus grand et le plus complet des répertoires du Web édités par des êtres humains. Il est développé et maintenu par une vaste communauté mondiale d'éditeurs bénévoles. […] L'Open Directory a été fondé dans l'esprit du mouvement Open Source et est le seul répertoire d'importance majeure à être totalement gratuit."viii

Enfin, pour conclure sur cette partie réservée aux annuaires, l'essentiel à retenir est que le classement se fait de manière arborescente, suivant des thèmes et des rubriques et que la classification manuelle permet une approche qualitative.

2. Moteur de recherche

Pour simplifier, on peut voir un moteur de recherche comme une immense base de données qui recenserait les principaux sujets de chaque page présente sur le web.

Le moteur de recherche propose, contrairement à l'annuaire, une recherche par

mot-clé.

Il est bien évident que lorsque vous faites une requête sur un moteur de recherche celui-ci ne va pas parcourir "l'ensemble" du web pour vous fournir une réponse pertinente.

Il se contente d'aller regarder dans sa base de données ce qui correspond le mieux à votre requête. Cette base de donnée est mise à jour régulièrement afin de référencer les nouveaux sites qui apparaissent quotidiennement sur la toile.

Cette mise à jour est possible grâce à des "robots"1_{qui parcourent en permanence et de} manière automatique l'ensemble des serveurs web.

Lors d'une requête sous forme de mots-clés sur un moteur de recherche, celui-ci consulte son index pour fournir l'ensemble des résultats. Ces réponses sont triées par ordre de pertinence suivant un algorithme propre à chaque moteur de recherche.

A titre de comparaison, un moteur de recherche renvoie une liste de pages web alors qu'un annuaire retourne une liste de sites.

Les avantages Les inconvénients

Les recherches donnent plus de résultats car la base de données d'un moteur de recherche est beaucoup plus importante que celle d'un annuaire

Les recherches peuvent générer une masse importante de résultats

La base de données est mise à jour plus fréquemment

Comme le contenu des sites n'est pas examiné par des humains, la qualité des résultats peut être moindre

Le classement des résultats de recherche est effectué par pertinence et non par ordre alphabétique

Je pense qu'il n'est plus nécessaire de vous présenter Google et son index de plus de huit milliards de pages.

(8)

En revanche, je vais revenir sur certains points particuliers de Google car il fait office de référence en matière de moteur de recherche. De plus, et bien que nous verrons plus tard que cela peut changer, beaucoup de gens considèrent qu'un bon référencement dans Google constitue un référencement suffisant…

a. Les robots – L'exemple du GoogleBot1

Nous avons vu que la mise à jour des bases de données de Google était effectuées grâce à des robots.

Comprendre comment ils fonctionnent, c'est-à-dire savoir ce qu'ils recherchent réellement sur nos pages, nous permettra, je pense, de minimiser les risques de passer à côté d'un bon référencement.

Nous savons qu'ils explorent le web de pages en pages à la recherche d'informations pertinentes qu'ils enregistreront dans leur gigantesque base de données. Etant donnée la taille colossale de leur travail, il faut bien comprendre qu'ils ne passent pas tous les jours sur votre site web. Partez du principe qu'ils passeront 2 à 3 fois par mois sur un site déjà bien référencé. Mais sachez qu'ils peuvent également ne jamais passer si rien n'est fait pour les "attirer".

On pourrait penser que les robots sont des monstres de technologie capables de faire énormément de traitements avec une page web… Il n'en est rien. En réalité, ils se comportent exactement comme un navigateur de base. Ils fonctionnent en mode texte comme le fait le navigateur Lynx. C'est-à-dire qu'ils ne gèrent pas les images, les animations Flash, les différentes polices de caractères, leurs tailles. Les frames2_{, les} pages à accès restreint (protégées par mot de passe) et les scripts (JavaScript, applets

java, pages dynamiques etc.) sont également ignorés contrairement aux formulaires et

cookies qu'ils savent gérer. Cette gestion très spartiate des pages leur permet par contre d'être très rapides à la parcourir.

Concrètement, lorsque l'on souhaite accélérer le référencement d'un site, la seule chose que l'on puisse faire est soumettre l'URL aux moteurs de recherche. Pour Google, il faut se rendre sur la page (http://www.google.fr/addurl/?hl=fr) et remplir le formulaire. Cette étape est similaire à la soumission manuelle que l'on ferait avec un annuaire à la différence que le formulaire est plus sommaire. Ceci a pour unique but de mettre l'URL en queue de liste des URL que le moteur va devoir analyser.

Une fois le robot arrivé sur votre site, il commence par regarder s'il existe un fichier "robots.txt" puis analyse la page courante avant de suivre les liens qu'il pourra trouver dessus. C'est pour cette raison qu'un robot peut arriver sur votre page même si vous ne lui avez pas demandé explicitement. Par contre, cela risque de lui prendre plus de temps pour trouver votre site.

NB : Si votre serveur est surchargé ou en panne au moment où un robot essaye de s'y connecter, le robot est normalement configuré pour réessayer un certain nombre de fois avant de considérer que le site n'existe plus. Cette sécurité sert à éviter de supprimer des sites de l'index du moteur alors qu'ils ne sont que momentanément indisponibles. Au pire, les informations dont dispose le robot sur votre site ne seront pas mises à jour avant son prochain passage.

1 _{GoogleBot : nom du robot d'indexation développé par Google}

2_{Frames : Concept inventé par Netscape. Consiste à afficher le résultat de l'assemblage de plusieurs pages}

(9)

b. Le PageRank

Google a développé un algorithme pour lui permettre de mesurer la popularité et

la pertinence des pages qu'il retourne en réponse à une requête. Cette note s'appelle le

PageRank.

Le principe de PageRank est simple : tout lien pointant de la page A à la page B1 est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens présents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » d'autres pages"ix_._{Le PageRank est donc très intéressant car on peut supposer} qu'un site populaire soit de meilleure qualité (fiabilité des informations disponibles par exemple) qu'un autre moins consulté.

Notez cependant que cette technique, telle que je viens de vous la présenter, ne permet absolument pas d'affirmer que les résultats correspondent à votre requête. C'est pourquoi le PageRank est complété par d'autres critères plus spécifiques aux mots-clés par exemple. Le PageRank est mis à jour à chaque GoogleDance.

Google fut le premier à perfectionner ses agents de recherche afin que ceux-ci ne

se contentent plus seulement des balises "META" présentes en entête de chaque page. Cette technique est certainement à l'origine du succès de Google puisque, dès ses débuts, il a su proposer des résultats pertinents.

c. La GoogleDance

Pour répondre plus vite aux requêtes, Google a choisi de répartir ses nombreux serveurs (environs 40 000) en une dizaine de "Data Center" implantés principalement aux Etats-Unis et en Europe. Ainsi, les requêtes que vous faites sur www.google.fr sont traitées par un Data Center choisi en fonction de deux critères :

- votre localisation géographique

- la charge du Data Center le plus proche.

Vous comprendrez que cette architecture ne permet pas de maintenir les bases de données parfaitement synchronisées d'un Data Center à l'autre.

Sachant cela, on comprend pourquoi des requêtes identiques réalisées depuis un même poste mais à des moments différents peuvent finalement donner des résultats différents.

Avant d'opter pour une indexation continue, Google mettait à jour sa base de données une fois par mois. Cette mise à jour majeure mettait les Data-Centers dans des états profondément différents les uns par rapport aux autres. Ainsi, les résultats pouvaient beaucoup varier suivant le centre que l'on interrogeait. Ce phénomène fut baptisé GoogleDance. Elle pouvait durer jusqu'à une semaine. Chaque "dance" était baptisée… comme le sont les cyclones !

Nous venons de voir ce qu'est une GoogleDance, essayons maintenant de comprendre ce qu'elle apporte aux webmasters.

Google, avant de rendre accessible son nouvel index, le teste sur deux domaines

particuliers accessibles aux adresses suivantes : www2.google.com et www3.google.com. Ces domaines publics possèdent, en général, une version de l'index plus à jour que celle utilisée par le site www.google.xxx. Ils permettent aux webmasters d'avoir un

1 _{On parle alors de BackLink (BL) de A vers B. Google utilise constamment les BL pour classer ses sites. La} commande link: de Google permet de connaître ces BL.

(10)

aperçu de ce que sera leur position lorsque le nouvel index sera passé. En effet, c'est en fonction de ce qui apparaîtra dans le nouvel index que Google pourra calculer les nouvelles valeurs des PageRank.

Ainsi, cette période est utile aux référenceurs pour que ceux-ci peaufinent leur technique. S'ils ratent la GoogleDance, ils n'auront qu'à attendre le prochain passage du

robot.

3. Les hybrides ou outils mixtes

Ils proposent une méthode de recherche soit sous forme d'annuaire, soit sous forme de mots-clés.

En général, ils ne disposent que d'une taille d'index assez restreinte. Ils sont utilisés pour effectuer des recherches au sein d'un même site web.

Un cas concret est celui du site http://www.telecharger.com qui propose de rechercher un logiciel par son nom ou alors de le retrouver à travers les catégories proposées.

L'objectif est de dégrossir les recherches en sélectionnant les thèmes importants dans l'annuaire et terminer l'analyse par une recherche plus fine par les mots-clés.

4. Les métamoteurs

Les métamoteurs sont des moteurs de recherche qui basent leurs recherches sur

l'interrogation de plusieurs autres moteurs de recherche. Le plus connu est sûrement

Copernic qui fournit un résultat issu de plus de 100 moteurs différents. Si cela était

intéressant à la fin des années 90, ça n'est plus vraiment le cas aujourd'hui. Surtout Annuaire

(11)

quand on sait que Google retourne à lui tout seul des milliers de pages pour une recherche…

C'est pourquoi, les métamoteurs ont dû trouver des moyens de se démarquer des moteurs de recherche. Outre le fait qu'ils n'aient pas de base de données propre !

Pour cela, ils ont dû proposer des fonctions supplémentaires telles que la suppression des doublons, des liens morts et la possibilité d'ajouter des filtres pour trier les résultats. N'utilisant pas de base de données propre, ils ne représentent aucun intérêt du point de vue du référencement.

B. Guerre des outils de recherche et futures évolutions du marché

En France, on constate que 73% des recherches se font sur Google. L'hégémonie de Google dure depuis quelques années et ne semble pour l'instant pas remise en cause. Pourtant, de nouveaux acteurs tentent de s'implanter sur ce créneau très porteur.

1. La bonne guerre de Yahoo! et Google

Nous connaissons depuis le début la guerre qui oppose Google à Yahoo!. Pourtant, ces deux outils de recherche ne proposent pas tout à fait les mêmes services. En effet,

Google s'est spécialisé dans le moteur de recherche et ne fait que ça, alors que Yahoo!

est un annuaire (et maintenant depuis peu un moteur de recherche) qui propose aussi un portail contenant une grande source d'informations immédiatement disponibles.

Pour preuve de la guerre de ces deux géants de la recherche sur Internet, il y a un an de cela, si on tapait trop vite www.yahoo.fr dans son navigateur, on avait de grandes chances d'arriver sur le site de Google. Google ayant acheté le nom de domaine

www.yahooo.fr afin de faire une redirection1_{sur son propre site. Yahoo! avait alors vite} riposté en achetant www.gooogle.com !

Le 9 Août dernier, Yahoo! annonçait que son index recensait désormais 20 milliards de documents. Google Image a immédiatement répliqué en affirmant que son moteur de recherche dédié aux image n'indexait plus 1.3 mais 2.2 milliards de photos.

2. Un nouvel acteur : MSN Search

Aujourd'hui la guerre continue mais les choses risquent d'évoluer plus rapidement avec l'arrivée de Microsoft sur le marché. En effet, le géant de Redmond a décidé de se lancer dans la recherche sur internet. La différence réside dans le fait que Microsoft possède des fonds énormes qu'il semble prêt à investir pour s'implanter rapidement sur ce marché.

Notez que "le chiffre d'affaires annuel de Google ou de Yahoo! ne représente "que" deux mois de résultat de Microsoft". Ainsi, "ce que Google a mis quatre ans à construire,

Microsoft peut l'obtenir en quelques mois."x

L'avenir nous dira lequel des grands du référencement gagnera mais en attentant, en France, Google semble particulièrement bien tirer son épingle du jeu.

1 _{Une redirection est une action, transparente pour l'utilisateur, qui permet de le réacheminer d'une page vers} une autre en changeant automatiquement son URL.

(12)

(Source : http://www.barometre-referencement.com/question_du_mois.htm)

3. La guerre du nombre de pages indexées

Comme je vous l'ai dit, Google se vente d'indexer le plus grand nombre de pages. Le 3 mars dernier on pouvait trouver sur la page www.google.fr :

Il semblerait pourtant que son index ne fasse pas vraiment la taille indiquée… Il s'agirait plutôt d'une estimation par interpolation. D'ailleurs, Google a annoncé qu'il avait doublé la taille de son index (passant ainsi de 4 à 8 milliards de pages) le jour où Microsoft lançait la version d'essai de MSN Search qui, elle, est sensée indexer 5 milliards de pages. Bizarre donc…

Si on en croit l'étude "Comptes bidons chez Google ?"xi_{, on remarque ainsi} quelques incohérences traduisant clairement que Google et les autres se livrent une guerre acharnée.

A titre d'exemple, le mot anglais "the" permet de faire une recherche sur la quasi-totalité des pages anglaises. Voici le résultat, dans toutes les langues, de la recherche sur Google.

Tout juste 8 milliards de résultats… Bref, ce qui est étonnant c'est qu'en ne cherchant que sur les pages anglaises, on obtient le résultat suivant :

Soit à peu près 1% du résultat précédant ! Sous-entendant par la même occasion que "the" se trouve dans 99% des cas dans des pages non anglaises…

Pourtant, on ne peut pas dire qu'un moteur qui indexe plus de pages qu'un autre soit de meilleure qualité qu'un autre.

(13)

En général, nous autres internautes sommes plutôt perdus devant le nombre de résultats que peut nous renvoyer une recherche.

Le problème est généralement que l'on obtient trop de réponses plutôt que pas assez ! L'internaute ne s'en rend même pas compte. Il s'en fiche même de savoir que sa requête sur MSN Search lui retourne 653 125 réponses alors que la même interrogation de Google lui en retourne le double.

Les statistiques montrent que "91% des internautes changent de requête s'ils sont insatisfaits des quarante premiers résultats". En allant plus loin, on montre que "les 10 premiers résultats reçoivent 78% de trafic supplémentaire par rapport à ceux qui sont listés de la onzième à la trentième position."xii

C'est justement en sachant ceci que l'on comprend l'intérêt d'un bon référencement et plus particulièrement celui d'un bon positionnement. Nous allons tout de suite définir ces deux termes.

C. Différence entre référencement, indexation, positionnement et visibilité.

Au cours de ce rapport, je vais fréquemment utiliser les quatre termes ci-dessus. Il est essentiel de bien comprendre la différence entre ces expressions.

Le référencement, dans son acceptation large, peut être défini comme l'ensemble des actions permettant à un site d'être présent dans les bases de données des outils de recherche. L'action visant à être répertorié est « l'indexation »xiii

Il y a encore quelques années, l'objectif était uniquement de se faire référencer par les moteurs de recherche.

On constate qu'aujourd'hui le but reste bien évidemment d'être référencé par le plus de moteurs de recherches/annuaires possibles mais l'accent est surtout mis sur le positionnement.

Le positionnement prend appui sur les fondements du référencement. Mais le terme de positionnement sous entend que l'on évalue le référencement par rapport à quelque chose. Dans le cas du site web d'une entreprise, on peut comparer sa position par rapport à celle de ses concurrents. On pourra ainsi estimer le rang auquel apparaîtra un site dans la liste des résultats retournés par un outil de recherche à la suite d'une requête précise.

Nous avons déjà vu "que plus de 70% des internautes ne consultent que les deux premières pages de résultats"xiv_{. Même au sein de la première page, la compétition est} rude. En effet, "le premier site qui apparaît lors d'une requête reçoit trois fois plus de clics que le cinquième"xv_.

La nécessité d'être bien positionné n'est donc plus à démontrer.

Pour finir, la visibilité d'un site fait plus référence à la stratégie qui sera mise en place pour cibler le marché et les clients que l'on veut atteindre. L'objectif de la visibilité étant de se faire connaître des clients et de se distinguer des concurrents.

(14)

D. Différents points de vue du référencement

Avant d'étudier en détail les différentes techniques de référencement, je pense qu'il est important de bien mettre l'accent sur un point essentiel du référencement.

Ce point concerne la divergence qui réside entre l'objectif des outils de recherche et celui des webmasters.

En effet, il faut bien comprendre que le but d'un webmaster soucieux de son référencement est de faire apparaître son site en tête des résultats des moteurs de recherche (c'est-à-dire être bien positionné).

Par contre, l'objectif des moteurs de recherche et des annuaires est, quant à lui, de retourner le maximum de résultats pertinents par rapport à une requête faite par un internaute.

Cette divergence de points de vue entre les deux principaux acteurs du référencement explique pourquoi les techniques de référencement ont tellement évolué au cours des dernières années.

Vous l'aurez compris, les webmasters étudient les moteurs de recherche afin de comprendre comment ils fonctionnent. Grâce à ces informations, ils sont capables de trouver les failles leur permettant d'atteindre le haut des classements. De leur côté, les moteurs de recherche sont obligés de réagir rapidement afin de condamner les abus des référenceurs et ainsi toujours garantir des résultats cohérents.

Ainsi, on peut classer les techniques1_{suivant leurs évolutions :}

Action des moteurs de recherche sens Riposte des webmasters Les balises méta du langage HTML

ont été inventées dans le but de permettre le référencement des pages. Les premiers robots ne prenaient alors en compte QUE ces balises

Æ

Du coup, les webmasters en ont profité pour abuser de ces balises… Ils ont créé le spamdexing et le "bourrage de

mots-clés"

Les moteurs ont du riposter en prenant de moins en moins en compte ces balises. Ils se sont alors focalisés sur d'autres balises : title,

Hx, b et alt

Æ

De la même manière, on a vu apparaître des pages contenant de nombreuses répétitions de mots-clés dans ces balises

La technologie ayant suffisamment évolué, les robots ont alors étés capables de rechercher eux-mêmes les mots pertinents dans le contenu textuel des pages. Le webmaster ne devait alors plus pouvoir tromper les

robots

Æ

Les webmasters ont alors choisi de créer de nombreuses pages au contenu optimisé pour les moteurs de recherche. En couplant ces pages avec une

redirection, ils on inventés les pages satellites… Pages qui furent rapidement

condamnées par les moteurs de recherche

Pour éviter d'indexer de trop nombreuses pages satellites, les moteurs tentent de les repérer et de les bannir de leurs index

Æ

Pour limiter le risque de se faire exclure des moteurs de recherche par une utilisation abusive des pages satellites, les webmasters ont développé une

(15)

nouvelle technique. Celle dite du

cloaking qui permet de présenter un

contenu différent d'une même page suivant que c'est un internaute qui la visionne ou un robot qui la parcourt. Pour réduire le risque de cloaking,

certains moteurs changent le nom de

leurs robots Æ

Les webmasters ont amélioré leurs scripts de cloaking pour identifier les

robots en fonction de leur adresse IP et

non plus seulement à partir de leur nom Il semble que les moteurs n'aient pas

encore vraiment réagi à ce sujet. Cela vient sûrement du fait qu'un bombing n'est pas facile à mettre en œuvre puisqu'il doit être réalisé simultanément par plusieurs milliers de webmasters.

Å

Une des dernières techniques utilisée par les webmasters est le bombing.

(16)

II. L'état de l'art du référencement

A. Les éternelles (?) balises META

1. Présentation

Historiquement, les premiers moyens mis en œuvre pour référencer un site étaient simples et efficaces. La raison que l'on a déjà vue est que le nombre de page sur Internet était bien moindre.

Technologiquement moins performants, les premier "spiders" étaient lents. Couplés à des bases de données limitées, ils ne pouvaient pas stocker beaucoup d'information pour chaque site.

Ainsi, pour préparer le travail des robots, les webmasters avaient la possibilité de leur fournir directement les informations pertinentes en utilisant des balises HTML créer spécifiquement pour cela. Ces balises META étaient à placer entre les balises HEAD d'un document HTML.

Invisibles des internautes (à moins bien sûr d'afficher le code source de la page), elles renseignent sur le nom de l'auteur de la page, sa langue et son contenu (résumé et les mots-clés).

Cette technique a longuement été le meilleur (voire le seul) moyen de référencer son site. Quant au positionnement, il se faisait alors en comptant le nombre de mots-clés identiques entre la recherche et les pages trouvées.

2. Liste exhaustive

Voici une liste quasiment complète des principales balises META avec leur fonction. Cette liste est classée par ordre d'importance croissante.

Beaucoup de ces balises ne sont plus prises en considération par les robots des moteurs de recherche pour des raisons que nous verrons par la suite.

Toujours est-il qu'elles sont très simples à mettre en œuvre et qu'il serait dommage de s'en priver. D'autant plus qu'elles ne peuvent en aucun cas nuire au référencement tant que l'on ne s'en sert pas pour tromper les robots…

Balises Fonction / Utilisation

<META NAME="geographie" CONTENT="Paris, France, 75000">

Localise géographiquement la société détenant le site. Elle peut servir pour les nouvelles fonctions des moteurs de recherche qui proposent

maintenant en priorité des réponses "proches" de l'internaute.

<META NAME="Publisher" CONTENT="Prénom NOM">

Donne un moyen de faire apparaître le nom de la société dans le code source de la page. Si l'on utilise un outil (tel que Deamweaver) pour générer la page, celui-ci renseigne

(17)

<META NAME="Reply-to"

CONTENT="[email protected](Pierre Etienne MOUHOT)">

Spécifie une adresse de réponse pour les utilisateurs avertis qui consulteront le code source de la page.

Permet également de faire apparaître l'adresse email dans le code source de la page et donc augmente les chances d'indexation par les

robots.

Par contre, cette adresse sera aussi repérée par les robots qui parcourent le web à la recherche d'adresses mails à spammer…

<META NAME="Copyright"

CONTENT="2001 IMS"> Balise spécifique aux Copyright où l'on peut encore mettre le nom de l'entreprise. <META NAME="Subject"

CONTENT="Le référencement des

sites sur internet "> Permet de définir le thème principal de la page.

<META NAME="Category" CONTENT="Association">

Permet à un annuaire de savoir dans quelle rubrique il va pouvoir classer le site. Il est possible de mettre plusieurs catégories. Elles doivent être écrites en anglais.

<META HTTP-EQUIV="Pragma" CONTENT="no-cache">

Spécifie au navigateur qu'il doit recharger toute la page avant de l'afficher, et ceci même s'il l'a déjà en cache.

<META NAME="Identifier-URL" CONTENT="http://www.ims-entreprendre.com">

Cette balise permet simplement de faire apparaître l'URL de la page principale du site dans le code source de la page

<META

NAME="Date-Creation-yyyymmdd" content="20041201"> Spécifie la date de création de la page en cours.

<META NAME="Date-Revision-yyyymmdd" content="20050303">

Spécifie la date de dernière modification de la page en cours.

<META NAME="Revisit-After"

CONTENT="15 days"> Spécifie avec quelle fréquence le robot peut revenir visiter la page.

<META HTTP-EQUIV="Expires" CONTENT="Wed, 05 June 2005 12:00:00 GMT">

Donne une indication au robot sur la date jusqu'à laquelle il doit garder la page en cache.

De même le navigateur n'utilisera pas la page qu'il pourrait avoir en cache au delà de cette date.

Cette balise sert essentiellement pour des pages dont le contenu est souvent mis à jour.

(18)

<META HTTP-EQUIV="refresh" CONTENT="60;

URL=http://www.humagora.com">

Cette balise redirige automatiquement l'internaute vers la page spécifiée.

Elle peut être utile en matière de référencement lors d'un changement d'url. Elle permet ainsi aux

robots de trouver la nouvelle URL du site.

<META NAME="Author" CONTENT="IMS" lang="fr">

Permet d'indiquer le nom de l'auteur du site ou de la société. Elle permet d'ajouter une fois de plus ce nom en question dans le code source de la page.

<META NAME="Description" content="phrase de description">

Cette balise, dont la taille ne doit pas excéder 200 caractères, est (était...) utilisée par les moteurs de recherche pour afficher un résumé (snippetsxvi_{) de la page à l'utilisateur.}

Aujourd'hui, bien des moteurs de recherche génèrent dynamiquement un résumé de la page contenant les mots-clés de la recherche. Dans ce cas, le contenu de la balise n'est plus affiché à l'internaute.

<META NAME="Keywords" content="mot1, exp2, …">

Le résultat de cette enquête1

représente le pourcentage de pages retournées par un moteur de

recherche et ayant au moins un

mot-clé figurant dans la requête.

Comme quoi, les keywords gardent une relative importance.

Comme son nom l'indique, cette balise pouvant contenir jusqu'à 1000 caractères, permet de lister les mots-clés en rapport avec la page. Les mots-clés représentent des termes qui se rapportent directement au sujet de votre page. Il est important de mettre plusieurs synonymes (voire même des antonymes) d'un mot-clé important pour éviter toute ambiguïté. Vos

mots-clés peuvent également comporter des fautes

d'orthographe volontaires afin de ressortir comme résultat suite à une recherche comportant des erreurs de frappe.

Quasiment tous les moteurs de recherche et 65% des sites utilisent encore cette balise.

Pour éviter les problèmes de "casse" (différenciation des lettres minuscules et majuscules) il est conseillé de mettre tous les

mots-clés en minuscules.

Contrairement à ce que l'on peut penser, répéter les mots-clés ou en mettre trop peut avoir l'effet inverse à l'effet souhaité.

Les spiders comprendront alors cette balise comme une méthode frauduleuse pour

augmenter le positionnement et préféreront ne pas indexer la page2_.

1 L'étude date d'Octobre 2004. Sa version complète est disponible à l'adresse suivante : http://www.revue-referencement.com/ETUDES/0410-referencement-title-h1.htm

(19)

En revanche, dans le cas de site multi-langues, il est conseillé de rajouter l'attribut1_{lang="" pour} spécifier la langue dans laquelle sont les

mots-clés qui suivent.

On aura ainsi, dans le cas d'un site bilingue, ceci :

<META name="keywords" lang="en" content="mots-clés en anglais"> <META name="keywords" lang="fr" content="mots-clés en français">

<META NAME="Robots" content="noindex">

<META NAME="Robots" CONTENT="index, follow">

Cette balise spécifie au robot s'il peut indexer ou non votre page. En général, elle sert plutôt à exclure des pages du référencement. Elle sera donc utile dans le cas d'une page en cours de réalisation et qui ne doit pas être accessible. Idem pour une page destinée à un usage personnel (page de statistiques par exemple). L'attribut content peut prendre les valeurs suivantes :

- ALL (défaut) : Indique qu'il faut indexer la page et suivre les liens hypertextes.

- NONE : Ne pas indexer la page et de ne pas suivre les liens.

- INDEX : La page peut être indexée par les

robots.

- NOINDEX : Pas d'indexation de la page par les

robots.

- FOLLOW : Donne la permission de suivre les liens hypertextes.

- NOFOLLOW : Indique qu'il ne faut pas suivre les liens de la page.

- NOIMAGEINDEX - Pas d'indexation des images, seulement le texte le sera

- NOIMAGECLICK : Pas d'indexation des liens des images.

1 _{Un attribut est une instruction contenue à l'intérieur d'une balise et dont le but est de fournir une information} supplémentaire sur la manière dont cette balise doit être interprétée.

(20)

<META NAME="Robots" CONTENT="noarchive">

"noarchive" indique aux robots qu'ils ne doivent

pas mettre en cache la page en cours. Par contre, ils peuvent l'indexer et suivre les liens. Beaucoup de moteurs de recherche mettent les pages en cache. Cela permet à l'Internaute de tout de même pouvoir consulter la page même si elle a été supprimée ou est momentanément inaccessible.

Le webmaster pourra lui connaître la date du dernier passage du robot sur sa page.

Sachez cependant que les moteurs de recherche mettent un long moment (entre 1 et 6 mois, dépend du PageRank) avant d'actualiser leur cache. Ainsi, pour un site ayant un contenu souvent actualisé (site d'informations par

exemple) il est nécessaire de mettre cette balise. De même pour un site dont le contenu serait payant. Sinon, il suffirait d'attendre que Google l'indexe pour ensuite consulter la page en cache !

3. Limites de ces balises

Si ces balises ont eu leurs heures de gloire lors des débuts du référencement, elles n'ont plus aujourd'hui qu'une influence très limitée.

Les différentes raisons qui confirment la mort de balises META :

L'évolution technologique qu'a connue le secteur de l'informatique ces dernières années a bien évidemment profité aux moteurs de recherche.

Les personnes en charge du développement des robots ont alors décidé de baser leurs indexations sur des mots-clés générés automatiquement. C'est-à-dire que les informations collectées ne devaient plus uniquement être celles que le webmaster voulait bien mettre à la disposition des robots via les balises META.

Ce que je veux dire c'est que des serveurs de plus grosse capacité, couplés à des

sipders plus rapides leur permettent d'analyser les pages plus en profondeur. Les

analyses se basent maintenant directement sur le contenu textuel de la page.

Cette nouvelle orientation de la part des moteurs de recherche cherche uniquement à obtenir des résultats probants. Il faut savoir que de nombreux webmasters peu scrupuleux avaient trouvé comment générer facilement du trafic sur leurs pages. Leur but n'était alors pas d'offrir une information de qualité aux internautes de tous horizons mais de gagner de l'argent grâce aux publicités présentes sur leurs pages.

L'idée était simple et efficace : il leur suffisait d'utiliser comme mots-clés de leurs pages, la liste la plus exhaustive possible des mots ou expression les plus recherchés dans les moteurs. Ainsi, la majorité des recherches faites retournait leur site comme résultat.

Pour illustrer ce phénomène, on peut rappeler qu'en 1998, de nombreux sites Internet personnels avaient comme mots-clés : Bill Clinton et Monica Lewinsky…

(21)

Aujourd'hui bien connues, ces techniques sont cataloguées comme étant du

spamdexing. Ce barbarisme anglophone se définit comme étant l'ensemble des méthodes

abusives de référencement qui consistent à tromper l'internaute (à travers les moteurs de recherche) sur le contenu réel de la page.

La compétition qui existe entre les moteurs de recherche les a contraints à passer d'un objectif quantitatif à un objectif qualitatif.

Pourtant, lorsque l'on compare le nombre de résultats intéressants et le nombre total de résultats retournés par les moteurs de recherche, on peut se demander s'ils y sont parvenus.

Toujours est-il que les moteurs actuels ont pris des mesures pour limiter, voire condamner, le spamdexing. En général, la mesure la plus radicale est de ne pas référencer les pages concernées. Cela revient à inscrire le site sur une "BlackList". Une fois sur cette liste noire, le seul moyen pour le webmaster de voir son site ré-indexé par le moteur est de contacter directement le service concerné de l'outil de recherche dans le but de lui présenter un site modifié qui réponde à ses critères de sélection.

B. Les autres balises

Les concepteurs de spiders ont dû trouver d'autres moyens de repérer les informations importantes dans les pages web.

On sait maintenant que d'autres balises présentent plus d'intérêt du point du vue du référencement que celles qui initialement créées pour cela !

1. Le titre

GoogleBot, par exemple, donne une place très importante au titre des pages.

La balise <TITLE> renseigne en général sur le contenu global de la page.

Une étude datant d'octobre 2004xvii_{montre à quel point la balise titre est} importante pour les principaux moteurs de recherche. Le graphe ci-dessous montre la proportion des mots-clés que l'on retrouve, dans la balise <TITLE> des pages retournées, en réponse à 100 questions posées.

(22)

2. Les paragraphes

De la même manière, on sait que la balise <H1> qui représente les titres des paragraphes, a également une grande importance.

Malheureusement, comme pour les balises META, il y eu beaucoup d'abus de type

spamdexing. Les moteurs de recherche n'accordent aujourd'hui plus autant d'importance

à ce type de balise (H1 et ses dérivés H2, H3, …) qu'ils n'en ont accordé par le passé. Si la balise TITLE sert toujours, c'est parce que la taille du texte est limitée. En

revanche, il est possible de mettre autant de commentaire que l'on veut entre une balise

H1 ouvrante et une balise H1 fermante…

Sur cet exemple trivial, on comprend qu'en écrivant une grande quantité de

mots-clés de la même couleur de texte que le fond d'écran, on peut garder une

présentation agréable pour l'Internaute tout en fournissant une grande quantité d'informations aux robots. Cependant, faites attention aux moteurs de recherche qui traquent ces abus en comparant systématiquement la couleur de la police avec celle du fond d'écran.

Enfin, depuis la version 4.0 d'HTML (datant de la fin de l'année 1997), ce langage supporte les feuilles de style CSS1_{. Celles-ci ont alors connu un fort développement car} elles permettent aisément de changer l'intégralité de la charte graphique d'un site en ne modifiant qu'un seul fichier. Je rappelle qu'en HTML, il faut modifier le code de toutes les pages… De ce fait, la mise en forme via les balises <Hx> n'est plus utilisée que dans un quart des sites web.

Pour cacher du texte à l'utilisateur tout en s'assurant qu'il restera accessible aux

robots puisque présent dans le code source de la page, on peut utiliser la propriété

suivante des feuilles des styles :

.TextInvisible {visibility:hidden} ou encore :

.TextInvisible {display:none;}

1 _{Cascading Style Sheets} _{: Langage permettant de compenser les manques de l'HTML en termes de mise en} forme et de présentation.

(23)

Pour combattre ceci, les moteurs de recherche tiennent compte de toutes les autres balises de mise en forme HTML telles que <B> (gras), <U> (souligné), <I> (italique) ainsi que de la taille du texte.

A titre d'exemple, Voila est le moteur de recherche qui utilise le plus cette balise avec un total de 16% de mots-clés trouvés entre des balises H1 sachant qu'ils étaient dans la requête.

3. Le texte alternatif des images

Nos premiers pas sur Internet étaient, souvenez vous, très lents… A l'époque, la connexion 56k était un must.

Pourtant, le langage HTML avait été au début développé pour permettre d'offrir des documents sous forme textuelle à la consultation. Plus tard, et devant l'essor du web, on a commencé à inclure des images dans nos documents et donc à alourdir considérablement les pages, rallongeant ainsi le temps de chargement.

Les deux principaux navigateurs qu'étaient Internet Explorer et Netscape avaient bien compris ce problème et proposaient tous les deux une option qui servait à charger la page sans télécharger les images. Apparaissait alors à la place, une brève description de la photo sous forme de texte. Celle-ci était directement renseignée par le développeur grâce à l'attribut ALT de la balise IMG. Cet attribut a longtemps permis aux spiders d'indexer les balises images qu'ils ne savaient pas traiter autrement.

Il s'est donc avéré que ces petites descriptions textuelles associées aux images étaient recherchées et contribuaient fortement l'indexation du site par les moteurs.

Aujourd'hui, ces balises ne sont quasiment plus utilisées par les développeurs puisque les connexions que nous avons nous permettent généralement d'afficher rapidement toutes les photos.

Seuls les webmasters soucieux de leur référencement s'en servent encore.

Notez que nous risquons de voir réapparaître cette balise puisqu'elle fait partie intégrante des dernières recommandations du W3C1_{(plus particulièrement de la WAI}2_). Dorénavant, une balise IMG devra forcement contenir un attribut ALT pour être conforme à la norme.

En effet, cette balise permet de traduire les images en texte. Elle est donc primordiale pour une accessibilité au site des personnes non voyantes ou mal voyantes. C'est sur cet attribut que se base leur navigateur pour leur décrire / lire la page.

De la même manière, on peut mettre un texte sous forme d'info bulle sur un lien en utilisant cette fois ci l'attribut TITLE. Par contre, on ne peut pas affirmer que cette balise soit réellement prise en compte.

1 _{Word Wilde Web Consortium : Organisme international qui développe et fait évoluer les standards du web.} 2 _{Web Accessibility Initiative : commission du W3C et référence mondiale pour l'accessibilité des sites web aux} personnes handicapées.

(24)

4. Référencement et cadres

Les cadres (ou frames en anglais) furent inventés par la société Netscape. Ils ont

été intégrés dans la version 4.0 d'HTML.

Les frames permettent d'afficher plusieurs pages HTML dans une même fenêtre de

navigateur. Elles ont révolutionné la gestion des menus dans les pages HTML puisqu'elles ont permis de faire de véritables barres de navigation. Jusque là, la gestion de la navigation compliquait beaucoup la conception des pages web.

Avec l'arrivée des frames, on a vu beaucoup de pages construites de la manière suivante :

(25)

La fenêtre principale (dans notre exemple frame.html) est appelée page mère. Elle n'a normalement que pour but d'appeler les pages filles (menu.html et droite.html) Aujourd'hui, les frames sont de moins en moins utilisées pour les raisons suivantes :

- de nouvelles techniques permettent maintenant de créer des menus plus élégants et plus dynamiques.

Source : http://www.henri-ruch.ch/referencement/referencement_frames/referencement_frames.asp - On ne peut pas enregistrer une page en favoris.

- L'impression est souvent très mal gérée.

- Mais surtout, elles nuisent au référencement

En effet, face à un site dont la fenêtre principale serait constituée de frames, les moteurs de recherche ont 4 possibilités :

o Ignorer les pages et ne pas les indexer du tout. Cette solution radicale est bien sûr la plus problématique.

(26)

o Indexer toutes les pages du site indépendamment les unes des autres. Cela a au moins le mérite de permettre de retrouver, au travers d'une recherche, une

page fille. En revanche, le lien qui apparaîtra dans le snippet du moteur

pointera directement sur la page en question. Ainsi, lors de l'affichage, on perdra l'intégralité de la barre de navigation.

Illustration :

o Référencer la page mère et les pages filles tout en étant capable de rappeler la

frame parent au cas où l'internaute souhaite afficher une page différente de la Home. Sachez seulement que très peu de moteurs de recherche font ça (voire

aucun…)

o Indexer uniquement la page mère. Sachant que les robots fonctionnent en mode texte, ils ne prennent pas en compte les frames. A l'affichage d'une page avec des frames, ils ne verront que le texte se trouvant entre les balises

<NOFRAMES>. On se rend compte à quel point ces balises peuvent s'avérer

importantes en terme de référencement.

Notez qu'en général, lorsqu'un moteur de recherche dit supporter les frames

(Google affirme le faire "dans la mesure du possible"…) cela veut simplement

dire qu'il est capable de lire (d'indexer) le contenu de la balise <NOFRAMES>. Sachant que les frames tendent à disparaître, les moteurs de recherche

affirment ne pas faire d'efforts pour développer des robots supportant mieux ces structures de pages.

Page d'accueil normale

Résultat : la page finale est ouverte indépendamment du cadre parent Exemple de recherche avec Google

(27)

Quant à Yahoo!, je cite : "Le robot Yahoo! suit les liens HREF. Il ne suit pas les

liens SRC, ce qui signifie qu'il ne recherche pas ou ne classe pas les frames qui sont pointées par des liens SRC."xviii

Pourtant, comme moi, vous serez peut être un jour confronté à ce problème. Dans ce cas, plutôt que de laisser les moteurs se débrouiller comme ils peuvent/veulent avec vos frames, sachez que vous pouvez gérer ce problème vous-même. L'important reste de bien prendre en compte ce problème dès la conception du site afin de tout de suite mettre en œuvre la méthode adéquate.

Cette technique est très simple. Elle est basée sur le langage JavaScript. L'idée est d'inclure, au début de chaque page, une fonction vérifiant que la page en cours est bien ouverte par l'intermédiaire de la frame. Si ça n'est pas le cas, la frame parent est automatiquement rechargée.

Voici un exemple de script permettant de faire cela :

if (parent.frames.length==0) parent.location.href="frame.htm"; </SCRIPT>

Cette version extrêmement simpliste présente tout de même un problème majeur. Imaginez que vous souhaitiez afficher la page : page2.html. Vous l'avez trouvée grâce à

Google qui vous donne le lien suivant : http://lesite.fr/page2.html.

Si la page contient le script donné ci-dessus, en suivant le lien, vous allez finalement ouvrir la page HTML (donc statique) frame.html.

Malheureusement pour vous, frame.html sert à ouvrir les deux pages suivantes :

menu.html et page1.html.

Conclusion, votre page s'affiche bien dans la frame parent, vous avez bien la barre de navigation mais vous ne retombez pas sur le page qui vous intéresse !

Pour contrer ce nouveau problème, il existe des solutions qui reposent sur l'utilisation d'un langage dynamique. Nous utiliserons cette méthode dans la partie de mise en application de ces concepts.

C. Gestion des différents contenus

Nous savons que le web est constitué de documents de types variés. Pour assurer un référencement performant, les robots doivent s'adapter à ces différents types. Aujourd'hui, outre l'HTML, ils sont capables de lire les documents texte, Word,

PowerPoint, PDF, XML.

Par contre, il n'en est pas de même pour les animations Flash1_{. Ce langage permet} de créer des pages beaucoup plus interactives et graphiquement plus évoluée que ce que nous pouvons faire pour l'instant avec les langages courants.

En revanche, ces animations écrites dans un langage propriétaire1_{ne sont pas} encore prises en compte du point de vue du référencement.

1 _{Fichier qui peut être inclus dans une page HTML et dont l'extension est .swf. Si tout le site est fait en Flash, le} fichier HTML appelant le Flash est quasiment vide.

(28)

Contrairement aux frames que nous venons de voir, des efforts sont faits pour

indexer le mieux possible ces animations. Ceci vient du fait que la technologie Flash est récente sur Internet et qu'elle risque d'encore beaucoup se développer dans les années à venir.

La plupart des sipders se limitent à suivre les liens contenus dans les animations Flash. Les récentes innovations des robots les autorisent à pouvoir lire le contenu textuel

de ces animations. Pour cela, ils se basent sur un kit qui leur est fourni par Macromedia. Conscient que ce problème de référencement nuisait à la propagation de son langage,

Macromedia propose en effet un kit qui permettra aux robots de pouvoir interpréter le

langage Flash afin de pouvoir retrouver les parties de texte contenues dans le code des animations.

Pour l'instant, cette technologie reste peu fiable.

Comme pour les frames, des balises spécifiques permettent d'ignorer le Flash. Ces balises <noembed> et </noembed> servent à insérer le code HTML qui sera lu par les navigateurs qui ne supportent pas le Flash.

D. L'URL ReWriting

1. Le problème

Nous savons maintenant que l'adresse a une place importante dans le référencement. Pour preuve, les moteurs de recherche retournent souvent comme résultat des sites contenants certains des mots-clés de votre recherche dans leur nom de domaine.

Sachant cela, on peut se demander comment fait le robot pour gérer les URL exotiques que l'on obtient en passant les paramètres des pages dynamiques par la méthode GET.

Ex : http://www.monsite.net/documents/articles/lire.php?id=12&page=2&rubrique=5 La réponse est simple, Google et les autres, le gèrent… mal. Au mieux ils peuvent indexer des pages ayant des URL contenant jusqu'à deux variables. Mais pas plus.

On sait qu'une URL telle que celle donnée dans l'exemple ci-dessus, appelle toujours la même page dynamique. Celle-ci va alors chercher dans une base de données les informations correspondantes à l'article de la page 2, de la rubrique 5 ayant 12 comme identifiant.

Ce qui est dommage c'est que cet article accessible à cette adresse parle justement d'une technique de référencement qui s'appelle l'URL ReWriting. Mais comment le deviner juste en regardant cette adresse ?

L'objectif de la méthode de réécriture d'URL est d'arriver à faire croire au robot qu'il est en présence d'une page statique.

Pour cela, le serveur web devra transformer l'adresse en une URL finale du type : article_12_2_5.html ou mieux : referencement-12-2-5.html.

1 _{L'éditeur est Macromedia}

(29)

Cela doit rester transparent pour l'utilisateur. Le serveur web Apache quant à lui reçoit toujours l'adresse sous la forme lire.php?id=12&page=2&rubrique=5.

Pour effectuer cette transformation, le webmaster devra fixer des règles de réécriture.

2. Mode d'emploi

Pour commencer, il est nécessaire de configurer Apache. Nous prendrons Apache comme exemple car il s'agit d'un serveur web qui se prête bien à la réécriture d'URL et qui est très utilisé dans le monde libre.

Ouvrez le fichier "httpd.conf" et retirez les symboles de commentaires (#) devant les lignes suivantes:

LoadModule rewrite_module modules/mod_rewrite.so AddModule mod_rewrite.c

Pour vraiment accroître votre référencement, l'idéal serait d'arriver à générer des adresses sous cette forme :

http://www.monsite.com/articles/ISAPI-rewrite-pour-url-rewriting_12_3.html

C'est-à-dire avec le sujet de l'article contenu dans l'adresse de la page. Les paramètres réellement utilisés doivent bien sûr également apparaître. Ensuite, il faut forcer Apache à exécuter toutes les pages dans le répertoire articles comme étant des pages PHP, et ce, malgré l'extension .HTML.

Cette étape se fait via le fichier texte .htaccess : <FilesMatch "^articles$">

ForceType application/x-httpd-php </FilesMatch>

FilesMatch permet à Apache d'analyser le nom de fichier pour y rechercher une

expression régulière.

Nous venons de voir que les règles de réécriture d'URL étaient définies dans le fichier .htaccess. Cela ne marche donc pas avec le serveur web Microsoft Internet

Information Services (IIS). Pour faire de l'URL-rewriting avec les serveurs web Microsoft,

il est nécessaire d'installer un module additionnel qui propose les mêmes fonctionnalités que le fichier d'Apache.

Bien que la plupart de ces modules soient payants, il est possible de télécharger une version allégée de l'outil "ISAPI rewrite"xix_{. Cet utilitaire est fourni avec un module} permettant de tester vos expressions régulières.

(30)

Voilà ce que l'on obtient (4) en appliquant la règle de réécriture (3) à la partie de l'adresse de test (2) identifiée par l'expression régulière (1).

E. Les fichiers robots.txt

Dans la partie II a, je vous disais que la première chose que fait un robot en arrivant à la racine de votre site est de regarder s'il existe un fichier nommé robots.txt. Ce simple fichier texte va donner des informations au robot sous forme de commandes. En l'absence d'un tel fichier, les robots regarderont tout le site (action par défaut).

On constate alors que le seul intérêt d'un fichier robots.txt est d'exclure des parties de site des spiders. Il est également possible de filtrer les robots autorisés à indexer le site.

• User-Agent:nom du robot ou * : permet de préciser le robot concerné par les directives qui suivront. La valeur * désigne tous les spiders.

• Disallow:nom du répertoire ou du fichier : permet d'indiquer les pages à exclure de l'indexation. Chaque page ou dossier à exclure doit être sur une ligne à part et doit commencer par /. La valeur / seule signifie que cela s'appliquera à toutes les pages du site.xx

Exemple de fichier type :

Le style de contenu du fichier robots.txt se présente de la façon suivante : User-agent: *

Disallow: /cgi-bin/ Disallow: /temp/ Disallow: /prive/

(31)

Clairement, voici la signification du contenu :

- User-agent: * signifie que l'accès est accordé à tous les robots.

- Disallow: /cgi-bin/ : l'accès est refusé aux robots pour tous les fichiers contenus dans le dossier cgi-bin, temp et prive.

- Disallow: /admin/statistiques.html : l'accès est refusé aux robots pour la page de statistiques contenu dans le répertoire admin. Les autres fichiers de ce répertoire ne sont pas concernés.

Attention : Ne laissez jamais de lignes vierges ou blanches (la touche entrée) le

robot l'interprèterait comme étant la fin du fichier.xxi

Remarque : Les fichiers de logs du site de l'IMS (ne disposant pas, pour l'instant, de fichier robots.txt) nous permettent de tracer l'activité des robots. En effet, une erreur 404 "fichier non trouvé" est enregistrée dans les logs à chaque passage des spiders puisqu'ils commencent par demander ce fichier. Sur le total du mois de février, ce fichier a été demandé 742 fois.

Finalement, ce fichier permet d'empêcher les robots d'indexer certaines parties du site comme des parties privées, des pages de test, des images, des fichiers JavaScript et autres feuilles de style, etc.

Ma dernière remarque concerne la sécurité. Il est en effet important d'avoir à l'esprit que ce fichier reste accessible à tout le monde (et non pas seulement aux robots). Il suffit de taper http://www.NomDeDomaine.fr/robots.txt pour récupérer le fichier de n'importe quel site. J'ai moi-même utilisé cette méthode pour avoir des exemples de syntaxe des ces fichiers.

Il peut être dangereux de mettre en clair le chemin d'un fichier ou d'un répertoire confidentiel. Par exemple la ligne : Disallow: /admin/AjoutDroits.asp peut servir de point de départ à une personne mal intentionnée pour attaquer votre site.

Dans ce cas, on préférera une balise <META> classique. F. Plan du site

Encore une page facile à faire et à intégrer qui, en plus de faciliter la navigation dans des sites ayant un grand nombre de pages et de rubriques, augmente sensiblement le référencement.

En effet, cette simple page contient un grand nombre de liens internes.

Notez que GoogleBot et les autres spiders ne vont pas analyser les pages qui auraient une profondeur supérieure à 4. Cela veut dire qu'une page uniquement accessible en suivant les liens de 3 autres pages précédentes ne sera pas référencée.

Un plan de site permet alors de réduire cette profondeur et de rendre accessible ce genre de pages.

Début juin 2005, Google a lancé un nouvel outil gratuit basé sur ce principe. Google SiteMap devrait lui permettre d'indexer plus de pages. La véritable innovation par

rapport au plan de site que nous venons de voir est, qu'avec cet outil, le webmaster est capable d'indiquer rapidement à GoogleBot qu'il y a de nouvelles pages à indexer ou que le contenu du site a changé.

Cet outil repose sur un ou plusieurs fichiers qui peuvent avoir des formats différents. Le format XML reste le plus utilisé car il est plus performant. Ces fichiers ont pour objectif d'aider Google à référencer toutes les pages et mieux prendre en compte les évolutions de votre site. Ce fichier est généré par le webmaster.