• Aucun résultat trouvé

Le processus d’indexation : de l’information à la connaissance

Chapitre III. Gestion des connaissances et décision

5. Le processus d’indexation : de l’information à la connaissance

Pour gérer une mémoire commune comme le propose la gestion des connaissances, intéressons nous d’abord aux moyens de constituer la base de connaissance. Plusieurs approches sont possibles. Nous devons pour cela répertorier l’information contenue dans une grande masse de documents : c’est le processus d’indexation, qui permet d’associer à chaque document textuel un certains nombres de repères qui permettent ensuite à des outils informatiques de retrouver l’information ainsi indexée. Nous n’abordons l’indexation dans ce

Chapitre III - Gestion des connaissances et décision chapitre que relativement à l’étape qu’elle constitue en gestion des connaissances puisque nous débattrons des aspects techniques dans les deux chapitre suivants.

Selon la définition du Petit Larousse, indexer un document consiste à construire la “liste alphabétique des mots, des sujets, des noms apparaissant dans un ouvrage, une collection, etc. avec les références permettant de les retrouver”.

Il s’agit donc d’un repérage lexical interne à un document ou un ensemble de documents [Crampes et al., 2002 ]. Appliquée à un centre de documentation, l’indexation a pour but d’effectuer un classement approprié de documents afin de pouvoir par la suite les retrouver avec plus de facilité et les consulter. Quelques mots-clefs judicieusement choisis suffisent souvent à la tâche. La recherche actuelle de documents sur Internet déroge peu à la règle même si la quantité des documents et des index est d’une autre ampleur. Internet introduit cependant une différence majeure de nature. En effet, l’indexation traditionnelle est le fait d’un(e) documentaliste, à charge pour le lecteur potentiel de retrouver manuellement l’ouvrage recherché par l’utilisation de l’index. A l’inverse, la documentation en ligne est souvent indexée électroniquement. La recherche est alors déléguée par l’utilisateur à des robots, les moteurs de recherches. Il ne s’agit plus de retrouver un point précis sur un rayonnage, mais d’identifier des objets dont on ignore jusqu’à l’existence et dont l’emplacement importe peu.

Deux approches différentes sont représentatives des différents courants de l’indexation.

• L’indexation automatique ou « plein texte » qui est fondée sur les techniques de « fouille de textes » ou de « text-mining », dont la principale caractéristique est de tenter d’automatiser le processus d’indexation ;

• L’indexation manuelle par la formalisation ou discrétisation de l’information, dont la principale caractéristique est de tenter de conceptualiser l’information au moyen d’un processus humain.

Nous allons synthétiser ces deux approches.

5.1. Indexation manuelle

L’indexation manuelle consiste à demander à un opérateur spécialisé ou non, de représenter un document textuel ou un extrait de texte, dans une forme exploitable informatiquement. Un exemple d’indexation manuelle est proposée dans [Crampes et al., 2000] qui propose de fonder celle-ci sur une ontologie du domaine d’étude.

Dans de nombreux domaines (TALN, Intelligence Artificielle, Productique, Multimédia, Biologie), on a vu apparaître, ces dernières années, le terme d’ontologie. Si la définition de ce terme semble parvenir à un consensus [Chabert-Ranwez, 2000; Iksal, 2002], son utilisation réelle est beaucoup plus opaque. De l'avis général, elle sert à uniformiser un langage ou tout du moins à désambiguïser un vocabulaire, et doit favoriser ainsi la communication entre les acteurs d'un projet. En fait, même si ce point est souvent passé sous silence, elle est surtout un formidable outil pour forcer les acteurs d'un projet à structurer leurs informations, même si son rôle s'arrête souvent là. Dans la communauté Web sémantique et Intelligence Artificielle, elle est aussi fréquemment utilisée pour indexer des documents dans la mesure où elle est directement inspirée des thésaurus dont les documentalistes usent abondamment dans leur classification.

L’ontologie représente deux notions importantes relativement à un domaine : les concepts du domaine et les relations entre ces concepts. On se référera à [Chabert-Ranwez, 2000] pour une explication détaillée de l’ontologie. [Crampes et al., 2000; Crampes et al., 2002 ] proposent à l’utilisateur de se limiter à l’utilisation des concepts et des relations contenues dans

Chapitre III - Gestion des connaissances et décision l’ontologie pour représenter un texte. Il s’agit alors de parcourir le texte manuellement et d’associer au fur et à mesure une portion de texte à un concept de l’ontologie ou à une relation de cette ontologie entre plusieurs concepts. Le résultat obtenu est un modèle formel du texte de départ, exploité ensuite par des outils informatiques de rapprochement d’informations similaires en se basant sur l’ontologie du domaine [Plantié, 2000]. Le texte lui même n’est plus disponible en tant que tel.

5.2. Indexation automatique

Elle a pour but de représenter la connaissance tout en conservant toutes les nuances et toutes les subtilités que peut exprimer le langage naturel sans perte d’information et de connaissance.

L’indexation automatique comporte deux étapes :

• Définir un modèle de représentation de documents. Différents modèles existent que nous détaillerons dans le chapitre suivant. La plupart des modèles qui nous intéressent sont des modèles vectoriels. En général ces modèles sont fondés sur des mots clés ; • Représentation du document par son modèle.

L’indexation automatique doit permettre à l’opérateur de s’affranchir d’une tâche manuelle d’indexation.

5.3. Comparaison des deux approches

Indexation manuelle et automatique sont deux voies opposées. L’indexation automatique tente de palier au principal défaut de l’indexation manuelle : le processus manuel long et fastidieux d’indexation. Cette raison est amplement justifiable pour favoriser l’indexation automatique quand il s’agit d’intégrer dans une base de connaissance un grand nombre de documents dans lesquels peu de structure repérable existe. Un autre argument également en faveur de l’indexation automatique, est qu’il est difficile de demander à des utilisateurs d’une base de connaissance de procéder à une indexation manuelle chaque fois qu’il souhaite intégrer un document dans la base de connaissance.

En revanche, l’indexation automatique a comme inconvénient principal d’être plus imprécise qu’une indexation manuelle. Dans l’indexation automatique c’est la machine qui décide des mécanismes d’indexation fondés souvent sur des règles donnant des résultats nécessairement moins précis que ce que ferait un opérateur. Si on a pour objet de construire un référentiel métier, alors cela peut être un investissement rentable au niveau de l’entreprise de miser sur une indexation manuelle reposant sur un modèle de type ontologie parce que la granularité de description de la base de connaissance sera plus fine.