• Aucun résultat trouvé

Vers un modèle d’indexation des documents techniques

N/A
N/A
Protected

Academic year: 2022

Partager "Vers un modèle d’indexation des documents techniques"

Copied!
16
0
0

Texte intégral

(1)

des documents techniques

Bernadette Badjo-Monnet* — Marc Bertier*,**

(*) Laboratoire GRESEC – Equipe CRISTAL Institut de la communication et des médias Université Stendhal – Grenoble 3

Domaine Universitaire BP25 38040 GRENOBLE cedex 9

(**) IUT de Valence, université Pierre Mendès-France, Grenoble 2.

Bernadette.Badjo@u-grenoble3.fr Marc.Bertier@u-grenoble3.fr

RÉSUMÉ. Les documents techniques présentent des particularités dans leurs caractéristiques et dans leurs fonctions. Par ailleurs, depuis fort longtemps, ils mêlent au texte des éléments non textuels, comme graphiques, schémas, tableaux et plus récemment photos, etc. Pour nous, ces constats justifient une démarche spécifique pour l’indexation de leur contenu en vue de recherche d’information. Nous présentons ici les fondements méthodologiques de notre approche et les premiers éléments sur lesquels s’appuiera la construction d’une maquette de validation.

ABSTRACT. Technical documents have specific characteristics and specific functions.

Furthermore, for long, they mix non-textual elements, such as graphics, schemes, tables and more recently photos, etc, with text. We believe this justifies a specific approach for the indexation of their content in the scope of information retrieval. We present hereafter the methodological basis and preliminary elements upon which a prototype will be built in order to validate our approach.

MOTS-CLÉS : Indexation. Document technique. Indexation structurelle. Indexation linguistique. Document multimédia.

KEY WORDS: Indexation. Technical document. Structural indexation. Linguistic indexation.

Multimedia document.

(2)

1. Introduction

A l’heure actuelle, des techniques d’indexation automatique du texte des documents électroniques sont opérationnelles. Des techniques d’indexation des images basées sur des descriptions textuelles associées existent, et la mise au point de techniques automatiques d’indexation des images utilisant la reconnaissance des formes progresse (pour une revue complète du sujet, voir [RAS 97]), mais l’intégration des démarches se réalise difficilement. Cela nous paraît venir de ce que la problématique de la recherche d’images, même sur un support multimédia (voir [MOU 99]), ne doit pas se substituer à celle de la recherche d’information (RI), y compris lorsqu’une part de l’information recherchée peut être contenue dans des éléments non textuels du document. Ceci est particulièrement fréquent dans les corpus de documents techniques. Cette étude propose un modèle d’indexation unique (du moins essaie de déterminer les caractéristiques pouvant servir à le construire) pour les médias texte et image en vue de la RI dans les documents techniques.

Dans une première partie de ce texte, nous dégageons la problématique relative à l’indexation des documents techniques multimédia et nous la situons dans le cadre général de l’indexation et de la recherche d’information. Dans une deuxième partie, nous présentons les caractéristiques du modèle unique d’indexation du texte et de l’image que nous proposons.

2. Problématique

2.1. Indexation et recherche d’information 2.1.1. Généralités

La problématique de la recherche d’information tient d’une part à la disponibilité d’une masse d’informations contenues dans un corpus de documents, et aux besoins en information, d’utilisateurs potentiels d’autre part. Pour satisfaire leurs besoins d’information, ces utilisateurs devraient lire tous les documents de ce corpus et ne retenir que les passages pertinents pour eux et dans le contexte présent. L’indexation et la recherche d’information proposent des outils susceptibles de réduire ce travail fastidieux d’investigation et d’apporter ainsi une aide à ces usagers. Pour mesurer l’enjeu derrière cette activité, il suffit de ramener la question au niveau du contexte mondial où la production de médias de toutes sortes, vise un nombre de plus en plus important d’utilisateurs. Le problème du repérage rapide dans cette masse de documents diversifiés, de ce qui est pertinent pour un utilisateur donné dans une situation de recherche donnée, se pose donc sérieusement. L’indexation et la RI doivent non seulement faciliter le travail de recherche, mais elles doivent surtout satisfaire le besoin de l’utilisateur en apportant les éléments pertinents désirés en un temps et à un coût réduits.

(3)

Le résultat concret d’un processus d’indexation est habituellement la production d’un ou de plusieurs index qui vont associer à chaque document d’un corpus, des termes censés cerner les sujets dont ils traitent ou les individus qui traitent de ces sujets (index auteurs). Mais implicitement le mécanisme d’indexation fixe aussi les stratégies de recherche, qui vont utiliser les termes indexés pour repérer les documents pertinents parmi la masse documentaire. Indexer un document c’est donc en extraire des éléments censés représenter au mieux son contenu, puis définir les moyens d’accès à ce document qui vont utiliser ces éléments. On distingue deux types d’indexation : l’indexation « manuelle » (ou intellectuelle) et l’indexation automatique.

2.1.2. L’indexation « manuelle » (ou intellectuelle)

Dans le cas de l’indexation « manuelle » (ou intellectuelle) dans laquelle, il y a une phase préalable de structuration hiérarchique rigoureuse et préalable d’un domaine de connaissance. Cette phase se trouve concrétisée dans un thésaurus et la constitution de la liste des mots clés qui vont représenter chaque document est guidée par ce thésaurus. La représentation du document n’est donc pas neutre mais reflète l’intersection (le recouvrement) entre le document et le thésaurus. De plus (et surtout) la représentation du document est globale et ne tient nullement compte de la structure interne du document.

L’accent dans cette forme d’indexation est mis sur la formalisation du domaine de connaissance (thésaurus) à laquelle doit s’ajuster la représentation du contenu du document. L’interrogation se fera explicitement ou non en utilisant le même thésaurus conformément à une syntaxe particulière imposée pour la formulation des requêtes.

2.1.3. L’indexation automatique

L’indexation automatique, pour sa part, utilise diverses méthodes d’analyse automatique appliquées au texte intégral pour représenter le contenu du document.

Cette indexation ne se fonde sur aucune connaissance a priori relative au domaine.

L’indexation procède en partant du document et non du domaine d’application. Le traitement automatisé du texte intégral permet de tenir compte de la structure logique des documents dans la représentation qui en est construite : les parties d’un document pouvant acquérir une certaine autonomie. A l’occasion de l’interrogation, les recherches seront effectuées sur les parties tout autant que sur les documents intégraux [FOU 98]. « Les processus d’indexation utilisés dans le domaine de la documentation automatique cherchent à trouver dans un texte par une analyse morphologique, lexicale et syntaxique, les éléments de sens caractéristiques ; l’indexation de ces termes fournit une liste qui peut-être considérée comme une représentation du texte, pertinente pour donner une idée de son contenu » [BAL 96].

(4)

2.1.4. Indexation manuelle ou indexation automatique

Les deux types d’indexation peuvent conduire aux mêmes procédés de recherche ; par mots-clés, par thème, par auteur, etc. Cependant les deux démarches diffèrent de manière importante dans les possibilités de gestion du document qu’elles autorisent.

Dans le processus d’indexation manuelle, la prise en compte de la décomposition des documents en parties, sans être impossible, n’a jamais été exploitée explicitement, sans doute en raison de la lourdeur excessive qui en découlerait. Par ailleurs la nature même de l’indexation manuelle (grâce à sa référence à un thésaurus préétabli) permet une précision thématique élevée mais celle-ci est contrebalancée dans le résultat de la recherche par un effet de surcharge cognitive important. Par surcharge cognitive, on entend la sélection (pertinente) d’un document comme contenant l’information cherchée mais sans que le système n’indique la localisation précise du thème, même si celui-ci n’est abordé que dans une partie bien délimitée du document.

L’indexation automatique permet une exploitation du document dans ses parties.

Et la plus faible précision thématique est compensée par une localisation plus précise dans le corpus de l’information recherchée. Pour le cas spécifique du document technique, cette caractéristique de l’indexation automatique revêt une importance cruciale comme nous le verrons plus loin.

2.2. Les documents techniques

Les documents techniques sont l’objet d’un intérêt particulier dans notre équipe depuis quelques années. Les lignes suivantes reprennent certains acquis expérimentaux de [CLA 97].

2.2.1. Caractérisation

La notion de documents techniques recouvre, au sens large, des réalités extrêmement diverses : en ce sens très général, un texte de loi est un document technique, de même qu’un rapport financier annuel relatif à une entreprise, ou encore un rapport épidémiologique, etc. Ceux dont nous parlons ici font référence au domaine technologique. Plus précisément, ils sont relatifs à un « dispositif » ou une classe de dispositifs similaires (gamme d’appareils, versions multiples d’un appareil).

Sous le terme de dispositif, on entend un objet artificiel résultant d’un processus technologique de production. Les documents techniques sont des corpus documentaires particuliers « sous-produits » de ce processus et qui accompagnent ce dispositif. Ce dernier est le plus souvent matériel, mais pas toujours (système d’exploitation d’un ordinateur par exemple).

(5)

Dès lors que les dispositifs couverts sont complexes, ces documentations atteignent des volumes considérables. Des cas extrêmes sont fréquemment cités dans les domaines de l’armement, du nucléaire civil. Dans de tels cas, des systèmes documentaires spécifiques peuvent se trouver justifiés. A l’opposé, dans le cas d’un dispositif simple avec une documentation de faible volume, la production d’index et la RI, perdent évidemment toute pertinence. Entre ces deux extrêmes, l’existence de nombreux cas valide la démarche de recherche de solutions standard.

Typiquement, les documents techniques comportent du texte (unités d’information textuelles) alternant fréquemment avec une forte proportion d’« images » de diverses natures (unités d’information non textuelles). En ce sens, les documents techniques sont généralement multimédias, même si le plus souvent les éléments non textuels se limitent encore aux images fixes. Si les séquences d’images animées sont encore rares dans les documents techniques, cela devrait changer rapidement. L’offre croissante d’outils logiciels d’assemblage d’éléments multimédia et l’intérêt pratique que cela représente pour la documentation technique, permettent d’imaginer dans un avenir proche l’intégration fréquente de séquences vidéo dans les modes d’emploi, ou les consignes de sécurité.

2.2.2. Approches formelles

Le statut sémiologique des éléments non textuels a déjà été amplement étudié (voir [JOL 90] pour une introduction à ces questions). Cependant, la sémiologie s’intéresse à l’image comme signe porteur de sens ou de significations « cachés » et éventuellement multiples (polysémie).

Dans les documents techniques, la distance entre ce que représente une photographie et ses possibles interprétations n’importe pratiquement jamais. A notre sens, le problème de polysémie ne se pose pas réellement puisque seul compte le contenu analogique de l’image qu’explicite le diagramme (schéma, dessin) et non une interprétation parmi plusieurs.

Par ailleurs contrairement à d’autres catégories de documents, les documents techniques sont constitués de parties souvent indépendantes, chacune formant un tout : ils sont conçus pour une lecture non linéaire, et sont donc exploitables partie par partie.

Sur le plan linguistique, les documents techniques présentent un « univers clos » et utilisent un langage relativement spécifique et limité par rapport à la langue écrite en général. Ils adoptent classiquement un style d’expression particulier caractérisé par la prépondérance du mode descriptif, avec une part importante de descriptions procédurales. Une forme de « langage pictural » peut apparaître avec une fréquence significative, en particulier pour les consignes de sécurité.

Au niveau typographique enfin, la mise en forme suit souvent des règles strictes imposées aux auteurs : caractères majuscules pour les titres de chapitre, ou le changement de langue ; caractères gras minuscules pour les titres de paragraphe, etc.

(6)

2.2.3. Fonctions

Les documents techniques comme tous les autres documents renferment des informations relatives aux « objets du discours ». Ces informations sont des éléments qui contribuent à la définition des objets, à la description de leurs propriétés (c’est la fonction dénotative du signe selon Barthes). On peut inférer intuitivement l’importance pour cette fonction, des formes nominales apparaissant dans les textes.

Mais la documentation technique associée à un dispositif rassemble aussi, et de manière très caractéristique, des informations relatives à l’utilisation de ce dispositif et des informations utiles à sa maintenance. Il s’agit d’informations opératoires, procédurales. Le langage utilisé présente des spécificités : formes verbales infinitives (voire impératives), adverbes surtout temporels (fonction relais du signe selon Barthes). Dans cette deuxième fonction, les formes verbales jouent un rôle central.

Autrement dit, les documents constituent un recueil d’informations permettant de répondre aux questions des deux types suivants :

– « qu’est ce que “x” ? » (définition, propriétés) ;

– « comment faire (pour) “x” ? » (informations opératoires décrivant des procédures : mode d’emploi, maintenance, consignes de sécurité).

2.2.4. Rôle des éléments non textuels

Dans la question « qu’est ce que “x” ? », x est (ou peut être) un dispositif ou un composant de dispositif et l’apparence visuelle de celui-ci est alors effectivement un élément de réponse possible.

Dans la question « comment faire (pour) “x” ? », la réponse est une ou plusieurs actions à entreprendre dans une situation donnée normale ou anormale, et là encore une vue même figée des éléments sur lesquels agir est pertinente.

2.3. Indexation et RI pour les documents techniques multimédias structurés 2.3.1. Impact sur l’indexation des spécificités des documents techniques

Sans préjudice pour sa première fonction (définition, propriétés), le document technique peut valablement être soumis à une indexation guidée par un thésaurus de groupes nominaux. En revanche, au regard de la fonction procédurale des documents techniques, les modèles d’indexation uniquement basés sur les syntagmes nominaux sont insuffisants. En effet, ces modèles risquent d’ignorer une part importante de l’information pertinente pour les interrogations du type

« comment faire pour “x” ?».

(7)

Exemple : Premièrement démonter le tambour Nettoyer ensuite soigneusement Le cas échéant, le remplacer par...

Néanmoins, l’écueil est limité dans la mesure où une partie de l’information opératoire peut se trouver dans des groupes nominaux.

Exemple :

1. Démontage du tambour 2. Nettoyage soigné

3. Remplacement si nécessaire

La taille et la complexité d’une documentation technique, valident l’objectif d’une méthode d’indexation automatique, la méthode manuelle s’avérant longue et coûteuse. L’indexation et par conséquent la recherche d’information dans les documents techniques, s’effectuent sur le texte intégral. La prise en compte automatisée des éléments non textuels introduit une perspective intéressante : l’indexation doit opérer sur les composants du document technique, les éléments textuels et non textuels.

2.3.2. Impact sur l’indexation de l’aspect multimédia des documents

Dans les rapports entretenus par les deux médias composant le document technique, les éléments non textuels sont souvent une partie de la réponse aux questions que pose l’usager de ce type de document. Le contenu des deux médias du document doit donc être représenté. Cette représentation a tout intérêt à être réalisée d’une manière homogène, unifiée et adaptée à la phase ultérieure de RI qui offrirait des réponses mixant les modes.

Lorsqu’une unité non textuelle présente un dispositif (ou un élément de dispositif), on trouve en général dans le texte soit une description du dispositif, soit une description d’action. Dans le premier cas, l’élément non textuel et l’élément textuel sont en quelque sorte en situation de paraphrase. Dans le deuxième cas, l’élément textuel précise l’interprétation de l’élément non textuel.

Les descriptions textuelles dans les documents techniques occupent, par rapport aux unités non textuelles liées, des positions diverses (avant, après, juxtaposées, éventuellement éloignées) et remplissent certaines fonctions particulières.

Notre problème ici concerne spécifiquement le traitement des éléments non textuels au même titre que le texte, dans un corpus multimédia. Il s’agit d’intégrer dans l’index d’interrogation, des éléments qui permettent de retrouver ces unités non textuelles, selon la même stratégie de recherche que celle du texte lors d’une requête donnée. Cela suppose d’abord une même méthode d’indexation appliquée aux deux sortes de media, ou au moins des méthodes homogènes au sens où leurs résultats peuvent être fusionnés dans la même représentation du document.

(8)

L’image doit donc occuper une place équivalente à celle du texte (et non secondaire vis-à-vis de celui-ci). Une requête devrait fournir des éléments textuels et non textuels pertinents, et non des éléments textuels pertinents accompagnés de tous les éléments non textuels inclus qu’ils soient ou non pertinents.

Dans cette optique, quels éléments prendre en compte pour permettre la recherche d’informations dans le contexte multimédia du document technique ? Sachant que la RI ne se confond ni avec celle de recherche d’image, ni avec celle de la recherche de textes, mais doit utiliser les éléments de la structuration de l’image comme ceux du texte pour permettre des recherches ultérieures sur ces médias.

3. Vers une proposition de modélisation 3.1. Les acquis antérieurs de l’équipe CRISTAL

Depuis de nombreuses années, l’équipe CRISTAL poursuit des travaux de recherche dans le domaine du traitement automatique de la langue écrite (aussi bien sur le thème de l’analyse que de la génération de textes), de la représentation des connaissances du discours et de la recherche d’information.

Dans la perspective de RI, les acquis en analyse automatique des textes sont envisagés comme outils utiles à l’indexation de leurs contenus. Le principe de base consiste à introduire comme entrées d’index, des formes canoniques des parties du discours rencontrées, voire des formes canoniques des groupes nominaux.

3.2. L’articulation de notre projet

L’extension du mécanisme présenté ci-dessus, au traitement des formes verbales reste à implanter. C’est d’autant plus nécessaire que, comme indiqué plus haut, que nous faisons l’hypothèse qu’il présentera un apport particulièrement crucial pour les documents techniques. De plus, il est important de prendre en compte de manière adéquate, le phénomène linguistique de nominalisation des formes verbales.

La recherche d’information dans le document multimédia et son étape préliminaire d’indexation du contenu, constituent un prolongement des travaux de l’équipe qui paraît naturel en terme de fonctions et d’applications envisagées. En revanche, pour ce qui est des méthodologies à mettre en œuvre, la continuité est bien moins évidente.

L’objectif en direction duquel nous pensons possible de travailler, consiste à traiter de façon aussi similaire que possible (ou mieux de manière unifiée), les éléments textuels et non textuels au niveau de la RI : sauf demande explicite dans la requête, les éléments retenus appartiendraient indifféremment aux deux types. Ceci nous paraît envisageable en particulier, dans le cas du document technique multimédia. Mais en amont de la phase de RI, que peut signifier une phase d’indexation des éléments non textuels « similaire » à celle des éléments textuels.

(9)

De manière relativement immédiate, une solution de principe pourrait consister en la simple indexation d’un texte descriptif associé explicitement à l’élément non textuel par l’auteur ou le documentaliste. Cette démarche, aussi évidente (voire triviale) qu’elle puisse paraître, mérite d’être envisagée en détail : le langage libre ou contrôlé utilisé pour décrire l’élément non textuel aurait vraisemblablement des spécificités à prendre en compte.

Une autre voie que nous souhaiterions étudier est l’exploitation, pour indexer les éléments non textuels, du contexte textuel dans lequel ils apparaissent. Les indices que nous pensons exploitables sont les suivants :

– liens linguistiques explicites dans le discours (« on verra dans la section suivante... »)

– références : liens actifs (hyperliens) ou simples références textuelles (« cf. fig. 1 »),

– localisation « physique » dans la restitution du document, – place dans la structure logique,

– légendes,

– surcharges textuelles,

– éléments non textuels de nature mixte (tableaux, et schémas).

Pour mémoire, la troisième voie pour l’indexation des éléments non textuels, « la voie dont on rêverait », passerait par l’application de l’intelligence artificielle à l’analyse des images, pour en élaborer automatiquement une description (textuelle ? relationnelle ?). Nous ne disposons pas des compétences dans le vaste domaine du traitement d’images, et moins encore du contexte pour nous lancer sérieusement et efficacement dans cette démarche. On voudrait faire remarquer que les fonctions de recherche d’image, en particulier par similarité, n’exploitent pas une représentation sémantiquement élaborée du contenu.

3.3. Approche structurelle et linguistique

L’objectif poursuivi ici est d’étendre le modèle d’indexation proposé précédemment par l’équipe, pour incorporer de manière homogène les informations textuelles et non textuelles aux processus d’indexation et de recherche d’information.

On va principalement envisager cette question sous le point de vue structurel. Cette approche est aussi celle d’autres auteurs dont [FOU 98].

3.3.1. Représentation structurelle du texte et des « images »

A un premier niveau, celui de la représentation structurelle du document, gérer les éléments non textuels comme les éléments textuels ne doit pas présenter de difficultés de principe insurmontables. Il est courant, dans le domaine de l’édition de documents structurés, de représenter sous forme hiérarchique (arborescente) la structure logique d’un document ou d’un corpus de documents, c’est-à-dire la

(10)

décomposition du document ou du corpus de documents en parties, des parties en sous-parties, et ainsi de suite. Si le document ou le corpus est strictement textuel, les unités « atomiques », c’est-à-dire considérées comme élémentaires peuvent être des paragraphes, ou des groupes de paragraphes (avec d’ailleurs des variations possibles dans la définition du paragraphe). Si le document comporte des éléments non textuels, chacun de ceux-ci peut alors être introduit dans la représentation hiérarchique du document, comme entité élémentaire d’un autre type.

On aurait de plus le moyen de distinguer aisément plusieurs types pour les éléments non textuels de nature différente : photographie, schéma, tableau, etc.

Attention cependant, cette possibilité est peut-être plus trompeuse que productive.

En effet, les corpus de documentation technique font apparaître des cas d’éléments non textuels mixant plusieurs natures, comme des photographies surchargées d’éléments schématiques.

Par ailleurs, le principe de la localisation d’un élément non textuel dans la représentation hiérarchique d’un document ou d’un corpus peut présenter une petite différence par rapport à la localisation des éléments textuels. Entre ces derniers, on suppose presque systématiquement l’existence d’un ordre strict à l’intérieur d’un document correspondant à un ordre de lecture privilégié. L’ancrage des éléments non textuels peut être quant à lui moins contraint : une figure peut se rapporter à un ou plusieurs éléments textuels sans pour autant que sa position précise ne soit pertinente dans la séquence de ceux-ci.

3.3.2. Une méthode d’indexation structurelle

Pour l’indexation des documents techniques structurés, Geneviève Lallich- Boidin et Marc Bertier [LAL 97] ont proposé dans le cadre d’un contrat de recherche du ministère de la Recherche, de l’Enseignement et de la Technologie, d’appliquer au texte du corpus, une méthode structurelle qu’il s’agit ici d’étendre.

La méthode est organisée en quatre étapes successives présentées ci-après.

Le corpus [BUL 93] utilisé alors dans le cadre de ce contrat et qui reste l’un des corpus sur lequel nous travaillons régulièrement, est un cédérom de la compagnie Bull, destiné au personnel de maintenance et d’exploitation des systèmes informatiques de la gamme DPS7000. Il contient, sous forme électronique, une vingtaine de manuels de référence relatifs aux matériels et aux systèmes logiciels constituant ces systèmes informatiques. Ces manuels principalement textuels, contiennent néanmoins de nombreuses photographies, schémas, tableaux, passages de programme, etc. Jusqu’ici, les parties non textuelles ont été ignorées.

Etape 1

Dans un premier temps, le texte du corpus est mis au format interne spécifique d’un éditeur de documents structurés. Il s’agissait en l’occurrence de l’éditeur GRIF de V. Quint et I. Vatton de l’INRIA Rhône-Alpes [QUI 86]. Cette phase est

(11)

dépendante du format du corpus et permet dans la suite de faire abstraction de ce format initial. On illustre ci-après le résultat.

1:Titre = Vers un modèle d’indexation des documents techniques 2: Section 1 = Introduction

3: Texte = A l’heure actuelle, des techniques d’indexation automatique du texte des documents électroniques sont opérationnelles. Des techniques d’indexation des images basées sur des descriptions textuelles associées existent, et la mise au point de techniques

automatiques d’indexation des images utilisant la reconnaissance des formes progresse [...]

4: Texte = Dans une première partie de ce texte, nous dégageons la problématique relative à l’indexation des documents techniques multimédia et nous la situons dans le cadre général de l’indexation et la RI. Dans une deuxième partie, nous présentons les caractéristiques du modèle unique d’indexation du texte et de l’image que nous proposons.

5: Section 2 = Problématique

6: Paragraphe 2.1 = Indexation et recherche d’information (généralités) 7: Texte = [...]

8: Texte = [...]

9: Paragraphe 2.2 = Documents techniques (généralités) 10: Texte = [...]

11: Paragraphe 2.3 = Indexation et recherche d’information dans un document technique 12: Texte = [...]

13: Section 3 = Vers un modèle uniforme 14: Paragraphe 3.1 = [...]

15: Texte = [...]

16: Texte = [...]

17: Paragraphe 3.2 = 18: Texte = [...]

19: Texte = [...]

20: Texte = [...]

21: Section 4 = Conclusion 22: Texte = [...]

Figure 1. Enregistrement d’un texte et de sa structure logique

Etape 2

Dans un deuxième temps, chaque élément textuel du corpus est soumis à l’analyseur morphologique de l’équipe CRISTAL. L’analyse linguistique ainsi obtenue est alors insérée dans le document mis préalablement au format interne de GRIF, « en parallèle » du texte original.

(12)

Texte original Analyse morphologique

Vers f*ers P vers AAU LOC FAI

un un D un MAS SNG NNU FAI

modèle modèle F modèle MAS SNG NOM FOR COM

d’ de P de APO FAI

indexation indexation F indexation FEM SNG NOM FOR COM

des de P de APO FAI

les D les GRN PLU DEF FAI

documents documents F document MAS PLU NOM FOR COM

techniques techniques F technique GRN PLU ADJ FFN

Figure 2. Analyse morphologique d’un texte

Etape 3

Dans une troisième phase, on utilise les fonctions de l’interface de programmation de l’éditeur GRIF, pour parcourir les résultats de l’analyse morphologique conformément à la structure hiérarchique. On constitue alors une matrice de comptage des occurrences des entrées lexicales.

Entrée lexicale Unité textuelle :

(ou Groupe nominal) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 etc.

...

document technique 1 1 1

...

image 2

...

indexation 1 3 3 1

...

introduction 1

...

modèle 1 1 1

...

recherche d’information 1 1

...

Figure 3. Décompte des entrées lexicales

(13)

Etape 4

Enfin, la phase finale, celle de recherche d’information à proprement parler, devra exploiter cette matrice, comme représentation du contenu du corpus, et lui confronter la requête du demandeur après traitement linguistique adéquat de celle-ci.

De plus, on imagine aisément que l’on peut envisager de procéder au préalable sur cette matrice, à toutes sortes de traitements statistiques. On peut par exemple combiner les éléments de structure pour construire des unités d’information de taille suffisante (sur les unités d’information, voir [FRO 97]). On peut aussi pondérer à volonté les valeurs des colonnes suivant le niveau hiérarchique, ou encore passer de nombres d’occurrences à des fréquences, ou enfin réduire le poids des termes apparaissant avec une fréquence trop homogène dans le cours du corpus pour être discriminant parmi les parties de celui-ci.

3.3.3. Extension de la méthode

L’examen du principal corpus à notre disposition [BUL 93], constitué de documents de maintenance d’un système informatique, nous conduit à proposer une extension de la méthode ci-dessus.

Première étape

On définit, pour représenter structurellement un document, un nouvel élément terminal DescElNonTextuel (pour descripteur d’élément non textuel) qui peut s’insérer dans la structure comme l’élément textuel terminal Texte. Le nouvel élément est lui-même constitué de texte. On reste ainsi dans le même schéma de principe de représentation du document.

Exemple 1 : un élément non textuel, la photographie de l’imprimante

Cette photographie a pour légende « fig. 1-1 : imprimante vue de face » et elle est incluse dans le paragraphe 1.2 du volume « Imprimante ligne PRU1115 et 1515 » de la documentation de maintenance. Dans la représentation structurelle du corpus, elle apparaîtra au même titre que les éléments textuels du paragraphe 1.2 comme suit.

1:Titre = Documentation de maintenance système Bull GCOS-7

2: Section 1 = Imprimante ligne PRU 1115 et 1515

3: Paragraphe 1.1 = ...

...

7: Paragraphe 1.2 = ...

8: Texte = ...

9: Texte = ...

...

12: DescElNonText = fig. 1-1 Imprimante ligne vue de face

Figure 4. Intégration d’un élément non textuel non structuré dans la structure d’un document

(14)

Mais certains éléments non textuels peuvent être considérés comme structurés.

Le schéma de structure peut être étendu si l’on associe des descriptifs textuels à chaque niveau hiérarchique de la structure de l’élément non textuel.

Exemple 2 : un élément non textuel structuré, la photographie du panneau d’alimentation électrique

Cette photographie a pour légende « fig. 2-5 : panneau d’alimentation électrique » et elle est incluse dans le paragraphe 2.2.5 du même volume. Dans la représentation structurelle du document, elle apparaîtra au même titre qu’un élément non terminal textuel. Cet élément est constitué de deux sous éléments « Disjoncteur principal » et « disjoncteur courant continu », identifiés par des flèches tracées sur la photographie.

1:Titre = Documentation de maintenance système Bull GCOS-7

2: Section 1 = Imprimante ligne PRU 1115 et 1515

3: Sous-section 1.1 = ...

...

7: Sous-section 2.2 = ...

8: Paragraphe 2.2.5 = ...

9: Texte = ...

10: Texte = ...

...

12: ElNonTexStruct = fig. 2-5 Panneau d’alimentation électrique 13: DescElNonText = Disjoncteur principal

14: DescElNonText = Disjoncteur courant continu

Figure 5. Intégration d’un élément non textuel structuré dans la structure d’un document

Autres étapes

L’application de l’analyseur morphologique sur ces nouveaux fragments de textes peut être effectuée, mais il y aura probablement lieu de prendre des précautions particulières liées à la nature du texte. En effet, par exemple, les légendes de photographies, les étiquettes pointant sur des parties d’images sont des textes aux propriétés linguistiques particulières (phrases nominales, etc.).

La phase de comptage ne devrait présenter a priori que peu de changements importants par rapport à la méthode originale.

Enfin, l’utilisation de la matrice pour procéder à une recherche d’information à partir de la requête d’un demandeur, devra quant à elle évoluer de manière importante, en particulier pour tenir compte de la nature (texte ou non texte) de chaque colonne.

(15)

4. Conclusion

Comme nous le soulignions en introduction, des techniques d’analyse automatique de textes sont suffisamment opérationnelles pour être appliquées à l’indexation. Celles de l’image s’inspirant des méthodes appliquées au texte progressent. En effet, les logiciels de recherche d’images basent une forme de recherche dite « visuelle » sur la reconnaissance des formes, fondée sur le calcul de similarité, (comme cela se fait pour les chaînes de caractères textuels) même si ce type de recherche reste élémentaire.

Les méthodes utilisées pour l’indexation automatique de corpus textuels, n’opèrent pas de façon satisfaisante encore sur l’image dans l’état actuel de la Recherche. Nous proposons donc, selon les cas, une indexation basée sur la structuration logique du document technique multimédia dans laquelle l’image est un élément de la structure hiérarchique, soumise à une description textuelle, celle de cet élément, donc pouvant être automatisée.

La mise au point d’un modèle d’indexation en vue de la RI dans un corpus de documents techniques structurés et multimédias doit selon nous, résoudre un ensemble de questions dans trois domaines au moins : relativement à la structure du corpus et des documents qui le composent ; dans le domaine du traitement automatique de la langue (TAL) et dans le domaine de l’analyse quantitative des documents. C’est cette triple approche qui fonde le travail présenté ici. Les points principaux de notre méthodologie sont en place. Ils demandent maintenant à être précisés et affinés dans une phase de mise au point d’une maquette expérimentale.

5. Bibliographie

[BAL 96] BALPE J.-P. et al., Techniques avancées pour l’hypertexte, Hermès, Paris, 1996.

[BUL 93] BULL, CD-DOC Bull DPS 7000 GCOS7 V5/V6, 1993.

[CLA 97] CLAVIER V., FROISSART C., PAGANELLI C., “Objects and Actions : Two Concepts of Major Interest in Information Retrieval in Full-Text Databases”, in Third International Workshop on Applications of Natural Language to Information Systems, Vancouver, 1997, p. 75-86.

[FOU 98] FOUREL, F., Modélisation, indexation, et recherche de documents structurés, Thèse de doctorat, Grenoble, 1998.

[FRO 97] FROISSARTC., BERTIER M. et al., Statut des unités d’information pertinentes pour la recherche dans de gros documents techniques : approches psycho-cognitive et linguistique, Rapport interne, laboratoire GRESEC, équipe CRISTAL, Grenoble, 1997.

[JOL 90] JOLY M., Introduction à l’analyse d’images, Nathan, Paris, 1990.

[LAL 97] LALLICH G., Bertier, M. et al., Rapport final contrat MRET, 1997.

[MOU 99] MOULIS A.-M., « La recherche d’images sur l’Internet », Documentaliste : sciences de l’information, vol. 36, n° 3, 1999.

(16)

[QUI 86] QUINT V., VATTON I., “GRIF : an interactive system for structured document manipulation”, in J. C. VAN VLIET ed., Text processing and document manipulation, Cambridge University Press, 1986, p. 200-213.

[RAS 97] RASMUSSEN, E. M., “Indexing Images”, Annual Review of Information Science and Technology, vol. 32, 1997

Références

Documents relatifs

Ce qui confirme que l'inertie à elle seule peut servir à choisir un sous-ensemble de mots en ne gardant la fréquence que pour s'arrêter quand elle devient trop faible

point un algorithme très eae de reherhe dans une base de données sonores.. qui démontre à la fois la ompatibilité des strutures salables ave

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Discrete time approximation and Monte Carlo simulation of backward stochastic differential equations. Méthodes probabilistes pour les équations de

Thus, when young people are questioned about their mobile phone usage, it is im- possible not to be struck by the high symbolic value they place on the number of calls they

Pour conclure, dans ce chapitre, avec les corpus DES et BES, et afin de tester notre approche de la reconnaissance de l’émotion indépendante du locuteur par la normalisation

Pour évaluer notre approximation de la distance d’édition de graphes, nous avons procédé à différentes expérimentations où à chaque fois nous avons produit une comparaison

Or si ces derniers sont efficaces dans certaines requˆetes comme trouver une recette de cuisine ou le site Web d’une entreprise, ces outils ont plus de difficult´es avec des