• Aucun résultat trouvé

Relations sémantiques pour l’indexation automatique

N/A
N/A
Protected

Academic year: 2022

Partager "Relations sémantiques pour l’indexation automatique"

Copied!
21
0
0

Texte intégral

(1)

pour l’indexation automatique

Définition d’objectifs pour la détection automatique

Lyne Da Sylva

Ecole de bibliothéconomie et des sciences de l’information Université de Montréal

C.P. 6128, succursale Centre-ville Montréal, Québec

H3C 3J7, CANADA

Lyne.Da.Sylva@UMontreal.CA

RÉSUMÉ. L’accès aux documents numériques volumineux ou complexes peut être facilité par un index du style que l’on retrouve à la fin d’un livre, présentant schématiquement les concepts abordés dans le document et les liens que l’auteur a établi entre eux. Il peut s’avérer un outil précieux dans la fouille de documents. Le travail de recherche décrit ici vise à identifier les relations sémantiques présentes dans les index de livre produits manuellement pour déterminer lesquelles peuvent être dérivées automatiquement. Pour ce faire, sept index ont été examinés. Les observations relevées permettent de distinguer deux types de relations : celles pour lesquelles l’analyse du document en main fournit suffisamment d’informations, et celles pour lesquelles des ressources terminologiques externes sont nécessaires. Des pistes pour le développement d’un système d’indexation automatique de monographies sont ainsi identifiées.

ABSTRACT. Access to large or complex digital documents can be facilitated by a so-called

« back-of-the-book index », which presents schematically the concepts discussed in the document and links made between them by the author. It can thus be a very useful tool to explore document content. The research project described here pertains to an analysis of semantic relations expressed in manually-compiled indexes, in order to determine which could be derived automatically. Seven indexes were examined. The resulting observations suggest two types of relations: those that can be calculated simply from the document’s content, and those for which external terminological resources are necessary. This has identified areas for further research into automatic back-of-the-book indexing.

MOTS-CLÉS : indexation automatique, monographies, relations sémantiques.

KEYWORDS: automatic indexing, back-of-the-book indexing, semantic relations.

(2)

1. Introduction

Ce travail s’inscrit dans un programme de recherche visant à améliorer les modes d’accès aux documents numériques, en exploitant leur structure textuelle et terminologique. Notamment, l’accès aux documents volumineux ou complexes peut être facilité par un index du style que l’on retrouve à la fin d’un livre. Celui-ci présente de manière schématique les concepts abordés dans le document ainsi que la manière dont l’auteur a établi des liens entre eux. De plus, il donne accès directement au passage du document visé par l’entrée et constitue de ce fait une aide précieuse à la fouille d’informations dans un document.

On constate ainsi un nouveau champ d’application intéressant pour l’indexation automatique, étant donné la quantité de documents disponibles en format numérique et pour lesquels on aimerait se doter d’outils de navigation supérieurs à la seule recherche plein texte. Les méthodes utilisées doivent cependant dépasser les résultats limités qu’avaient offerts, par le passé, les systèmes d’indexation automatique par fréquence de mots (voir à ce sujet Da Sylva, 2002).

Nous décrivons ici un travail de recherche dont l’objectif était d’examiner à la loupe les relations sémantiques présentes dans un index de livre afin de déterminer lesquelles pourraient être dérivées automatiquement. Ces relations constituent la véritable valeur ajoutée par les index : elle fournit un schéma de l’organisation conceptuelle du document, différente de celle indiquée par la table des matières (ou le plan d’un site web, considéré comme un document à fouiller). Notre présentation est axée essentiellement sur les résultats qualitatifs et quantitatifs de notre étude et des pistes relevées ; elle présente les exigences dont devrait tenir compte toute implémentation subséquente.

2. Contexte

Le type d’index visé ici est connu sous le nom anglais de back-of-the-book index.

Il suppose une méthodologie de développement très différente de celle faite pour l’indexation sommaire des documents d’une collection. La différence entre les deux est exposée clairement entre autres dans Klement (2002) ainsi que dans Korycinski et al. (1990). Une différence importante se situe au niveau de la forme des entrées d’index. Un index de livre (fait dans les règles de l’art) se présente comme un ensemble d’entrées structurées de façon à capter non seulement les sujets traités dans le document mais aussi les relations établies entre eux par l’auteur. Un exemple est donné ci-dessous. A titre de comparaison avec l’index d’une collection, on constate que ce même ouvrage, dans le catalogue de la bibliothèque de l’Université de Montréal, est décrit globalement par les termes suivants : Grossesse ; Soins prénatals ; Accouchement ; Nourrissons.

(3)

Température, 186-189 (Fenwick, 1997) du bain, 138, 141, 227

de la chambre, 118, 121, 178 fièvre, 180, 184, 186-188, 187 pendant la grossesse, 38 prise de la, 187 refroidissement, 178 urgence, 38, 174 voir aussi Thermomètre

Da Sylva (2002) distingue aussi les deux types d’indexation et brosse un tableau de l’état de l’art en indexation automatique de monographies. Deux tâches importantes peuvent déjà recevoir des traitements adéquats : l’extraction de termes complexes (voir par exemple Jacquemin, 2001) et l’identification de noms propres (voir par exemple Chinchor, site web, pour une revue des résultats pertinents de la conférence MUC-7). En revanche, parmi les difficultés importantes qui subsistent, il y a le défi de structurer les entrées sous la forme de vedettes et sous-vedettes.

3. Problématique

On veut répliquer dans une certaine mesure, dans un système automatique, certaines caractéristiques des index produits par les humains, mais le traitement sémantique requis pose des problèmes considérables. L’état de l’art en sémantique computationnelle (voir Lappin, 2003) ne permet pas d’aller au niveau de la compréhension automatique des relations entre les concepts exprimés. Des approches prometteuses pour le repérage de relations sémantiques misent davantage sur les cooccurrences statistiques pour établir un lien entre deux termes. Si ces travaux présentent des résultats intéressants, nous croyons pouvoir contribuer à améliorer la performance des systèmes existants en examinant de plus près les relations sémantiques effectivement présentes dans les index produits par les humains, et ainsi proposer des pistes pour la modélisation de l’automatisation.

4. Hypothèses

Les hypothèses qui ont guidé ce travail portent sur le type de relations présentes dans un index de livre et sur les propriétés du texte qui peuvent expliquer la relation retenue par l’indexeur. On peut classer les entrées complexes d’un index selon la relation sémantique qui existe entre la vedette principale et la sous-vedette. Cette description offre des pistes de recherche quant aux façons de repérer les indices pertinents dans le texte source, ce qui est remarquable étant donné les difficultés notoires associées à ce repérage automatique. Elle permet aussi de déterminer la forme que devraient prendre les entrées générées automatiquement.

(4)

On peut classer les types de relations entre la vedette principale et la sous-vedette en relations de subordination, de superordination ou de coordination. A celles-là s’ajoute la relation de renvoi entre deux vedettes principales.

4.1. Subordination

La subordination existe entre deux concepts lorsque l’un dépend de l’autre, le dominant se trouvant en vedette principale et, le dépendant, en vedette secondaire : l’hyperonymie, la partinomie, les « facettes », etc.

L’hyperonymie est la relation qui existe entre une classe et ses sous-classes. Par exemple, « mammifères » est un hyperonyme de « canidés », « félins », « bovidés », etc. On trouve souvent la relation d’hyperonymie entre une vedette principale et une (ou des) sous-vedettes, par exemple1 :

Allergies, 57 (Fenwick, 1997)

asthme, 210-211

eczéma, 102, 220

La relation de partinomie (ou de « tout à partie ») tient entre une entité composite et ses sous-composantes : entre « vélo » et « guidon », « roue », « fourche » et

« selle », on a une relation partinomique. Elle est moins fréquemment utilisée dans les index, mais présente néanmoins, par exemple :

Tapisserie 13, 19, 24-27, 31, 60, … (Harris, 1993)

colorants 36

trames excentriques 27

La relation que nous appelons de « facette » est moins bien définie logiquement.

Elle vise la décomposition d’un phénomène complexe en aspects secondaires ; ces aspects comprennent notamment les agents, les processus, les outils ou instruments, les produits, les environnements, etc. Une relation de facette existerait par exemple entre la vedette « Intelligence artificielle » et les sous-vedettes « projets de recherche » ou « systèmes » : la facette produits (ou outils). Cette relation rejoint la notion de facettes que l’on trouve dans les thésaurus et spécifiquement l’indexation à facettes telle que décrite par Ranganathan (voir une description mise à jour dans Foskett, 1992).

1. En fait, il s’agit peut-être dans l’exemple qui suit davantage d’une relation de classe à instance plutôt que classe à sous-classe, mais pour les besoins de notre étude nous pouvons les considérer de façon identique. On exclura par contre pour l’instant les cas où les instances sont désignées par un nom propre.

(5)

Cette relation n’est pas généralement considérée sémantique (puisque davantage encyclopédique), mais nous la jugeons importante pour un index de livre, en regard de la remarque suivante sur le vocabulaire scientifique de base, dans Waller (1999, p. 89), un traité méthodologique d’indexation.

« Il [le vocabulaire scientifique de base] comprend un très grand nombre de termes dit “généraux” ou “athématiques”, tels que : fonction, modèle, opération, système, etc. que l’on retrouve souvent dans la partie “mots outils” des thésaurus, car ils ne peuvent pas s’insérer seuls dans un champ sémantique déterminé. Ils sont de ce fait polysémiques et porteurs de sens divers. Ce n’est donc pas le vocabulaire prioritairement utile à l’analyste. »

Si les mots du vocabulaire scientifique de base (dorénavant, VSB) sont inintéressants lorsqu’ils sont utilisés seuls en vedettes principales, ils sont en revanche d’excellents candidats comme sous-vedettes, comme on voit dans l’exemple suivant :

Mise en place et exploitation [d’un système d’information] (Rivard et al., 1992) Activités, 302

Conversion, 307-309 Evaluation, 310, 311 Exploitation, 309-311 Mise en place, 303-309 Objectifs, 300, 302

Les sous-vedettes « activités » et « objectifs » sont effectivement des mots très généraux, mais ils prennent tout leur sens quand ils accompagnent la vedette principale. Cette constatation est d’autant plus intéressante que les mots du VSB sont souvent exclus, dans les systèmes d’indexation automatique, des candidats potentiels pour l’indexation sur la base de leur fréquence élevée. Nous proposons d’une part de ne pas les éliminer a priori, d’autre part de les utiliser spécifiquement comme sous-vedettes, accompagnant une vedette principale tirée du vocabulaire scientifique et technique spécialisé (VSTS) de la monographie en question.

Aux relations de subordination déjà nommées s’ajoutent des relations sémantiques variées que l’on peut exprimer par une préposition à contenu sémantique : « pour », « par », « contre », « envers », etc. Par exemple :

Accessoires (Fenwick, 1997)

pour les aliments solides, 108-109

de premier secours, 229

du sommeil, 120-121

Bain, 134, 145 (Fenwick, 1997)

du bébé, 140-141 sans danger, 141 à l’éponge…

(6)

La préposition suffit à exprimer le lien entre la vedette principale et les sous- vedettes ; elle devrait être facilement repérable de manière automatique.

Enfin, une relation de subordination récurrente est celle que nous appellerons

« de préfixe partagé ». Elle tient entre deux sous-vedettes qui sont regroupées sous la même vedette principale puisqu’elles commencent par le ou les mêmes mots (le préfixe partagé), qui constituent alors la vedette principale. En voici un exemple simple, dont le préfixe partagé est « lecture » :

lecture, 76, 140 (Vandendorpe, 1999)

extensive, 165, 170, 173 intensive, 169, 170, 186 sélective, 173

silencieuse, 17

sur écran, 90, 173, 192, 193, 198 de l’image, 139

Des exemples plus complexes peuvent faire intervenir des inversions dans les sous-vedettes (avec prépositions isolées à la fin) ou autres permutations, l’omission des articles, etc.2 La version simple de cette relation, très facile à établir de façon automatique, est intéressante puisqu’elle est très répandue dans les index de livres.

4.2. Superordination

La relation de superordination entre la vedette principale et la sous-vedette provient souvent d’une entrée inversée, illustrée par la paire d’entrées suivante.

Tapis et carpettes … (Harris, 1993)

Egypte 28, 60, 118-119, … Egypte 8, 9, 10, …

tapis et carpettes 28, 60, 118-119, …

Alors, dans une autre entrée, la sous-vedette est subordonnée à la vedette principale. L’indexeur a jugé bon d’inverser les entrées pour aider au repérage. Il faut se rappeler que l’index est présenté en ordre alphabétique puisque la stratégie de recherche utilisée par l’humain se fonde sur cet ordre3.

2. Une étude complète sur les contraintes qui s’appliquent à ces transformations reste à faire.

3. Notons que si l’index peut être interrogé à l’aide d’une fonction de recherche, alors souvent ces entrées inversées deviennent moins nécessaires.

(7)

4.3. Coordination

Les relations de coordination sont celles où ni la vedette principale ni la sous- vedette ne sont subordonnées l’une à l’autre par une relation facilement identifiable.

Ce type de relation est présent dans les exemples suivants :

Café (Fenwick, 1997)

et allaitement, 93 et grossesse, 53

La forme même de l’entrée laisse croire que les sous-vedettes sont subordonnées à la vedette principale « Café », mais, dans le texte, il est possible que le contraire soit vrai (et d’ailleurs, on pourra retrouver dans le même index les entrées inversées

« Allaitement, et café » et « Grossesse, et café »). On trouve parfois des entrées similaires, mais sans « et » explicite ; on parle alors de coordination implicite, comme dans l’exemple suivant :

Température, 186-189 (Fenwick, 1997)

urgence, 38, 174

La relation n’est pas explicitée. Pourquoi ? Peut-être n’est-elle pas facile à expri- mer succinctement, mais peut-être aussi n’est-il pas jugé nécessaire de la préciser.

L’utilisateur de l’index intéressé par les liens entre la vedette principale et la sous- vedette ira consulter le texte et découvrira ainsi la nature de la relation. Mais il est clair qu’il est utile d’avoir dans l’index une indication que ces deux sujets sont trai- tés conjointement dans le texte. Dans le contexte de production automatique d’in- dex, comme il sera difficile souvent d’expliciter la relation qu’entretiennent deux termes dans le texte, on aimera exploiter cette relation de coordination implicite.

4.4. Renvois

Il est utile aussi de mentionner d’autres relations présentes dans les index de livres, soit les renvois entre les entrées. Des renvois de type voir dirigent un utilisateur d’une entrée sans références vers une autre où elles sont toutes regroupées (il s’agit alors d’un synonyme dans le contexte). Des renvois de type voir aussi ajoutent aux références données dans l’entrées d’autres vedettes que l’utilisateur pourrait trouver intéressantes. Ces dernières sont particulièrement difficiles à repérer et à générer automatiquement, puisqu’elles sont établies sans critères précis, sur la base de diverses associations faites par l’auteur ou par l’indexeur. Elles sont liées à la coordination implicite mais entretiennent une relation moins proche4.

4. En fait, ces renvois sont aussi parfois utilisés pour alléger les entrées très complexes, et dans ces cas la proximité sémantique est équivalente à celle des sous-vedettes.

(8)

5. Méthodologie

Avant d’aborder le développement d’un prototype d’indexation automatique qui chercherait à repérer ces relations dans le texte pour les exprimer dans l’index, nous avons jugé intéressant d’examiner des index existants afin, d’une part, de mesurer l’importance relative de chaque relation (pour orienter les efforts de développement) et, d’autre part, de voir si d’autres relations seraient attestées et viendraient augmenter la liste. Et effectivement, la relation de subordination exprimée par une préposition nous a été suggérée par l’examen des index.

La première étape a été de choisir les index à examiner. Les traités d’indexation de livres soulignent l’individualité de chaque livre et, par conséquent, l’individualité de chaque index. Nous risquions donc d’obtenir des résultats très différents d’un index à l’autre. Comment, alors, s’assurer de la validité des observations ? Nous avons choisi d’examiner uniquement des index qui, par leur grande qualité, seraient au moins de bons exemples de ce qu’un index devrait contenir.

Nous avons donc retenu des index ayant reçu un prix. En effet, certaines sociétés nationales d’indexeurs (The American Society of Indexers, The Society of Indexers au Royaume-Uni, The Australian Society of Indexers) accordent un prix annuel à un index de livre, sur la base de critères de qualité clairement établis. Ces critères sont publiés sur le site web des sociétés5 ; un maximum d’un prix par année est accordé par chaque société, depuis 1978 (1985 dans le cas de l’Australie)6. Il faut noter que ces prix sont accordés par des sociétés d’indexeurs anglophones. Par conséquent, les livres et leurs index sont uniquement en anglais. Par ailleurs, les livres publiés en français contiennent moins souvent des index.

Tel que prévu, les livres retenus présentent une grande variété de thèmes et de modes de présentation (voir le corpus décrit ci-dessous), des ouvrages philoso- phiques aux techniques de gestion d’oiseaux de proie. Ils partagent néanmoins la caractéristique d’avoir été considérés « de très bonne qualité » par des experts7.

5.1. Corpus

Une sélection d’index primés a ensuite été examinée afin de caractériser aussi finement que possible la relation entre les vedettes principales et chacune de leurs

5. Adresses URL : http://www.asindexing.org/site/awards.shtml, http://www.socind.demon.co.uk/awards/Wheatley.htm,

http://www.aussi.org/prizes/medal.htm, respectivement.

6. Il est intéressant de remarquer que Wittmann (1990), qui étudie aussi les propriétés des entrées d’index de livres, pose également son choix sur des index primés.

7. Il convient toutefois de noter que seuls les index présentés au concours, c’est-à-dire amenés à l’attention des juges, sont considérés. Il y a donc sans doute d’excellents index absents de cette liste, faute d’avoir été présentés aux concours.

(9)

sous-vedettes. Nous avons donc examiné un corpus constitué de 4 index primés, ceux des ouvrages suivants : Arnold, The Letters of Matthew Arnold (index préparé par Margie Towery ; Wilson Award, 2002) ; Jammer, Concepts of Mass in Contemporary Physics and Philosophy (index préparé par Nedalina Dineva ; Wilson Award, 2000) ; Giron Pendleton, Raptor Management Techniques Manual (index préparé par Jeanne Moody ; Wilson Award, 1988) ; et Darwin, The Works of Charles Darwin (index préparé par Richard Raper ; Wheatley Medal, 1989).

Cet examen a été précédé d’un prétest, sur trois autres monographies (Eden et al., 1989 ; Morris et al., 1998 et Cooke, 2001), afin de valider notre approche et de raffiner la grille d’analyse. Parmi ces livres, l’index de Eden et al. (1989), préparé par Marcia Carlson, a lui aussi reçu une distinction (Wilson Award, 1990) alors que les deux autres ont reçu des critiques élogieuses rapportées dans The Indexer (vol. 21, n° 3, 1999, p. 137 et vol. 23, n° 1, 2002, p. 43, respectivement).

Pour la plupart, l’index au complet a été scruté, entrée par entrée8. Chaque paire

« vedette/sous-vedette » a été classée selon la relation perçue. Par contre, certains index trop volumineux ont été traités partiellement. Pour l’index de l’ouvrage de Darwin l’examen n’a porté que sur les entrées aux lettres E et F (24 pages ; ces lettres ont été prises plutôt au hasard, mais illustrent des exemples intéressants).

Quant à l’index de The Letters of Matthew Arnold, qui contenait presque uniquement des noms propres (pour lesquels les relations sémantiques sont souvent peu appropriées), seules les pages contenant plusieurs entrées constituées de noms communs ont été retenues (28 pages en tout).

5.2. Relations sémantiques

Certaines relations avaient été identifiées au départ : générique-spécifique ; tout- partie ; VSTS-VSB. Certaines autres ont émergé du prétest, notamment l’utilisation d’une préposition véhiculant un sens précis (par exemple, « entre », « versus », etc.).

Notons qu’il n’est pas toujours facile de déterminer la relation en jeu. Par exemple :

identificateur … (Meyer et al., 1980)

association nom-adresse : 193 choix des noms : 187-190

La relation dans le premier cas n’est pas un des types spécifiques identifiés ci- dessus. Elle s’apparente sans doute à « expliqué en termes de »… et illustre le fait qu’il n’y a en réalité aucune limite quant aux relations qui peuvent être mises en jeu dans les index ; on aurait tort de vouloir établir une liste fixe. Dans ces cas, nous avons le plus souvent opté pour la relation générale de « coordination implicite ».

8. Nous désirons remercier chaleureusement nos assistants de recherche, Nourredine Elmqaddem et Mireille Léger-Rousseau, étudiants de maîtrise à l’EBSI.

(10)

Les entrées d’index sont très courtes, elliptiques, et peuvent donner lieu à plusieurs interprétations, que l’utilisateur aura tout le loisir d’aller vérifier dans le texte.

6. Difficultés méthodologiques

La difficulté principale consistait bien sûr à déterminer objectivement la nature de la relation sémantique en jeu dans une paire donnée. Si certaines étaient claires, d’autres étaient plutôt ambiguës. Dans le premier exemple ci-dessous, s’agit-il de VSTS/VSB ? et dans le deuxième, partie-tout ou VSTS/VSB ? Finalement, pour le troisième : VSTS/VSB ou subordination par préposition ?

advertising … (Cooke, 2001)

accuracy 136

European Union (Morris et al., 1998)

regulations and directives

age (Morris et al., 1998)

abilities, attitudes and susceptibilities related to …

Dans le doute, la paire était le plus souvent classée dans les relations de coordination implicite.

Une autre difficulté était de déterminer si une sous-vedette donnée représentait dans le contexte un mot du VSB. Encore une fois, certains cas étaient clairs (tel le premier, ci-dessous) alors que d’autres, non (le deuxième).

checklists and rating tools 154-64 (Cooke, 2001)

advantages and disadvantages 160-4

personal home pages 97-104, 207 (Cooke, 2001)

counter 70, 101, 203

En effet, « counter » peut être un mot général dans certains contextes et spécialisé dans d’autres. Le mot « analyse » est un autre bon exemple ; en mathématiques, il a un sens spécialisé mais il possède aussi un sens général. Ou encore, un terme peut être relativement général, selon le contexte, comme

« cellule », qui appartient au vocabulaire de base de la biologie, mais pas nécessaire à celui d’autres domaines.

Egalement, dans certains cas deux relations différentes peuvent être identifiées pour une même paire, comme dans l’exemple suivant (préposition et VSTS/VSB) :

automation (Morris et al.)

positive reactions to 101, 304, 315

(11)

Dans ces cas, par contre, si la préposition est régie par la sous-vedette, elle est considérée sémantiquement vide ; la relation sémantique avec la vedette principale (ici VSTS/VSB) prime alors (ce même traitement a été appliqué à la préposition

« of »). Cependant, nous avons noté également (donc, en double) la relation indiquée par la préposition, pour des questions d’aisance de repérage automatique.

Enfin, dans le cas de sous-vedettes exprimées par plusieurs mots, parfois un des mots de la sous-vedette appartenait au VSB mais la sous-vedette dans son ensemble exprimait un concept plus complexe. Nous avons retenu dans ce cas la relation entre la vedette principale et la tête sémantique de la sous-vedette. Pour le premier exemple ci-dessous, c’est une coordination implicite entre « equivalence principle » et « first use of term » (malgré « use » et « term » qui appartiennent au VSB) alors que pour le deuxième c’est VSTS/VSB puisqu’en plus du fait que « level » soit du VSB, le lien entre « coverage » et « detail » est du même type.

equivalence principle (Jammer, 2000)

first use of term, 109

coverage 64-9 (Cooke, 2001)

level of detail 65

Quand une vedette principale possède une seule sous-vedette, il est courant pour l’indexeur de fusionner en une seule vedette, par exemple : « dépliage d’une boucle » plutôt que « boucle, dépliage (d’une) » ou encore « dépliage, (d’une) boucle) ». Nous n’avons pas considéré ces cas dans notre analyse.

7. Statistiques

Les tableaux 1 (prétest) et 2 (index primés) en page suivante présentent un résumé des résultats obtenus pour les relations de VSTS/VSB, hyperonymie, relation tout-partie, coordination implicite, coordination explicite (avec « et »), subordination (par la préposition « of »), préposition véhiculant un sens et renvois de type « voir » (synonymie). Pour le tableau 1, comme cette étape constituait le prétest durant lequel nous avons raffiné notre grille d’analyse, les données compilées sont incomplètes. Elles illustrent toutefois les particularités variables des index.

8. Discussion

Les relations sont présentes à des degrés (très) différents dans les index étudiés, et elles requièrent des stratégies différentes pour la détection automatique.

(12)

8.1. Distribution des relations

D’abord, il faut remarquer qu’il y a dans certains index un nombre élevé de sous- vedettes par vedette alors que dans d’autres, plusieurs des entrées n’ont aucune sous- vedette. Cela donne des indications sur la richesse des regroupements sémantiques effectués par l’indexeur. Ensuite, certains index privilégient un type de relation au détriment des autres ; cela dépend grandement du sujet couvert par la monographie autant que du style de l’indexeur. Par exemple, l’ouvrage de Darwin contient un grand nombre de relations générique/spécifique, prévisibles dans ces traités sur la classification animale. En contraste, l’ouvrage de Giron Pendleton contient un nombre élevé de relations VSTS/VSB, puisqu’on explique diverses facettes de la gestion des oiseaux de proie.

Eden et al. Morris et al. Cooke

Taille de la

monographie9 323 p. 340 p. 208 p.

Taille de l’index10 4 % (14 p.) 2,4 % (8 p.) – index

sujets 1,9 % (4 p.)

Nombre d’entrées 487 563 230

Nombre de sous-

vedettes 678 111 344

Références venant de

sous-vedettes 58,2 % (678 / 1165) 16,5 % (111 / 674) 60,0 % (344 / 574) VSTS/VSB 8,3 % (56 / 678) 31,5 % (35 / 111) 25 % (86 / 344)

Hyperonymie 2,6 % (9 / 344)

Partinomie 0

Instance 19,8 % (68 / 344)

Coordination

implicite 19,5 % (67 / 344)

Coordination

explicite 55,3 % 375 / 678) 1,8 % (2 / 111) Préposition « of » 14,5 % (98 / 678) 43,2 % (48 / 111)

Autres prépositions 30,6 % (34 / 111)

Synonymie (entrées) 11,3 % (55 / 487) 5,3 % (30 / 563) 18,7 % (43 / 230) Tableau 1. Prétest

9. En fait, c’est le nombre de pages indexées, excluant notamment l’index, les pages liminaires, éventuellement les annexes…

10. L’index se présente sur deux colonnes.

(13)

Arnold Giron

Pendleton Jammer Darwin

Taille de la

monographie11 5 volumes 390 pages 180 pages n/p

Taille de l’index12 28 pages (retenues sur 167)

5,6 %

(22 pages) 12 pages 24 pages13

Nombre d’entrées 949 510 487 649

Nombre de sous-

vedettes 1363 2029 610 1498

Références venant

de sous-vedettes 59,0 %

(1363 / 2312) 80,0 %

(2029 / 2539) 56 %

(610/1097) 69,8 % (1498 / 2147) Relations

étudiées14 1363 2029 670 1498

VSTS/VSB 41,9 % (581 / 1363) 65,4 %

(1326 / 2029) 30,3 %

(203 / 670) 7,2 % (108 / 1498)

Hyperonymie 0 0 5,2 %

(35 / 670) 33,6 % (503 / 1498)

Partinomie 11,1 % (152 / 1363) 0 0,001 %

(1 / 670)

4,8 % (72 / 1498)

Instance 0 0 0 0

Coordination

implicite 0 0 26,7 %

(179 / 670) 54,4 % (815 / 1498) Coordination

explicite 5,0 % (69 / 1363) 8,6 % (174 / 2029)

20,6 %

(138 / 670) 0

Préposition « of » 24,4 % (332 / 1363) 7,7 % (156 / 2029)

3,1 %

(21 / 670) 0

Autres

prépositions 16,8 % (229 / 1363) 18,4 % (373 / 2029)

13,9 %

(93 / 670) 0

Synonymie15

(entrées) 1,5 % (14 / 949) 1,5 % (8 / 510) 1,5 % (10 / 670)

13,4 % (87 / 649) Tableau 2. Test : analyse des index primés

11. En fait, c’est le nombre de pages indexées, excluant notamment l’index, les pages liminaires, éventuellement les annexes.

12. L’index se présente sur deux colonnes.

13. Mais l’index au total fait tout le volume 29.

14. Le nombre de relations peut dépasser le nombre de sous-vedettes, à cause des prépositions.

15. Ces renvois s’additionnent aux entrées constituées de vedettes et sous-vedettes et ne doivent pas être considérés dans les calculs de pourcentages.

(14)

Plus que les chiffres observés, il faut retenir que ces différentes relations sont bel et bien attestées dans les ouvrages et que les entrées complexes avec sous-vedettes reliées représentent au bas mot 16,5 % des références des index examinés (et, en moyenne, 57 %). La détection de celles-ci s’impose donc dans un système d’indexation automatique qui veut imiter ce type d’index.

Les associations de type VSTS/VSB représentent un sous-groupe intéressant.

Bien que pas nécessairement très fréquentes, elles permettent, par des techniques relativement simples (esquissées ci-dessous), de présenter une information utile qu’il serait plutôt difficile de dériver autrement. L’originalité de notre démarche repose donc de façon importante sur la décision d’inclure stratégiquement les termes du VSB comme sous-vedettes dans l’index.

La relation de « coordination implicite » a été retenue dans un grand nombre de cas. Il peut être nécessaire de justifier sa présence dans notre étude et dans le modèle que nous développons : lors de la construction automatique de l’index, le repérage risque de n’être pas suffisamment sophistiqué pour identifier spécifiquement dans le texte, entre deux concepts repérés, la relation qu’ils entretiennent. Garder une entrée d’index vague et ambiguë (de coordination implicite) peut être préférable à proposer une relation mal identifiée, souvent erronée16.

Au sujet de la coordination encore, il apparaît que l’utilisation du « et » dans l’index dépende du style de l’indexeur (ou de la politique de la maison d’édition).

Les deux relations de coordination (implicite et explicite) pourront être confondues dans un système d’indexation automatique. Egalement, l’utilisation de la préposition (« of » ou une autre), aussi bien à l’initiale qu’à la finale de la sous-vedette, varie elle aussi beaucoup d’un index à l’autre et semble attribuable au style de l’indexeur.

On peut avancer que l’omission de « of » ne nuit pas à la compréhension des entrées ; ces dernières, dans le système que nous élaborons, se confondraient donc avec les cas de coordination implicite. Par contre, les autres prépositions méritent habituellement d’être maintenues pour conserver le sens de l’entrée.

8.2. Stratégie de détection

Qu’est-ce qui est nécessaire maintenant pour repérer chacune de ces relations ? Les réponses à cette question constituent les spécifications théoriques pour le modèle d’indexation automatique de monographies que nous sommes en train d’élaborer.

16. Entre-temps, un travail exploratoire a été fait pour caractériser davantage la « coordination implicite », notamment dans le cas de l’index de l’ouvrage de Darwin. Des relations plus spécifiques ont été identifiées et seront utilisées dans la suite pour raffiner l’analyse. Nous ne les avons pas présentés ici car les autres index n’ont pas encore été examinés à nouveau de cette manière.

(15)

D’abord, soulignons que l’approche implique d’une part la détection de deux termes différents dans un même passage, et d’autre part un verdict quant à la relation intéressante qui les unit. Certaines des relations identifiées le seront sur la base de fréquence de cooccurrence statistique significative. D’autres le seront à l’aide de ressources terminologiques externes (synonymes, hyperonymes, VSB, etc.). Nous donnons dans la suite plus de détails et, là où c’est possible, certains exemples produits par notre prototype actuel.

8.2.1. Analyse préalable du document

Avant de détecter des relations entre termes, encore faut-il identifier ceux-ci (mots isolés et expressions à plus d’un mot). Cette étape exige des stratégies d’extraction de la terminologie, dont nous n’avons pas parlé ici. Notre prototype actuel fait l’extraction de suites de deux, trois et quatre mots pleins après une lemmatisation partielle. Egalement, pour calculer si deux termes ont une fréquence de cooccurrence statistique significative dans une fenêtre donnée, il faut définir ces fenêtres, c’est-à-dire subdiviser le document en « passages » ou « segments » (voir Da Sylva, 2002). Notre prototype procède d’abord à un découpage en passages, basé sur des critères de cohésion lexicale (de façon semblable à celle décrite dans Aït el- Mekki et al., 2002) : deux phrases sont incluses dans le même passage si leur score de similarité (obtenu en comparant des vecteurs de mots) dépasse un certain seuil.

Les anaphores (ce, ils, etc.) influencent aussi le score de similarité. Des statistiques d’occurrence de chaque terme et mot sont ensuite calculées pour le document en entier aussi bien que pour chaque passage ; elles servent à mesurer la « force » de chaque relation identifiée. Enfin, des poids sont assignés à chaque mot, à chaque terme et à chaque paire vedette/sous-vedette ; il s’agit d’une combinaison linéaire d’un score lié à la fréquence et d’un autre lié à la forme, dont la pondération varie selon le type d’entrée candidate. Les candidats dont le poids dépasse un certain seuil sont retenus dans l’index final.

8.2.2. Coordination implicite

La relation de coordination implicite est la plus simple à détecter, vu les précisions que nous avons apportées ci-dessus : on vise à repérer deux termes mentionnés conjointement dans le même passage. La détection repose essentiellement sur une cooccurrence statistique significative entre deux termes dans un passage. Pour repérer cette relation symétrique de coordination implicite, nous appliquons sur les termes du document une métrique basée sur la mesure tf*idf, qui combine la fréquence d’un terme dans un document à la dispersion de ce terme dans une collection. Nous voyons un document comme une collection de passages, et nous nous servons de la dispersion du terme dans les autres passages pour relativiser la mesure de cooccurrence. D’autres métriques possibles sont le ratio de vraisemblance (likelihood ratio), la mesure d’information mutuelle (Church et al., 1991) ou l’analyse de mots reliés (co-word analysis, He, 1999), avec lesquelles nous expérimenterons prochainement.

(16)

Quelques exemples produits par notre prototype (sur un texte portant sur l’accès aux documents sur le web) :

relations entre les textes, réseau Internet

producteurs de bases de données bibliographiques, textes disponibles sur le web

Il est à noter que la relation qui unit la vedette et la sous-vedette n’est pas claire et que la relation de coordination implicite semble plus utile ici.

8.2.3. Hyperonymie et synonymie

L’outil le plus utile pour soutenir la détection automatique des relations d’hyperonymie et de synonymie est un thésaurus (documentaire) dans lequel sont encodées ces relations. L’accès à un thésaurus du domaine de la monographie serait ainsi indéniablement utile. Bien sûr, les thésaurus spécialisés sont rares, et il serait illusoire de penser en obtenir facilement un pour toute nouvelle monographie. Nous ne ferons qu’esquisser ici des pistes de solutions, sous la forme de techniques de repérage automatique de relations hyperonymiques ou synonymiques à l’aide de patrons lexico-syntaxiques (voir notamment Bertrand-Gastaldy et Pagola, 1992 ; Grefenstette, 1994 ; Hearst, 1998 ; Sundblad, 2002). Par ailleurs, un thésaurus spécialisé ne sera pas suffisant. Il faudra aussi un thésaurus de la langue générale, pour repérer par exemple des relations entre les termes n’appartenant pas proprement à la langue de spécialité (le VSTS de la monographie). Une autre optique est d’exploiter davantage les propriétés de distribution statistique des paires de termes. Des approches comme celles de Lawrie et Croft (2000) de Krishna et Krishnapuram (2001) ou de Vinokourow et Girolami (2000) tentent de déceler des relations hiérarchiques sur la base de cooccurrences asymétriques entre concepts (les résultats reflètent toutefois d’autres relations asymétriques non hiérarchiques).

Il est clair que cette relation, qui serait très utile, sera en pratique difficile à réaliser ; notre prototype actuel ne s’y aventure pas.

Les remarques ci-dessus s’appliquent aussi à la synonymie. La monographie seule ne permettra pas d’identifier des synonymes. En effet, pour deux expressions synonymes, un même document contiendra vraisemblablement une seule des deux expressions (on parle ici de l’utilisation d’une terminologie unique par un auteur)17. Nous pouvons faire l’hypothèse que des synonymes posséderont des fréquences de cooccurrences similaires avec d’autres termes et qu’ils seront regroupés par un effet secondaire de la détection de la relation de coordination implicite. Cette hypothèse reste à vérifier.

17. On trouvera par contre parfois des cas où des expressions équivalentes sont utilisées en alternance par l’auteur pour des raisons de style.

(17)

8.2.4. Partinomie

Encore ici, un thésaurus contenant cette relation serait utile. Ils sont toutefois rares à l’inclure. Bertrand-Gastaldy et al. (1992) et Sundblad (2002) présentent des moyens d’identifier automatiquement ce type de relation, à l’aide de patrons lexico- syntaxiques du type « est constitué de », etc. Ce serait une piste à suivre.

8.2.5. Prépositions

Les relations sémantiques variées exprimées par les prépositions sémantiquement pleines peuvent aider à créer des entrées d’index utiles sans avoir à faire une analyse sémantique complexe du texte. Le cas idéal se présente lorsque l’on repère dans le texte la vedette principale et la sous-vedette, les deux reliées directement par la préposition en question. Dans notre corpus, étant donné l’entrée d’index suivante, on trouve dans le texte la phrase associée qui la suit.

empty universe (Jammer, 2000)

inertial mass of particle in, 157

… that the inertial mass of a particle in an otherwise totally empty universe is zero, … Bien sûr, en contraste avec l’exemple précédent, on trouve des cas comme le suivant, où l’index utilise une préposition différente de celle présente dans le texte (et qui illustre de surcroît la normalisation préalable nécessaire) :

colour … (Morris et al., 1998)

personal preferences about

Many operators have a strong personal preference for a particular colour.

La stratégie ici repose sur l’identification dans le texte d’expressions complexes contenant une préposition, prépositions qui sont listées dans une ressource lexicale externe. L’entrée d’index est obtenue en découpant le terme en deux parties : la vedette principale (c’est-à-dire ce qui précède la préposition) et la sous-vedette (qui contient la préposition). Ceci aura comme effet secondaire de regrouper les entrées commençant par la même expression mais contenant des prépositions différentes.

Un certain regroupement des prépositions quasi synonymes est aussi possible (par exemple « pour » avec « afin de », « via » avec « par », etc.). Il y aurait lieu aussi de regarder de plus près la sémantique de chaque préposition et de proposer des indicateurs autres qui suggèrent la présence de la relation.

Voici quelques exemples produits par notre prototype : accès

aux documents aux textes par le web

pour le grand public

(18)

à des textes à l’information à leur contenu à tous les textes

à un nombre jamais vu de textes 8.2.6. VSTS/VSB

Pour repérer la relation entre un terme du VSTS et un terme du VSB, on doit d’abord détenir un VSB approprié. Nous envisageons deux méthodes différentes pour générer le VSB. D’abord, une approche théorique où l’on dégage des propriétés sémantiques des mots du VSB (mots généraux, partagés par toutes les disciplines de la science, de sens abstrait) et où l’on crée une liste manuellement. Une deuxième approche consiste à extraire automatiquement d’un corpus varié les mots communs à tous les sous-domaines de la collection. Nous procédons actuellement à l’évaluation de ces deux méthodes.

Pour les termes du VSTS, une analyse statistico-linguistique globale du document fournit des candidats-termes appartenant à la langue de spécialité du document. Il s’agit d’abord de retirer de la liste globale les mots du VSB. Alors, parmi les termes restants, on considère que les plus fréquents définissent le VSTS de la monographie. Les candidats proposés pour l’index pour la relation VSTS-VSB dans un passage consistent de paires de termes, l’un issu du VSTS et l’autre du VSB, et dont la fréquence de cooccurrence dans le passage est significative (par la mesure tf*idf ou le ratio de vraisemblance).

Notre prototype utilise présentement la liste de VSB établie manuellement et produit des exemples comme les suivants :

sciences de l’information rôle

texte

identification contenu du web

taille

Il est remarquable que cette méthode de génération automatique, qui ne repose que sur une liste VSB établie au préalable et sur l’identification de la terminologie spécifique au document (par les statistiques de fréquence), donne lieu à des entrées d’index très évocatrices.

9. Conclusion

Nous avons procédé à un examen minutieux de relations sémantiques manifestées dans des index de monographies. Les résultats de notre étude soulignent l’importance de capter de telles relations pour fournir un index utile. Chaque type de

(19)

relation demande des méthodes de détection différentes : analyse limitée au document en main (pour les calculs de statistiques d’occurrence ou la décomposition de termes complexes avec prépositions) ou utilisation de ressources externes (thésaurus, liste du VSB). Les deux types demandent donc des efforts de développement qualitativement différents.

Nous avons ainsi présenté les spécifications nécessaires au développement d’un système d’indexation, résumés ici : identification préalable des mots (isolés) et termes (complexes) du document ; subdivision du document en passages ; dans chaque passage, repérage et pondération de toute paire de termes unis par une des relations identifiées ci-dessus ; extraction des termes retenus pour l’index sur la base de la pondération. Les méthodes reposent donc sur l’analyse de l’organisation textuelle et conceptuelle du document et sur l’extraction de la terminologie spécifique à celui-ci.

Notre étude permet de surcroît une stratégie de développement incrémentale : sur un canevas de base qui identifie la terminologie du document et le découpage en passages, on peut greffer des modules de détection de relations selon les ressources terminologiques ou les algorithmes disponibles. Nous travaillons présentement au raffinement du prototype actuel, dont les résultats sont déjà étonnants par leur pouvoir évocateur : des paires vedette/sous-vedette sont plus suggestives à l’utilisateur que de simples listes alphabétiques de termes. Plusieurs aspects du prototype sont à optimiser, une évaluation formelle est souhaitable, et il reste toute la question de l’acquisition (ou de la génération) des ressources terminologiques nécessaires.

On voit que la tâche est ambitieuse et les difficultés nombreuses, mais les pistes que nous avons soulevées dans cet article nous semblent des objectifs très intéressants à poursuivre.

Remerciements

Ce projet est financé par une subvention de recherche du Conseil de recherche en sciences naturelles et en génie du Canada. Nous tenons à remercier les assistants de recherche sur ce projet, Nourredine Elmqaddem et Mireille Léger-Rousseau, ainsi que des évaluateurs anonymes du numéro spécial de la revue Document numérique.

Nous demeurons responsable, bien sûr, de toute erreur ou omission qui subsiste.

(20)

10. Bibliographie

Aït El Mekki T., Nazarenko A., « L’index, une représentation synthétique de document », In : Atelier « Le résumé de texte automatique : solutions et perspectives », Paris, 14 décembre 2002. Disponible en ligne, http://www.atala.org/je/021214/AitElMekki.pdf (page consultée le 25 février 2003).

Arnold M., The letters of Matthew Arnold, Charlottesville, Va., University Press of Virginia, 1996.

Bertrand-Gastaldy S., Pagola G., « L’analyse du contenu textuel en vue de la construction de thésaurus et de l’indexation assistées par ordinateur; applications possibles avec SATO », Documentation et bibliothèques, vol. 38, n° 2, avril-juin 1992, p. 75-89.

Chinchor N.A., Overview of MUC-7/MET-2, 2001, (page consultée le 26 mai 2003) http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings

/muc_7_proceedings/overview.html.

Church, K., Gale, W., Hnaks, P., Hindle, D., « Using statistics in lexical analysis ». In : Zernik, U., Lexical Acquisition: Exploiting On-Line Resources to Build a Lexicon, Hillsdale, N.J., Lawrence Erlbaum, 1991, p. 115-164.

Cooke A., A Guide to Finding Quality Information on the Internet. 2nd edition, London, Library Association, 2001.

Darwin C., The works of Charles Darwin, London, Pickering & Chatto, 1986 (29 volumes).

Da Sylva L., « Nouveaux horizons en indexation automatique de monographies », Documentation et bibliothèques, vol. 48, n° 4, oct-déc. 2002, p. 155-167.

Eden L., Miller S.E., Nuclear Arguments : Understanding the Strategic Nuclear Arms and Arm Control Debates, Ithaca/London, Cornell University Press, 1989.

Fenwick E., Mon bébé, je l’attends, je l’élève (traduction de The Canadian Medical Association complete book of mother & baby care), Montréal, Reader’s Digest Association, 1992.

Foskett D.J., « Ranganathan and ‘user-friendliness’ », Libri, vol. 42, n° 3, 1992, p. 227-234.

Giron Pendleton B.A., Raptor management techniques manual, Washington, D.C., Institute for Wildlife Research, National Wildlife Federation, 1987.

Grefenstette G., Explorations in automatic thesaurus discovery, Dordrecht, Kluwer Academic Publishers, 1994.

Harris J., 5000 ans de textiles, Londres, Parkstone D.P., 1993.

He Q., « Knowledge discovery through co-word analysis », LibraryTrends, vol. 48, n° 1, 1999, p.133-159.

Hearst M., « Automatic Acquisition of Hyponyms from Large Text Corpora », In : Proceedings of the Fifteenth International Conference on Computational Linguistics, Nantes, France, 1992, p. 539-545.

Hearst M., « Automated Discovery of WordNet Relations », In : Fellbaum C., WordNet: An Electronic Lexical Database, Cambridge, MIT Press, 1998.

(21)

Jacquemin C., Spotting and Discovering Terms through Natural Language Processing, Cambridge, Mass, MIT Press, 2001.

Jammer M., Concepts of mass in contemporary physics and philosophy, Princeton, N.J., Princeton University Press, 2000.

Klement S., « Open system versus closed system indexing », The Indexer, vol. 23, n° 1, 2002, p. 23-31.

Korycinski D., Newell A.F., « Natural-language processing and automatic indexing », The Indexer, vol. 17, n° 1, 1990, p. 21-29.

Lappin S., « Semantics ». In : Mitkov, R., The Oxford Handbook of Computational Linguistics, Oxford, Oxford University Press, 2003.

Lawrie D., Croft B., « Discovering and Comparing Topic Herarchies », In : RIAO 2000, p. 314-330.

Meyer B., Baudoin C., Méthodes de programmation, Paris, Eyrolles, 1980.

Morris A., Dyer H., Human Aspects of Library Automation. 2nd edition, Brookfield, VT, Gower, 1998.

Rivard S., Talbot J., Le développement de systèmes d’information, Sillery, Presses de l’Université du Québec, 1992.

Sundblad H., « Automatic Acquisition of Hyponyms and Meronyms from Question Corpora », In : Proceedings of the Workshop on Natural Language Processing and Machine Learning for Ontology Engineering (OLT’2002), Lyon, France, 2002.

Vandendorpe C., Du papyrus à l’hypertexte. Essais sur les mutations du texte et de la lecture, Montréal, Boréal, 1999.

Vinokourov A., Girolami M., « A Probabilistic Hierarchical Clustering Method for Organising Collections of Text Documents », In : Proceedings of the 15th International Conference on Pattern Recognition (ICPR’2000), Barcelone, IEEE Computer Press, 2000, p. 182-185.

Waller S., L’analyse documentaire. Une approche méthodologique, Paris, ADBS Editions, 1999.

Wittmann C., « Subheadings in award-wining book indexes: a quantitative evaluation », The Indexer, vol. 17, n° 1, 1990, p. 3-6.

Références

Documents relatifs

Bref : la probabilité d’emploi d’un mot ne doit pas se mesurer à l’aune de tous les mots (c'est-à- dire du corpus) mais de la proportion des mots de la même partie du discours

L’œuvre d’Assia DJEBAR « diseuse », « scripteuse » porte-parole des femmes séquestrées, écrivain-témoin d’une époque historique , porte-plume d’un héritage

[r]

The article is organized as follows: In section II , we de- termine the temperature profiles for a cantilever heated by a laser in vacuum. We evaluate the effects of thermal

!  Objectif global de la thèse : Identifier des relations sémantiques de façon plus fines (spatiales et non spatiales) entre Entités nommées (Organisation, Personne

4ñùÖDÛÙQâàé ð‡âDÛ=èåÅâDá× âDçÙ % bõÖDڇÙÁڇÙQÙtæã èbÖ åpÚà€ápßæ*Ù¾âDápáè¡é‡Ù!Û'Ù=áÔÙQçtâDÚè xâDí¾ÖD× ãè€âèbÙtM

The first definition of entropy solutions was introduced in [ CG07 ] (it was derived from the entropy condition associated to conservation laws with discon- tinuous flux function,