pour quelles pratiques ?
Adeline Nazarenko — Thierry Hamon
Laboratoire LIPN (CNRS UMR 7030 - Université Paris-Nord) Institut Galilée
Av. J.-B. Clément F-93430 Villetaneuse
RÉSUMÉ. Cet article d’introduction au numéro pose la problématique de la structuration de terminologie. Il s’agit de mettre en relation des unités terminologiques et donc de construire un réseau de termes. L’article fait le point sur les pratiques et sur l’état d’avancement des travaux en terminologie computationnelle. Il montre la variété des relations qui figurent dans les produits terminologiques et présente rapidement les méthodes et outils permettant d’assister le processus de structuration.
ABSTRACT.This introductory paper adresses the problem of terminology networking. The aim is to build terminologies which are not mere lists of terms but in which the terms are linked to each other. The paper gives an overview of the various forms of terminological networks. It argues that recent advances in computationnal terminology can help the structuring of terminologies.
MOTS-CLÉS :Réseau terminologique, relation sémantique, classe de termes, variation terminolo- gique, acquisition de relations.
KEYWORDS:Terminological network, semantic relation, term clustering, term variation, acquisi- tion of relations.
1. Renouveau d’intérêt pour la structuration de terminologie
L’intérêt pour la terminologie est ancien : lexicographes et traducteurs, ingénieurs et documentalistes, nombreux sont ceux qui éprouvent le besoin de normaliser, expli- citer et améliorer la communication dans des domaines spécialisés. Il en résulte des produits terminologiques qui, sous diverses formes (banques terminologiques, dic- tionnaires spécialisés, index, thesaurus, glossaires, etc.), rassemblent et organisent le vocabulaire utilisé dans un domaine de spécialité. Ces produits terminologiques sont créés pour répondre à des besoins de traduction, de recherche et d’indexation docu- mentaire, de navigation dans les documents, de rédaction technique, voire simplement pour aider la compréhension des documents techniques.
Malheureusement, les pratiques traditionnelles ne permettent pas de répondre à l’essor rapide des besoins en terminologie. L’évolution des techniques amène un re- nouvellement continu des langues utilisées. La durée de vie des documents techniques est d’autant plus courte que leur volume va croissant. Avec l’accès généralisé à Internet et le développement des réseaux d’entreprise (Intranets), la gestion de la documenta- tion devient un enjeu pour beaucoup d’entreprises, même de taille réduite.
Les ressources terminologiques étant rares, le défi consiste aujourd’hui à en réduire le coût et le temps de construction. D’où l’enjeu de la terminologie computationnelle et des recherches qui depuis le début des années 1990 visent à produire des outils per- mettant de construire automatiquement des terminologies. Ces travaux se situent à la croisée de différents domaines de recherche : la linguistique, l’intelligence artificielle, le traitement automatique des langues, les sciences de l’information.
La collaboration entre ces différentes spécialités a permis de développer des mé- thodes automatisant le processus de construction terminologique. Celles-ci reposent sur l’analyse d’un corpus de documents constitué à dessein comme représentatif d’un domaine particulier et en vue d’une tâche précise [BOU 99].
Les travaux de terminologie computationnelle, d’abord centrés sur l’extraction et le repérage des termes, mettent désormais davantage l’accent sur l’organisation de ces listes de termes par l’ajout de relations ou le regroupement en classes.
Ce mouvement est naturel. Une ressource terminologique ne se réduit pas à une liste de termes : ces termes sont assortis de définitions dans les dictionnaires ou les glossaires, organisés en hiérarchies dans les thesaurus et à un moindre degré dans les index [SAG 90, GOU 90, CAB 99]. Dès lors que les unités potentiellement terminolo- giques, souvent appelées candidats termes, peuvent être extraites rapidement à partir de corpus parfois volumineux, on peut songer à aller plus loin. D’ailleurs, structurer et organiser une liste de termes apparaît d’autant plus nécessaire qu’il s’avère difficile en pratique de valider les longues listes de candidats termes fournis par les logiciels d’extraction [ABB 99]. La structure donne des points d’entrée et permet de centrer le travail de validation sur des zones terminologiques particulières.
2. Différents plans de structuration
Nous l’avons souligné, la problématique de la structuration terminologique est an- cienne. Juan C. Sager souligne le fait que la définition d’un terme et les relations dans lesquelles il entre constituent deux types d’information complémentaires1.
La structuration recouvre des réalités et des pratiques très diverses [SRI 92]. Nous désignons ainsi l’ensemble des relations que les termes d’une ressource terminolo- gique entretiennent entre eux, ces relations pouvant refléter des informations de na- tures variées. Nous distinguons ainsi différents plans de structuration qui sont complé- mentaires les uns par rapport aux autres : la microstructuration, la macrostructuration et la métastructuration.
2.1. Microstructuration
A un premier niveau, les relations de microstructuration tissent un réseau de liens sémantiques ou conceptuels autour du terme.
Un terme comme coussin de sécurité peut être associé à un terme générique (dis- positif de sécurité), à un terme spécifique (coussin de sécurité arrière) ou à un mé- ronyme (voiture). Ces liens d’hyperonymie et de méronymie constituent l’ossature hiérarchique du réseau des termes. Les liens d’hyperonymie notamment sont consi- dérés comme essentiels. Ce sont les liens fondamentaux des thesaurus qui organisent les termes en classes hiérarchisées. C’est également un lien hiérarchique qui relie une entrée et une sous-entrée dans un index2. De nombreuses définitions sont construites autour d’un terme générique, héritage d’une tradition lexicographique aristotélicienne [MAR 83].
On trouve également souvent des liens de synonymie même si la définition de la notion de synonymie repose sur une idée d’équivalence sémantique assez vague.
Dans certains cas, cette synonymie reflète des phénomènes de différentiation termi- nologique entre des acteurs d’un domaine donné. Cette différenciation peut être dia- chronique (le terme de logique de description a remplacé logique terminologique), elle peut avoir des fins commerciales (différents constructeurs automobiles parleront d’airbag, de coussin de sécurité ou de coussin gonflable pour se distinguer les uns des autres), elle peut traduire des différences entre niveaux de langue (crise cardiaque peut ainsi être considéré comme l’équivalent “grand public” de infarctus du myo- carde, terme plus spécialisé)... On trouve également assimilés à des liens de syno- nymie de simples phénomènes de variation paraphrastique (sténose aortique, sténose
. “[...] defining a term can be considered to be synonymous with fixing its identity in relation to other terms”[SAG 90, p.53]
. Dans un index d’ouvrage, une sous-entrée est généralement un terme spécifique relié l’en- trée dont elle dépend mais il peut aussi s’agir d’un lien de méronymie ou de la distinction de différents sens (voir plus loin).
de l’aorte). Ce type de liens de synonymie se traduit souvent par un renvoi d’une entrée à une autre (lien voir ou voir aussi).
Si les relations hiérarchiques (hyperonymie, méronymie) et les liens de synonymie (entendue dans un sens large) sont les plus fréquentes, il existe bien d’autres types de relations terminologiques, plus irrégulièrement réparties. Certaines sont tradition- nelles dans la description lexicale comme l’antonymie (nervosité, souplesse dans le domaine automobile3). D’autres traduisent plus spécifiquement le souci de descrip- tion d’un champ conceptuel. Elles sont parfois très liées à une tâche et à un domaine particuliers : liens de cause à effet, de “résultat”, relation "a pour symptôme" ou "a pour effet de".. [SAG 90, pp. 34-35].
Ces relations forment un réseau terminologique fin : c’est la microstructuration. A ce niveau, la plupart des liens sont typés, même si la distinction entre les différents types de relation n’est pas toujours clairement explicitée ou formalisée.
2.2. Macrostructuration
La macrostructuration correspond à un niveau de structuration plus grossier mais surtout moins explicite. Les classes de termes, qui correspondent souvent à des regrou- pements en thèmes ou en sous-domaines, ajoutent un niveau d’organisation à plus gros grain. On trouve souvent ce niveau de structuration dans les thesaurus spécialisés, les- quels mentionnent des noms de sous-domaines [CER 00]. Dans le thesaurus d’EDF, on trouve ainsi plus de 14 000 descripteurs regroupés en 44 thèmes correspondant à des domaines généraux (’science physique’, par exemple), eux-mêmes subdivisés en 330 champs sémantiques [LEF 00]. C’est plus largement ce type de structuration que décrivent les plans de classification.
A ce niveau, la nature précise des liens entre les termes n’est pas identifiée. On peut trouver dans la même classe un terme, son terme générique et un synonyme ou un antonyme. La classe elle-même peut correspondre à une catégorie bien identifiée (domaine, propriété, par exemple) ou non. Dans ce dernier cas, la classe est un simple regroupement de termes.
2.3. Metastructuration
Avec une granularité différente, la micro et la macrostructuration tentent, toutes les deux, de décrire les relations sémantiques ou conceptuelles qui relient les termes entre eux. Les produits terminologiques proposent souvent des relations qui ont un statut différent. Nous parlons de metastructuration pour souligner le fait que ce niveau de structuration concerne davantage le terme en tant qu’unité linguistique que comme désignation de concept. En réalité, ce niveau recouvre un ensemble assez hétérogène de relations.
. Voir l’article de M. Lafourcade et al. dans ce numéro.
La première de ces relations, très liée à la synonymie, est la relation de contrôle terminologique qui relie un terme dont l’usage est déconseillé à une variante de ce terme, dont l’emploi est préféré. D’un produit terminologique à l’autre la dénomina- tion de cette relation varie : employé pour / employer, préférer, déconseillé ou sim- plement voir. On peut ainsi trouver dans le domaine de l’aéronautique le terme boîte noire avec la mention employer ’enregistreur de vol’. De la même manière, la variante électrochoc peut être mentionnée comme devant être employée de préférence à choc électrique. Ces relations de contrôle présentent un intérêt particulier pour toutes les tâches d’aide à la rédaction technique (voir l’article de M. Carl et al. dans ce numéro).
Autre relation métalinguistique, la relation de traduction a évidemment une place prépondérante dans tous les produits terminologiques multilingues. Inutile ici de rap- peler l’importance des dictionnaires de traduction spécialisées pour toutes les tâches de traduction ou de recherche d’information dans les bases documentaires plurilingues.
Les distinctions de sens constituent de notre point de vue un troisième type de rela- tion de metastructuration. Ce ne sont pas des relations à proprement terminologiques et elles figurent plus rarement dans les produits terminologiques. Ces relations asso- cient un mot ou une expression polysémique aux différents termes qu’il/elle recouvre.
On trouve ainsi dans l’index d’un manuel d’Intelligence Artificielle deux termes as- sociés à l’entrée mémoire : mémoire (cognitive) et espace mémoire. Une distinction de sens se distingue d’une relation d’hyperonymie qui relie un terme générique à un terme plus spécifique dans la mesure le mot ou l’expression polysémique n’est pas pré- senté(e) comme ayant unité sémantique propre. Ce type de distinction de sens prend d’autant plus d’importance que le produit terminologique couvre un domaine plus vaste et s’adresse à un public plus large. On trouve cette relation sous différentes dé- nominations : G. Grefenstette parle d’“axes sémantiques” [GRE 94], P. Anick reprend le terme plus classique de “facettes” [ANI 01] mais il s’agit toujours, avec une finesse variable de la description, de distinctions de sens.
3. Méthodes de structuration
L’éventail des relations qu’on peut trouver en pratique dans les produits termi- nologiques est en réalité très vaste. Ce qui précède n’en donne qu’un aperçu (voir également l’article de M.-C. L’Homme dans ce numéro).
L’observation de ces pratiques amène à s’interroger sur les résultats obtenus par la terminologie computationnelle. Dans quelle mesure ces relations peuvent-elles être identifiées et/ou calculées de manière automatique ?
Dans certains cas, les liens sont marqués dans la morphologie (électrochoc, syno- nyme de choc électrique), dans la syntaxe (coussin de sécurité arrière est plus spé- cifique que coussin de sécurité sur lequel il est construit). Ce n’est cependant pas
toujours le cas : certaines relations ne sont pas marquées dans la forme des termes4. Par ailleurs, il n’est pas toujours évident quand on rencontre deux termes dont l’un est le dérivé de l’autre d’identifier la nature de la relation sémantique sous-jacente.
On peut distinguer schématiquement deux ensembles de méthodes : celles qui cal- culent ces relations à partir de la structure interne des termes (approches structurelles) et celles qui reposent sur les contextes d’emploi et les distributions des termes pour mettre en évidence des relations (approches contextuelles).
3.1. Approches structurelles
Les approches structurelles reposent avant tout sur la structure interne d’un en- semble de termes pour les mettre en relation.
C’est d’abord la syntaxe qui est exploitée : un terme t’ construit par modification d’un terme t est généralement présenté comme plus spécifique que ce dernier (coussin de sécurité arrière est ainsi plus spécifique que coussin de sécurité). Les premiers ré- seaux de termes proposés en sortie de Lexter [BOU 94] cherchent à représenter visuel- lement ces relations syntaxiques de composition de termes pour mettre en évidence les relations d’hyperonymie et faciliter ainsi le travail de validation. On constate que dans les produits terminologiques élaborés de manière traditionnelle, les relations d’hyper- onymie mentionnées sont fréquemment syntaxiques mais on peut s’interroger : est-ce parce qu’elles dominent effectivement ou simplement parce qu’elles sont plus faciles à repérer ?
La morphologie est également une source précieuse d’information pour la struc- turation, notamment dans les langues spécialisées comme la médecine où une grande partie des termes sont de formation savante [GRA 99]. Les métarègles de Faster, qui permettent de calculer les variantes morphosyntaxiques de termes certifiés, reposent sur des règles de dérivation morphologique et les combinent avec des règles de trans- formations syntaxiques [JAC 97]. Elles permettent ainsi de proposer blood mononu- clear cell et cellule sanguine respectivement comme variantes des termes blood cell et cellule du sang.
La structure lexicale est, elle aussi, pertinente pour regrouper des termes et les ca- tégoriser. Dans ce cas, on exploite la distribution interne des termes pour mesurer leur proximité sémantique. Très schématiquement, le processus de classification [ASS 97]
ou de catégorisation de termes [CER 00] regroupent les termes qui sont construits avec les mêmes modifieurs ou les mêmes classes de modifieurs.
Au-delà de ces approches endogènes, on peut exploiter des sources de connais- sances extérieures pour identifier des relations sémantiques entre termes. Le système Synoterm [HAM 01], qui vise à repérer des relations de synonymie entre termes, re- pose ainsi sur des dictionnaires existants, dictionnaires du domaine ou, à défaut, dic-
. La nomenclature médicale SNOMED [COT 93] donne ainsi rétrécissement cicatriciel comme synonyme de sténose fibreuse.
tionnaires de langue générale. Là encore, il s’agit d’une approche structurelle dans la mesure où l’information issue du dictionnaire (un lien de synonymie élémentaire) combinée à la structure interne des termes permet de calculer des liens de synonymie entre termes complexes. A partir des liens voir fournis par Le petit Robert entre calibre et qualité d’une part et bon et beau d’autre part, on peut identifier un lien de synony- mie entre bon calibre et belle qualité, lien qui s’avère pertinent dans le domaine de la médecine cardiovasculaire où ces deux termes sont attestés.
Ces approches structurelles sont essentiellement exploitées pour la microstructu- ration et la macrostructuration. Les liens identifiés à l’aide de ces méthodes peuvent être exploités au titre de la metastructuration (des liens de synonymie peuvent être exploités pour établir des relations de contrôle terminologique) mais ce niveau de structuration relève généralement du travail de validation manuelle sur les résultats.
3.2. Approches contextuelles
De la même manière, les approches contextuelles contribuent à la fois à la micro et à la macrostructuration. On peut distinguer à nouveau deux grandes familles d’ap- proches, là encore complémentaires : les approches à base de patrons et les approches distributionnelles.
Les approches à base de patrons tentent d’exploiter de manière systématique et automatisée une méthode traditionnelle pour le repérage des relations entre termes [SAG 90]. Elles contribuent essentiellement à la microstructuration. Ces patrons com- binent souvent les éléments lexicaux, grammaticaux et paralinguistiques5[MEY 01].
Certains schémas de phrase expriment de manière caractéristique des relations entre termes. “X est une sorte de Y” traduit ainsi une relation d’hyperonymie entre X et Y telle que Y est donné comme le terme générique de X. De la même manière, une phrase du type “X est composé de Y et Z” permet d’établir des liens de méronymie entre X et Y ou Z.
Un effort important a été consenti pour automatiser ces approches à base de pa- trons. Un premier axe a consisté à établir des listes de patrons de phrases caracté- ristiques de certains types de relations terminologiques [HEA 92, KAV 95, BER 99, MOR 99b, SÉG 99]. Une question délicate est celle du degré de généralité de ces pa- trons [MEY 01, CON 02] : ils sont soit trop génériques pour être pertinents, soit trop liés à un domaine et à un style de rédaction pour pouvoir être réutilisés d’un cor- pus à l’autre. Chaque corpus ayant en effet sa spécificité linguistique et une nouvelle application pouvant nécessiter de repérer de nouveaux types de relations, la mise au point manuelle de patrons d’extraction paraît peu réaliste car elle suppose de passer en revue de grands volumes de texte. Un second axe, qui s’appuie sur le premier, s’inté- resse à l’acquisition semi-automatique de ces patrons de phrase en corpus. E. Morin a ainsi cherché à acquérir des patrons permettant de repérer des relations d’hyperonymie entre termes. Au-delà de l’utilisation des patrons classiques, la projection en corpus de
. Marques de ponctuation, par exemple.
quelques couples de termes entretenant la relation recherchée (en l’occurrence l’hy- peronymie) permet de repérer des nouveaux schémas de phrase qui peuvent à leur tour faire émerger de nouveaux couples pertinents.
Les approches distributionnelles cherchent à faire émerger des groupes de mots sémantiquement similaires en rapprochant les mots qui ont des distributions proches.
Différents travaux ont exploré cette voie initiée par Harris pour les sous-langages [GRE 94, HAB 96, LIN 98, FAU 98, CER 00, NAZ 01]. L’approche distributionnelle contribue essentiellement à la macrostructuration dans la mesure où elle propose des regroupements de mots, sans toutefois permettre d’identifier le type précis des rela- tions existant entre ceux-ci.
4. Quels progrès restent à faire ?
Le rapide panorama présentant à la fois des objectifs et des méthodes en matière de structuration de terminologie montre que d’importants défis restent ouverts. Il est intéressant de noter que beaucoup des questions soulevées par J. Sager en 1990 (p. 53) sur les relations terminologiques demeurent pertinentes aujourd’hui. Elles portent sur la nature, le type et la diversité de ces relations, sur leur acquisition par des procédures automatiques et sur leur représentation.
A notre sens, l’enjeu aujourd’hui concerne essentiellement la mise en pratique et l’utilisation effective des outils et méthodes de la terminologie computationnelle.
4.1. Intégrer différentes approches
Il est évident qu’il n’existe pas une méthode unique permettant de repérer tous les types de relations terminologiques. Jusqu’à présent les travaux ont pour la plupart été ciblés sur un type particulier de relations (variation, hyperonymie, synonymie, méro- nymie, causalité [GAR 98]...). L’enjeu consiste aujourd’hui à intégrer ces différentes approches. Ceci soulève des problèmes à la fois théoriques, pratiques et techniques.
Sur le plan théorique, il s’agit de définir précisément chacune de ces relations en étudiant leur complémentarité. La question touche à la cohérence de la base termino- logique produite (voir les articles de M.-C. L’Homme, et de S. Szulman et al. dans ce numéro) . Une relation de synonymie doit-elle être symétrique, transitive ? L’hyper- onyme d’un synonyme est-il un hyperonyme ?... (voir l’article de M. Lafourcade et al.) Sur le plan pratique, il faut déterminer quel degré de structuration est requis pour quel type d’application, une expertise que seuls les retours d’expérience pourront permettre d’élaborer (voir l’article de D. Bourigault et G. Lame). Sur le plan technique, enfin, il faut unifier les différentes approches dans une même plate-forme, en éliminant les doublons des résultats (voir l’article de M. Carl et al.). Comme par ailleurs, les besoins varient d’un auteur à l’autre et d’une application à l’autre, il faut sans doute envisager de créer une boîte à outils permettant de paramétrer les traitements en fonction des besoins. Le travail de T. Aït El Mekki sur un outil d’aide à la construction d’index va
dans ce sens [Ait 01]. Très concrètement, il s’agit de définir une structure de données et des modes de visualisation compatibles avec le traitement d’informations de natures et d’origines hétérogènes.
4.2. Prendre en compte l’utilisateur
Autre question importante, il est nécessaire d’élaborer des outils permettant de prendre en compte et d’assister le travail de l’utilisateur. Cette dimension coopérative du travail terminologique est reconnue depuis longtemps. Dès 1994, D. Bourigault a eu le souci de présenter les résultats de Lexter sous la forme de réseau de ma- nière à faciliter le travail de validation. Asium, outil de classification sémantique, a été conçu comme un système coopératif, l’utilisateur étant amené à valider chaque nouvelle classe construite [FAU 00]. Prométhé adopte une stratégie par l’exemple fa- cile à mettre en œuvre pour un utilisateur [MOR 99a]. SynoTerm soigne les modes de présentation des résultats pour faciliter l’élimination des erreurs lors du travail de validation [HAM 01].
La coopération entre l’outil et l’humain est un enjeu central pour l’exploitation effective de ces outils. Il s’agit à la fois de montrer les résultats obtenus automatique- ment à la personne qui va les valider, d’assister ce travail de validation en vérifiant la cohérence des modifications apportées et de proposer un mode de visualisation convi- vial pour l’utilisateur de la terminologie, une fois qu’elle est construite.
4.3. Evaluer en situation
Le dernier point à souligner ici est central. C’est celui de l’évaluation en situation des terminologies produites de manière semi-automatique. Cette évaluation est déli- cate parce qu’il n’existe pas de référence qui puisse servir de point de comparaison. On peut même se demander si les progrès technologiques n’auront pas des répercussions sur les pratiques elles-mêmes : la faible structuration des produits terminologiques est souvent le fait de contraintes en temps de développement. Si tel est le cas, aucune référence préétablie manuellement ne peut pas servir de norme. On ne peut pas non plus comparer les systèmes existants entre eux : nous l’avons signalé, chaque outil a son domaine d’application propre.
La principale difficulté est d’évaluer en prenant en compte l’application visée.
A terme, il faudra être capable d’apprécier l’apport pour des utilisateurs qui passent d’une pratique manuelle à une chaîne de traitements assistés par ordinateur. Cet ap- port peut s’apprécier par un taux de satisfaction des utilisateurs, par le temps gagné, par la cohérence et plus globalement la qualité accrue de la terminologie produite.
Des expériences comme celle que décrivent D. Bourigault et G. Lame tentent d’aller dans ce sens. La définition d’une méthodologie d’évaluation est d’autant plus délicate que la structuration de terminologie, comme nous l’avons défendu ci-dessus, est un processus coopératif [HAM 02].
4.4. Présentation du numéro
Les articles qui composent ce numéro éclairent cette discussion de différentes ma- nières. Ils décrivent pour la plupart des travaux récents, signe du foisonnement des recherches dans ce domaine.
En partant du constat de la grande hétérogénéité des relations terminologiques, l’article de M.-C. L’Homme soulève la question de leur modélisation, une question centrale si l’on cherche à élaborer une terminologie computationnelle intégrée. M.- C. L’Homme propose de représenter les diverses relations terminologiques au moyen de fonctions lexicales en s’inspirant des travaux de I. Mel’ uk.
M. Lafourcade, V. Prince et D. Schwab abordent le problème de la représentation des relations terminologiques sous un autre angle. Ils s’appuient sur le modèle vec- toriel de Salton qui est considéré comme un modèle calculatoire permettant de faire émerger des relations de synonymie et d’antonymie. Ce faisant, les auteurs apportent une réponse originale à la question de l’articulation de la langue générale et de la langue de spécialité.
Les deux articles qui suivent présentent tous les deux des outils terminologiques, mais leurs perspectives sont différentes. S. Szulman, B. Biébow et N. Aussenac-Gilles présentent une plate-forme pour la construction de ressources terminologiques variées à partir de textes alors que M. Carl, C. Horschmann, D. Maas et J. Schütz décrivent un outil dédié à la gestion de documents multilingues (spécification, normalisation, production de documents). Les deux articles ont en commun d’aborder très concrète- ment le problème de l’intégration des différentes méthodes de structuration évoquées ci-dessus.
Pour finir, le numéro met l’accent sur les applications qui, seules, permettent de valider les produits terminologiques et donc la méthode utilisée pour leur élaboration.
L’article de D. Bourigault et G. Lame s’intéresse à la construction d’une ontologie documentaire du Droit et montre comment une analyse syntaxique et distributionnelle des textes permet d’élaborer rapidement une première ontologie. La note de projet de E. Le Roux et K. Lespinasse soulève l’épineux problème de l’indexation des do- cuments audiovisuels et de leur exploitation à des fins de recherche d’information.
Les auteurs montrent la nécessité d’avoir des ressources terminologiques structurées et l’intérêt de l’analyse de corpus pour enrichir la description des documents.
5. Bibliographie
[ABB 99] ABBAS Y., PICARD M.-L., « Exemple de pratique terminographique en entre- prise », Terminologies Nouvelles, n 19, 1999, p. 124–131.
[Ait 01] AITELMEKKIT., NAZARENKOA., « Quel index pour le document électronique ? », MOJAHIDM., VIRBELJ., Eds., Actes du 4ème Colloque International sur le Document Electronique (CIDE’01), PAris, 2001, Europia, p. 147-161.
[ANI 01] ANICKP. G., « The automatic construction of faceted terminological feedback for interactive document retrieval », BOURGAULTD., JACQUEMINC., L’HOMMEM., Eds., Recent Advances in Computational Terminology, vol. 2 de Natural Langage Processing, p. 29-52, John Benjamins, Amsterdam, 2001.
[ASS 97] ASSADIH., « Knowledge acquisition from Texts: Using an automatic Clustering Method Based on Noun-Modifier Relationship », Proceedings of the 35th Annual Meeting of the Association for Computational Linguistic - Student Session, Madrid, Spain, 1997.
[BER 99] BERLANDM., CHARNIAKE., « Finding Parts in Very Large Corpora », Procee- dings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL- 99), 1999.
[BOU 94] BOURIGAULTD., « LEXTER un Logiciel d’EXtraction de TERminologie. Ap- plication à l’extraction des connaissances à partir de textes », Thèse en mathématiques, informatique appliquée aux sciences de l’homme, École des Hautes Études en Sciences Sociales, Paris, France, 1994.
[BOU 99] BOURIGAULTD., SLODZIANM., « Pour une terminologie textuelle », Terminolo- gies nouvelles, n 19, 1999, p. 29–32.
[CAB 99] CABRÉM. T., Terminology. Theory, methods and applications, vol. 1 de Termino- logy and Lexicography, Research and practice, John Benjamins, Amsterdam/Philadelphia, 1999.
[CER 00] CERBAHF., « Une étude comparative de méthodes de catégorisation sémantique de termes techniques », Actes de la 7èmes conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN’2000), Lausanne, Suisse, octobre 2000, Association pour le Traitement Automatique des LAngues, p. 71-80.
[CON 02] CONDAMINESA., « Corpus analysis and conceptual relation patterns », à paraître dans Terminology, , 2002.
[COT 93] CÔTÉR. A., ROTHWELLD. J., PALOTAYJ. L., BECKETTR. S., BROCHU L., Eds., The Systematised Nomenclature of Human and Veterinary Medicine: SNOMED Inter- national, College of American Pathologists, Northfield, 1993.
[FAU 98] FAURED., NÉDELLECC., « A Corpus-based Conceptual Clustering Method for Verb Frames and Ontology Acquisition », VELARDIP., Ed., Proceedings of the Workshop on Adaptating Lexical and Corpus Ressources to Sublanguages and Applications (First International Conference on Language Resources and Evaluation), Grenade, May 1998, p. 5-12.
[FAU 00] FAURED., « Conception d’une méthode d’apprentissage automatique, symbolique, coopératif et non supervisé pour l’acquisition de cadres de sous-catégroisation de verbes et de connaissances sémantiques à partir de textes : le système ASIUM», Thèse d’Informa- tique . Université de Paris-Sud, Décembre 2000.
[GAR 98] GARCIAD., « Analyse automatique des textes pour l’organisation causale des actions : réalisation du système informatique COATIS », Thèse d’Informatique (spécialité : Traitement Automatique des Langues). Université de Paris IV, 1998.
[GOU 90] GOUADECD., Constitution des données, Afnor Gestion, France, 1990.
[GRA 99] GRABARN., ZWEIGENBAUMP., « Acquisition automatique de connaissances mor- phologiques sur le vocabulaire médical », Actes de la conférence Traitement Automatique des Langues Naturelles (TALN 1999), Cargèse, France, 1999, p. 175-184.
[GRE 94] GREFENSTETTEG., Exploration in Automatic Thesaurus Discovery, Kluwer Aca- demic Publishers, Dordrecht, The Netherlands, 1994.
[HAB 96] HABERT B., NAULLEAUE., NAZARENKO A., « Symbolic word clustering for medium-size corpora », Proceedings of the 16th International Conference on Computatio- nal Linguistics, vol. 1, Copenhagen, Denmark, 5-6 August 1996, p. 490-495.
[HAM 01] HAMONT., NAZARENKOA., « Detection of synonymy links between terms: Ex- periments and results », BOURGAULTD., JACQUEMINC., L’HOMMEM., Eds., Recent Advances in Computational Terminology, vol. 2 de Natural Langage Processing, p. 185- 208, John Benjamins, Amsterdam, 2001.
[HAM 02] HAMONT., HUO., « How to evaluate necessary cooperative systems of termino- logy building ? », Proceedings of the Third International Language Resources and Evalua- tion (LREC’02), 2002, p. 1549-1550.
[HEA 92] HEARSTM. A., « Automatic Acquisition of Hyponyms from Large Text Corpora », Proceedings of the 15th International conference on Computational Linguistics, vol. 2, Nantes, August 1992, p. 539-545.
[JAC 97] JACQUEMINC., « Variation terminologique : reconnaissance et acquisition automa- tique de termes et de leurs variantes en corpus », Habilitation à diriger des recherches, Université de Nantes, Nantes, janvier 1997.
[KAV 95] KAVANAGHJ., « The Text Analyser: A Tool for Extracting Knowledge From Text », Master of Computer Science Thesis, University of Ottawa, Ottawa, Canada, 1995.
[LEF 00] LEFÈVREP., La recherche d’informations du texte intégral au thésaurus, Hermès, Paris, 2000.
[LIN 98] LIND., « Extracting collocations from Corpora », Proceedings of Computerm’98 (First Workshop on Computational Terminology), Coling-ACL’98, Université de Montréal, Montréal, Quebec, Canada, 1998, p. 57–63.
[MAR 83] MARTINR., Pour une logique du sens, Coll. Linguistique nouvelle, PUF, Paris, 1983.
[MEY 01] MEYERI., « Extracting knowledge-rich contexts for terminography: A conceptual and methodological framework », BOURGAULTD., JACQUEMINC., L’HOMMEM., Eds., Recent Advances in Computational Terminology, vol. 2 de Natural Langage Processing, p. 279-302, John Benjamins, Amsterdam, 2001.
[MOR 99a] MORIN E., « Acquisition de patrons lexico-syntaxiques caractéristiques d’une relation sémantique », Traitement Automatique des Langues, vol. 40, n 1, 1999.
[MOR 99b] MORINE., JACQUEMINC., « Projecting Corpus-Based Semantic Links on a The- saurus », Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99), University of Maryland, 1999.
[NAZ 01] NAZARENKOA., ZWEIGENBAUMP., HABERT B., BOUAUDJ., « Corpus-based extension of a terminological semantic lexicon », BOURGAULT D., JACQUEMIN C., L’HOMMEM., Eds., Recent Advances in Computational Terminology, vol. 2 de Natural Langage Processing, p. 327-351, John Benjamins, Amsterdam, 2001.
[SAG 90] SAGERJ. C., A Practical Course in Terminology Processing, John Benjamins Pu- blishing Company, 1990.
[SÉG 99] SÉGUÉLAP., « Adaptation semi-automatique d’une base de marqueurs de relations sémantiques sur des corpus spécialisés », Terminologies Nouvelles, , n 19, 1999, p. 52–60, Acte du colloque Terminologie et Intelligence Artificielle, 10-11 mai 1999.
[SRI 92] SRINIVASANP., « Thesaurus construction », FRAKESW. B., BAEZA-YATESR., Eds., Information Retrieval : Data Structures and Algorithms, chapitre 9, Prentice Hall, New Jersey, 1992.