Article pp.201-211 du Vol.45 n°1 (2004)

(1)

Rubrique préparée par Anne Condamines (ERSS-CNRS)

Laurent Audibert

Outils d’exploration de corpus et désambiguïsation lexicale automatique.

Thèse d’informatique, Université d’Aix Marseille- Université de Provence.

Jury : Jean Véronis (directeur), Béatrice Daille (rapporteur), Pascale Sébillot (rapporteur), Pierre Zweigenbaum.

Ce travail de thèse dresse le problème de la désambiguïsation lexicale automatique. Il existe plusieurs approches pour aborder ce problème. De manière générale, nous pouvons distinguer les approches basées sur la modélisation des connaissances ou du raisonnement, les approches utilisant des bases de connaissances et les approches basées sur corpus. Parmi les approches basées sur corpus, certaines ont besoin de corpus lexicalement désambiguïsés tandis que d’autres s’affranchissent de cette limitation. Il semble aujourd’hui clair que les approches basées sur des corpus lexicalement désambiguïsés sont celles qui obtiennent les meilleurs résultats.

Ce type d’approche cherche à résoudre le problème en utilisant des techniques de classification supervisée. Un algorithme extrait automatiquement les connaissances nécessaires pour la désambiguïsation à partir d’un grand corpus lexicalement désambiguïsé, dans lequel les mots ont été manuellement étiquetés selon les lexies d’un dictionnaire donné. Cette phase d’extraction automatique des connaissances est appelée apprentissage. À l’issue de cette phase, l’algorithme de désambiguïsation est capable d’assigner la lexie adéquate aux mots apparaissant dans une nouvelle phrase, en se basant sur les connaissances acquises durant la phase d’apprentissage.

Notre étude nous a amené à développer un ensemble de puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous avons développé une bibliothèque C⁺⁺ qui implémente un langage élaboré et expressif d’interrogation de corpus. Nous avons formalisé un tel langage en nous basant sur le concept de méta-expressions régulières. Cette phase préliminaire de développement et de conceptualisation constitue certainement l’effort le plus important que nous ayons eu à fournir au cours de ce travail de thèse.

La désambiguïsation lexicale s’effectue toujours en utilisant l’information du contexte du mot à désambiguïser. Cette information peut être enrichie par un certain nombre d’annotations (étiquette morphosyntaxique, lemmatisation, etc.).

Dans tous les cas, il n’est pas possible d’utiliser toute l’information disponible car elle est bien trop importante et bruitée. Il faut donc se focaliser sur un certain

(2)

nombre d’indices. Le choix de ces indices, déterminé par ce que nous appelons des critères de désambiguïsation lexicale, est primordial et constitue un enjeu important en désambiguïsation lexicale. Dans ce domaine, l’essentiel des recherches effectuées porte sur la langue anglaise. Bien que les résultats obtenus soient parfois généralisables à plusieurs langues, nous avons choisi de travailler sur la langue française. L’objectif de ce travail de thèse n’est pas de produire une méthode de désambiguïsation lexicale automatique prête à l’emploi. L’objectif est de proposer une étude rigoureuse, systématique et approfondie des critères pour la désambiguïsation lexicale automatique supervisée pour le français. Les ressources dont nous disposons nous ont permis d’étudier des critères basés sur la cooccurrence de mots et plus généralement de n-grammes (juxtaposition de un ou plusieurs mots), dans le contexte de 60 mots polysémiques cibles.

Nous parvenons à obtenir une précision de désambiguïsation de toutes les instances (i.e. précision égale au rappel) de 86,5 % pour les noms, 79 % pour les adjectifs et 77,9 % pour les verbes. Ces résultats sont d’autant plus encourageants que le découpage des entrées, au sein de notre dictionnaire, est relativement fin : l’entropie de la répartition des occurrences des lexies dans notre corpus est de 1,9 pour les noms, 2,3 pour les adjectifs et 3,1 pour les verbes.

En dehors de ces considérations purement quantitatives notre étude est probablement la première de cette ampleur réalisée dans un cadre unifié. Elle nous a permis de confirmer certains résultats de la littérature, comme :

– l’importance des petits contextes et de l’ordre des mots ;

– l’importance du nom ou de l’adverbe adjacent pour désambiguïser un adjectif ; – l’importance de l’adjectif adjacent, ou du nom dans un micro-contexte, pour désambiguïser un nom ;

– l’importance du nom dans la zone post-verbale pour désambiguïser un verbe, incitant, par là même, à l’emploi de contextes dissymétriques pour cette catégorie grammaticale.

Nous avons également obtenu des résultats plus originaux, qui vont parfois à l’encontre de certaines pratiques qui se sont instaurées dans le domaine, comme :

– l’importance des mots grammaticaux dont le retrait dégrade pratiquement systématiquement les performances ;

– l’influence positive de la variabilité des indices sur la précision de la désambiguïsation ;

– le fait que les bigrammes considérés seuls donnent de meilleurs résultats que les unigrammes considérés seuls ;

– l’impact modeste de la lemmatisation pour les unigrammes ;

– le fait que les n-grammes ne doivent pas forcément contenir ou jouxter le mot à désambiguïser.

laurent.audibert@up.univ-aix.fr

(3)

Vincent Berment

Méthodes pour informatiser les langues et les groupes de langues « peu dotées ».

Thèse en informatique, Université Joseph Fourier, Grenoble 1, École doctorale Mathématiques-Informatique, Spécialité Systèmes d’Information.

Jury : Christian Boitet (directeur), Bruno Oudet (président), Yves Lepage (rapporteur), Jean Veronis (rapporteur), Gilles Delouche, Mathieu Lafourcade, Claude Del Vigna.

En 2004, moins de 1 % des 6 800 langues du monde bénéficie d’un niveau d’informatisation élevé, incluant un éventail large de services allant du traitement de textes à la traduction automatique. Cette thèse, qui s’intéresse aux autres langues – les langues-pi – s’attache à proposer des solutions pour remédier à leur sous- développement informatique.

Dans une première partie destinée à montrer la complexité du problème, nous présentons la diversité des langues, les technologies utilisées, ainsi que les approches des différents acteurs impliqués : populations linguistiques, éditeurs de logiciels, Nations unies, États... Une mesure du degré d’informatisation des langues – l’indice-sigma – ainsi que plusieurs méthodes sont proposées.

La seconde partie traite de l’informatisation du laotien et présente concrètement les travaux réalisés pour cette langue en appliquant les méthodes décrites précédemment. Les réalisations décrites ont permis d’améliorer l’indice-sigma de la langue laotienne d’environ 4 points, cet indice étant actuellement évalué à 8,7/20.

Dans la troisième partie, nous montrons qu’une approche par groupe de langues peut encore réduire les coûts d’informatisation grâce à l’utilisation d’une architecture modulaire associant des logiciels grand public et des compléments spécifiques. Pour les parties intimement liées aux langues, des outils linguiciels génériques complémentaires permettent aux populations d’informatiser elles-mêmes leurs langues. Nous avons validé cette méthode en l’appliquant à la segmentation syllabique de langues à écritures non segmentée d’Asie du Sud-Est, telles que le birman, le khmer, le laotien et le siamois (thaï).

Ma thèse est disponible sur les deux sites indiqués ci-dessous.

http://tel.ccsd.cnrs.fr/documents/archives0/00/00/63/13/index_fr.html

http://bibliotheque.imag.fr/publications/theses/2004/Berment.Vincent/notice-francais.html VincentBMT@aol.com

(4)

Gaël Guibert

Méthodes linguistiques utilisées dans l’analyse des textes : analyse épistémologique et propositions en vue d’un traitement formel. Application à des textes bibliques : Jonas, Ruth, Joël et Abdias.

Thèse de linguistique, Université : Paris-IV, Laboratoire LaLICC – Langage, Logique, Informatique, Cognition et Communication, UMR 8139 CNRS / PARIS- SORBONNE, Institut des Sciences Humaines appliquées.

Jury : Jean-Pierre Desclés (directeur), Joseph Dichy (rapporteur), Jean-Emmanuel Tyvaert (rapporteur), Jean-Claude Coquet, Etienne Nodet.

Des méthodes nombreuses d’analyse linguistique existent, issues des recherches de linguistes contemporains essayant de mettre au point des possibilités d’approche de plus en plus objectives. Ces possibilités sont considérées à propos de textes complexes, de façon à tendre vers des logiciels de traduction automatique ou plutôt d’aide à la traduction, des aides automatisées au résumé ou à une synthèse ciblée ; ou encore, à une fouille sémantique de textes selon différents points de vue : repérage des thèmes dominants, et saillants, identification des cadres de discours temporels, spatiaux, thématiques¹. Parmi ces méthodes, certaines sont susceptibles d’être appliquées à des textes. Les textes étudiés sont alors l’objet d’une analyse réitérable, dont les résultats peuvent augmenter la connaissance. C’est pourquoi, il pourrait être intéressant de faire transférer ce type d’approche, vers un autre domaine, où des textes sont aussi étudiés, à savoir celui des études bibliques.

Puisque les sciences du langage, après avoir étudié des énoncés, commencent à étudier les textes, nous étudions des textes avec des outils linguistiques contemporains. Nous prenons pour exemple le domaine de l’analyse des textes bibliques, qui utilise aujourd’hui des méthodes telles que la linguistique et la sémiotique. Notre but est de proposer un cadre théorique, ainsi qu’un objet d’étude, auquel une application de la méthode linguistique peut être faite, et pourrait être réitérée quel que soit l’analyste. La question de la méthode permettant de passer du texte (discours) à son interprétation (méta-discours), est abordée d’un point de vue épistémologique : quel est le statut des résultats obtenus ? Nous analysons le texte et le raisonnement du processus interprétatif. Trois bilans sont réalisés : l’apport des méthodes linguistiques utilisées dans le domaine de l’analyse des textes bibliques, le discours qu’elles ont généré à partir du raisonnement effectué, et quel a été l’apport de l’informatique pour ce domaine.

Quel serait alors l’apport de l’utilisation des techniques et possibilités d’analyse les plus avancées, au niveau logique, linguistique et informatique, appliquées à ces textes ? Afin de le déterminer, nous réalisons des analyses à deux niveaux : celui des commentaires basés sur l’étude des textes bibliques existants avec des méthodes

1. Ces travaux sont abordés dans l’équipe LaLICC à propos de textes techniques et journalistiques.

(5)

connues telles que l’analyse sémiotique, et celui des textes eux-mêmes avec les problèmes qu’ils comportent, résistant parfois à la critique et aux commentaires.

Ces analyses ont à la fois pour but de faire apparaître d’éventuelles contradictions entre les discours générés par l’application de méthodes existantes, et surtout une logique propre des discours et des textes étudiés. Nous proposons un cadre théorique et une méthode susceptibles de contribuer à la résolution de problèmes d’analyse de textes, afin de « faire parler le texte par lui-même », et de constituer ainsi un apport à la linguistique textuelle, en étudiant cet objet complexe.

Cette précision est nécessaire dans le cadre de l’application de méthodes d’analyse du discours et des textes, à un domaine déterminé. L’approche méthodologique pourrait être conduite afin de réaliser une analyse la plus opératoire possible, puis d’utiliser cette clarification en réfléchissant à un système à base de connaissances (que nous ne réaliserons pas), pour le domaine de l’exégèse et de ses raisonnements. Il s’agit de formaliser la démarche inférentielle et argumentative mise en œuvre dans l’analyse d’un texte, de façon à formuler sous forme de règles d’inférences et de faits dûment enregistrés, puis à intégrer ces connaissances dans un système informatique qui devrait, dans le meilleur des cas, simuler en partie l’activité de raisonnement de l’exégèse. Nous souhaitons capter certaines des compétences cognitives de l’analyste, de façon à mieux étudier son raisonnement et ses modes argumentatifs. Nous voudrions, en même temps, nous interroger sur la validité des méthodes d’analyse exégétique des textes, quel que soit le texte étudié. Sont-elles reproductibles ? Sur quelles bases linguistiques ? Sont- elles applicables à d’autres textes ?

Nous proposons un outil d’analyse linguistique textuel, dans ses multiples versions et traductions, en le considérant comme un « objet texte multiple », de façon à prendre en compte cette complexité et variation. Nous évaluons son apport, en comparaison avec les résultats obtenus par d’autres méthodes, utilisées dans le domaine cité en exemple. Nous comparons l’analyse du livre de Jonas puis de Ruth aux différentes analyses des commentaires respectifs auxquels ces textes ont donné lieu, afin d’évaluer l’apport des résultats que nous obtenons avec notre analyse textuelle.

Afin de déterminer une approche capable de fournir des résultats qui soient les plus opérationnels, nous portons un regard critique sur les différentes méthodes d’analyse utilisées, sur les présupposés inhérents aux méthodes linguistiques retenues et le statut épistémologique des résultats. Nous avons choisi une méthode d’analyse textuelle induite du modèle de la grammaire applicative et cognitive, qui prenne en compte la complexité des textes (versions, traductions et représentations corrélatives) et les différents niveaux d’analyse ; à savoir le phéno-texte, (texte traduit apparent), l’intertexte (somme des éléments repris d’un texte à l’autre, des institutions ou lois réutilisées) et le géno-texte (hypothèse d’une structure de tous les phéno-textes, reconstruite par abduction). Nous appliquons à cet objet une méthode d’analyse textuelle centrée sur la théorie de l’énonciation, qui traite plusieurs points-clés : la traduction, l’organisation physique d’un texte, les analyses aspecto- temporelles, la spatialité, la narration, les dialogues. Nous appliquons cette

(6)

méthode à Jonas, Ruth, Joël et Abdias, afin de reconstruire une « signification interne ». Il s’avère que la méthode d’analyse textuelle que nous avons employée donne des résultats intéressants par rapport à d’autres méthodes d’analyse. Notre méthode comporte aussi des limites, mais son apport est réel.

Le niveau du géno-texte est ensuite proposé, au moyen d’un processus abductif utilisé pour le construire à partir des observables que sont les phénotextes. Ces phénotextes sont des ‘faits avérés’, des textes traduits comportant des variantes.

Nous choisissons la démarche logique de l’abduction ; cette démarche d’inférence part du constat exprimé pour les textes. Nous pouvons alors « avancer une hypothèse si faible et problématique fusse-t-elle. Cette hypothèse est une simple suggestion, adoptée à l’essai, aussi longtemps que des faits ne la réfutent pas absolument² ». L’hypothèse plausible, fil directeur de notre recherche, consiste à construire un même génotexte abstrait, formé des prédicats du texte, indépendamment de la langue et de la version utilisée³.

Nous nous interrogeons sur un apport possible de l’informatique et étudions le lexique utilisé par le texte ; notamment les verbes, dans le but de déterminer la signification de ces éléments, en recherchant une structure casuelle à partir des verbes⁴. Lucien Tesnière a insisté sur le rôle central du verbe dans l’analyse d’une phrase. Le verbe est au centre d’une « petite scène » dont les acteurs sont les actants. Les verbes jouent ainsi un rôle fondamental dans l’analyse narrative ; nous les analysons dans la perspective d’un traitement formel des énoncés, de façon à ce que ces verbes deviennent des racines d’une organisation textuelle.

gaell.guibert@wanadoo.fr

Reyna Carolina Medina-Ramirez

Contribution à la Recherche d’informations Sémantiques: Capitalisation de connaissances dans une mémoire documentaire d’interactions géniques.

Thèse d’informatique, Université de Nice-Sophia-Antipolis.

Jury : Rose Dieng (directrice), Peter Sander (président), Danièle Hérin (rapporteur), Alain Mille (rapporteur), Jérôme Euzenat, Amedeo Napoli.

2. Charles Sanders Peirce, Textes Anticartésiens, présentation et traduction de Joseph Chenu, Paris, Editions Aubier-Montaigne, 1984, p. 25.

3. Charles Sanders Peirce, Textes Anticartésiens, op. cit., p. 25 : « Nous reconnaissons que tous les arguments abductifs sont faibles ; mais plusieurs arguments faibles peuvent être parfaitement valides ; en effet cette validité se définit par rapport à la règle particulière qui l’a engendrée. Et divers arguments faibles et valides, en synergie, se renforcent et sont préférables souvent à un seul argument fort. Disons que ce sont des arguments probables. » 4. Dans la ligne des stemmas de L. Tesniere, Eléments de syntaxe structurale, Paris, Klincksieck, 1988, p. 17.

(7)

Le web actuel doit son succès impressionnant à l’énorme quantité d’information disponible et en croissance exponentielle, d’une part, et à l’augmentation du nombre d’utilisateurs, d’autre part. Le web peut être considéré comme une grande base d’information non structurée, hétérogène et distribuée, pour laquelle différentes techniques de récupération d’information ont été proposées afin de structurer les données et de fournir des informations pertinentes aux utilisateurs.

Le web sémantique apparaît comme la prochaine génération du web, dont le but est de donner à l’information sur le web une représentation sémantique afin d’être accessible et compréhensible par des machines. Cette approche s’appuie sur l’utilisation d’ontologies (des conceptualisations partagées par une communauté permettant la recherche et l’échange d’informations), des annotations sémantiques (représentant le contenu des ressources) et des langages de représentation de connaissances pour représenter formellement ces ontologies et ces annotations.

Afin d’atteindre le but de gérer le web à la fois comme une base de connaissances permettant de réaliser des inférences et de rendre les informations compréhensibles par les machines, des propositions ont été faites vers la standardisation de langages pour la représentation d’ontologies et d’annotations.

Les travaux dans ce sens ont donné lieu à différents formalismes, méthodes et outils pour annoter et gérer de manière sémantique les ressources du web. Néanmoins, bien que la quantité non négligeable de formalismes proposés montre l’intérêt d’une telle approche, cela pose un problème au moment du partage d’informations représentées ; des mécanismes de traduction sont nécessaires pour la réutilisation des connaissances exprimées dans des langages d’expressivité différents.

Par ailleurs, parmi les ressources hétérogènes appartenant par exemple à une communauté scientifique ou à une entreprise, les documents (sous forme papier ou électronique) prennent une place importante dans la matérialisation de leurs connaissances. Les documents accessibles à partir du web ou d’une base documentaire quelconque constituent une source considérable de connaissances à représenter, interroger, capitaliser et diffuser. Dans le contexte de la recherche d’information documentaire, la représentation du contenu de documents en utilisant des termes appartenant à une ontologie pour une gestion et une exploitation ultérieure, semble envisageable pour obtenir des résultats pertinents aux besoins des utilisateurs de cette base documentaire.

En attendant l’arrivée d’un standard pour représenter les contenus des ressources du web ou des ressources dans une entreprise, des besoins de traduction sont de plus en plus nécessaires. Le but de ce travail de recherche est à la fois de proposer une méthode de traduction entre langages d’expressivité différentes, ainsi que de fournir un environnement pour exploiter, capitaliser et diffuser les connaissances d’un domaine (interactions géniques chez la drosophila melanogaster) pour des besoins de recherches d’information.

Carolina.Medina_Ramirez@sophia.inria.fr

(8)

Benjamin Piwowarski

Techniques d’apprentissage pour le traitement d’informations structurées : Application à la recherche d’information.

Thèse d’informatique, Université Paris VI.

Jury : Patrick Gallinari (Directeur), Michel Beigbeder (Rapporteur), Rémi Gilleron (Rapporteur), Anne Doucet, Marie-Christine Doucet.

Dans le contexte de l’accès à l’information, la notion de document électronique a considérablement évoluée. En peu de temps, nous sommes passés d’un monde où la représentation dominante d’un document était constituée de la suite de ses mots ou de ses phrases à une représentation bien plus riche et structurée (multimédia).

Cette évolution touche les communautés de la Recherche d’Information (RI), des Bases de Données et de l’Apprentissage Automatique qui sont celles qui sont au cour de notre travail.

Dans ce manuscrit, nous présentons un modèle complet de RI structurée basé sur les Réseaux Bayésiens (RB). Notre modèle est capable de répondre à des questions portant à la fois sur la structure et le contenu. Notre modèle peut également apprendre de manière automatique ses paramètres. Nous nous intéressons également à la définition d’une nouvelle mesure d’évaluation des systèmes de RI structurés.

Benjamin.Piwowarski@lip6.fr

Jeanne Villaneau

Contribution au traitement syntaxico-pragmatique de la langue naturelle parlée : approche logique pour la compréhension de la parole.

Thèse d’informatique, Université de Bretagne-Sud.

Jury : Olivier Ridoux : (directeur), Dominique Duhaut (président de jury), Jean- Yves Antoine (codirecteur), Sylvain Delisle (rapporteur), Alain Lecomte (rapporteur), Sophie Rosset.

Les recherches en Traitement Automatique du Langage Naturel (TALN) ne se limitent plus à des études théoriques ; elles peuvent désormais déboucher sur la conception de systèmes destinés à des applications commerciales. Dans le domaine particulier du Dialogue Oral Homme-Machine (DOHM), les progrès faits en matière de reconnaissance vocale ces dernières décennies ont permis de mettre à la disposition du grand public les premiers serveurs vocaux interactifs. La Compréhension Automatique de la Parole (CAP) est un élément essentiel de ces systèmes mais son développement se heurte à de nombreuses difficultés : erreurs de la reconnaissance vocale, libertés de la langue orale et phénomènes liés à la recherche des mots. Dans ces systèmes prototypes, le caractère très étroit de la

(9)

tâche envisagée (horaires de trains ou d’avions, informations météo, etc.) permet de faire l’hypothèse d’une absence d’ambiguïté sémantique : la compréhension peut y être réduite à la détection de quelques mots ou segments-clés qui permettent de remplir les différents champs de structures sémantiques prédéfinies. De telles méthodes sont robustes et efficaces dans les domaines pour lesquels elles ont été conçues. On ignore si elles gardent ces qualités lorsque l’on veut étendre le domaine de l’application ou l’espace des tâches auxquelles est consacré le système.

L’objectif du travail de thèse est de proposer une approche de la compréhension qui soit utilisable dans un système de dialogue oral homme-machine destiné à un domaine plus large que ceux habituellement envisagés. Cette approche donne lieu à la réalisation d’un système de compréhension destiné au renseignement touristique : le système Logus⁽¹⁾. Trois buts sont essentiellement poursuivis :

– un élargissement du domaine de l’application implique un accroissement de l’ambiguïté sémantique. L’analyse doit être suffisamment fine pour permettre de lever ces ambiguïtés et pour détecter aussi précisément que possible les intentions du locuteur.

– la finesse de l’analyse ne doit pas lui faire perdre la qualité de robustesse indispensable pour résister aux caractéristiques du matériau à analyser.

– l’analyse s’appuie sur le caractère finalisé du dialogue et une connaissance du domaine de l’application. Malgré cela, l’approche proposée se veut générique : il ne suffit pas que ses principes généraux soient réapplicables dans un domaine d’application autre que le domaine test retenu ; il convient également que la plupart des règles utilisées au cours de l’analyse le soient également.

Dans un système de DOHM, la compréhension est une traduction : une liste de mots issue de la reconnaissance de la parole est traduite en une représentation sémantique. Le premier problème consiste à définir une langue cible : elle doit être suffisamment précise pour répondre aux objectifs de finesse annoncés mais elle doit en même temps être assez simple pour pouvoir être aisément utilisable par le gestionnaire du dialogue. Dans Logus, les objets du domaine et leurs propriétés sont représentés par des concepts et par des relations conceptuelles ; leur composition permet de construire des structures sémantiques plus ou moins complexes appelées chaînes d’objets. La représentation sémantique rendue est une formule logique inspirée de la logique illocutoire de D. Vanderveken : dans un énoncé, une proposition est représentée par l’application d’un acte de langage (sa force illocutoire) à une chaîne d’objets (son contenu propositionnel). Cette formule est conçue pour pouvoir prendre également la forme d’un graphe conceptuel à la Sowa.

La formule logique rendue en résultat s’obtient par composition des éléments de l’énoncé connus du système. L’analyse est ascendante et incrémentale. Les règles de composition utilisées correspondent à des adaptations de formalismes syntaxiques classiques. Elles permettent de rendre compte simultanément de critères syntaxiques et sémantiques. Les contraintes imposées par ces formalismes sur la contiguïté et l’ordre des éléments sont progressivement relâchées au cours des différentes étapes.

(10)

La première étape repose sur un formalisme adapté des grammaires catégorielles ; elle correspond à une segmentation en chunks minimaux qui opère un rattachement local de mots grammaticaux à leur tête lexicale. Les étapes suivantes permettent d’établir des liens sémantiques entre ces chunks. Elles correspondent à l’application de règles de réécriture syntaxico-sémantiques, suivie par une interprétation contextuelle. La stratégie d’une analyse par étapes permet de concilier l’objectif de robustesse imposé par la forme des énoncés avec celui de finesse exigé par la présence des ambiguïtés linguistiques et par la volonté de pouvoir prendre en compte une éventuelle complexité des requêtes. L’objectif de généricité est atteint en proposant des règles générales qui définissent une interprétation des structures qui représentent les connaissances du domaine.

La dernière partie du mémoire de thèse est consacré à une évaluation de Logus ; les résultats prouvent la validité de l’approche par rapport aux objectifs initialement fixés. Cependant, pour compléter l’approche logique proposée, il conviendrait de développer une gestion du dialogue qui puisse faire directement usage de la forme même des résultats rendus. Ce développement est un prolongement du travail déjà réalisé qui permettrait de donner tout son sens à l’approche choisie.

jeanne.villaneau@univ-ubs.fr

Chiao Yun-Chuang

Extraction lexicale bilingue à partir des textes médicaux comparables : application à la recherche d’information.

Thèse Informatique médicale, Université : Paris 6.

Jury : Pierre Zweigenbaum (directeur), Jean-David Sta (codirecteur), Christian Fluhr (rapporteur), Benoît Habert (rapporteur), Patrick Gallinari, Éric Gaussier, Pierre Le Beux.

L’accroissement explosif des connaissances dans le domaine médical et l’inflation textuelle et multilingue, notamment sur le web, confèrent à l’accès, l’exploitation ou la traduction de ces informations un enjeu important. Ces traitements nécessitent des ressources lexicales multilingues qui font partiellement défaut. L’actualisation de ces ressources multilingues est donc une problématique clé dans l’accès à ces informations.

Les travaux présentés ici ont été réalisés dans le cadre de l’extraction de lexique bilingue spécialisé à partir de textes médicaux comparables. L’objectif est d’évaluer et de proposer un outil d’aide à l’actualisation de lexique bilingue spécialisé et à la recherche d’information translangue en s’appuyant sur l’exploitation de ressources bilingues provenant du web dans le domaine médical.

(11)

Nous présentons un modèle fondé sur l’analyse distributionnelle en introduisant à cette occasion une nouvelle notion que nous nommons symétrie distributionnelle.

En général, les modèles classiques d’extraction de lexique bilingue à partir de corpus comparables établissent la relation de traduction entre deux mots en calculant la ressemblance entre leurs distributions d’une langue vers l’autre (par exemple, du français vers l’anglais). L’hypothèse de symétrie distributionnelle postule que la ressemblance des distributions de deux mots dans les deux directions de langues est un critère fort du lien traductionnel entre ces mots.

Deux grandes applications de ce modèle ont été expérimentées afin de le valider.

Il s’agit de l’extraction d’un lexique bilingue médical (français-anglais) et de la recherche d’information translangue. Dans le cas de l’extraction lexicale bilingue, les résultats montrent que la prise en compte de la symétrie distributionnelle améliore la performance de manière significative par rapport aux modèles classiques. Dans le cas de la recherche d’information translangue, notre modèle a été appliqué pour traduire et étendre les requêtes. Les résultats montrent que lorsque les propositions de traduction ou d’extension sont supervisées par l’utilisateur, il améliore la recherche d’information par rapport à une traduction basée sur un dictionnaire initial.

ddchiao@yahoo.fr