Article pp.875-888 du Vol.42 n°3 (2001)

(1)

Rubrique préparée par Anne Condamines (ERSS-CNRS)

Estelle Campione

Etiquetage semi-automatique de la prosodie dans les corpus oraux : algorithmes et méthodologie

Thèse de sciences de sciences du langage, Université Aix-Marseille I

Jury : Jean Véronis, (directeur), Marie-josée Béguelin, (rapporteur), Gerry Knowles, (rapporteur), Albert Di Cristo (examinateur), Daniel Hirst (examinateur), Claude Muller (examinateur)

L’objectif de cette thèse est de mettre en évidence la faisabilité de la transcription prosodique de grands corpus, à l’aide d’outils semi-automatiques destinés (1) à réduire le coût humain de la transcription, (2) à lui apporter une base objective. En effet, alors que l’on dispose désormais pour l’écrit de corpus de dizaines, voire de centaines de millions de mots, les corpus oraux transcrits avec des indications prosodiques sont rares et dispersés. La raison de cette carence en corpus prosodiquement annotés provient de la difficulté, maintes fois soulignée, de la transcription prosodique, qui demande un temps considérable, et fait appel à une compétence phonétique très spécialisée peu courante parmi les « linguistes de corpus ». De plus, la transcription prosodique est d’une nature éminemment subjective, qui réduit la fiabilité des données résultantes et impose des relectures par des annotateurs multiples, accroissant encore le coût global de la tâche : d’après l’étude de Pickering, Williams & Knowles (1996) sur le SEC, les annotateurs sont en désaccord sur la présence de frontières prosodiques dans 27 % des cas et leur taux d’accord sur les étiquettes de tons et d’accents est seulement de 55 % meilleur que le hasard.

Automatiser l’étiquetage prosodique des corpus serait donc du plus grand intérêt, à la fois en termes de coûts et d’objectivité de l’annotation. Bien sûr, une automatisation complète n’est pas envisageable dans l’état actuel de la technologie, mais nous présentons dans cette thèse des outils et une méthodologie qui permettent une réduction substantielle du temps d’intervention manuelle, et améliorent l’objectivité et la cohérence du résultat. De plus, les étapes manuelles nécessaires

(2)

ne demandent pas une expertise phonétique poussée et peuvent être menées à bien par des étudiants et des « linguistes de corpus ».

Nous proposons un codage prosodique « large » qui délimite seulement les unités majeures, dans une perspective de lisibilité et d’exploitation de grands corpus pour l’analyse des phénomènes syntaxiques et pragmatiques. Notre travail est sous-tendu par la volonté constante de limiter les présupposés théoriques, de façon à produire des corpus annotés les plus neutres possibles vis-à-vis des théories particulières, et nous avons fait le choix de transcrire seulement les événements qui correspondent à une réalité objective et qui sont par conséquent repérables par l’instrumentation, tels que les proéminences mélodiques, les pauses silencieuses, les « marques du travail de formulation » (euh et allongements syllabiques), etc.

La densité de symboles que nous proposons est semblable à celle qu’utilisent divers spécialistes de corpus dans leur transcriptions, tels que Béguelin (2000), Morel &

Danon-Boileau (1998), Martinie (1999). L’exemple ci-dessous montre un fragment de corpus transcrit avec notre système. La notation est volontairement assez simple : les énoncés sont découpés en segments qui apparaissent chacun sur une ligne séparée, précédée de la position temporelle en secondes à partir du début de l’enregistrement ; les montées et descentes intonatives importantes sont notées par les flèches (Ê et Ì), les accents sont marqués par un astérisque (*) et les allongements syllabiques d’hésitation par deux-points (:) ; les tirets (- et --) marquent deux niveaux de pause.

A l’aide d’un corpus de travail constitué de près de six heures de parole (lue et spontanée) dans cinq langues (anglais, allemand, espagnol, français et italien), que nous analysons avec des outils informatiques et statistiques, nous proposons, dans un premier temps, une étude rigoureuse et systématique des différents indices et de leur interaction. Nous étudions ainsi près de 60 000 mouvements mélodiques et 6 000 pauses, et l’influence de facteurs tels que la langue, le sexe, le débit ou le type de parole. Si nos résultats confirment le plus souvent, en les complétant, les études précédemment publiées, ils apportent parfois un point de vue nouveau, voire contredisent certaines données tenues pour acquises.

Nous avons ainsi pu dégager des résultats qui apportent un point de vue nouveau sur la mélodie, par exemple la claire distribution bimodale des mouvements mélodiques (qui semble renforcer la position de ceux qui voient dans l’intonation un phénomène lié à des mouvements relatifs plutôt qu’à des niveaux fixes), ou bien des différences hommes-femmes importantes qui contredisent les études antérieures (Tielen, 1992 par exemple, qui concluait à une absence de différence, mais dont nous montrons que cette absence est due à des mesures, notamment d’étendue corrigée, qui « gomment » justement ces différences).

(3)

De même, au niveau des pauses, notre base de données importante fait apparaître des résultats qui souvent confirment et complètent (par l’observation de cinq

(4)

langues) les études antérieures, telles que celle de Grosjean & Deschamps (1972) sur la relation entre les différents paramètres du débit : pauses, vitesse d’articulation, etc. Nous soulignons toutefois l’importance des pauses brèves, inférieures à 200 ms, qui ont souvent été éliminées des études, sans doute pour des raisons de facilité, et nous montrons le danger méthodologique qu’il y a à utiliser des seuils, inférieurs ou supérieurs d’ailleurs, pour l’étude des pauses. Ceux-ci, à nouveau, « gomment » (voire inversent) les différences que l’on veut étudier, par exemple entre différents types de parole, différences qui se situent souvent dans les marges. Nous montrons ainsi clairement que la distribution des pauses est multimodale, et qu’une division en trois groupes, pauses brèves (< 200 ms), moyennes (entre 200 ms et 1 s) et longues (> 1s), apparaît dans les données. Ce qui caractérise clairement la parole spontanée, par exemple, c’est la présence des pauses longues (> 1 s), inexistantes dans la parole lue.

Dans un deuxième temps, nous proposons un algorithme qui prend en compte l’ensemble des contraintes et interactions pour produire en sortie un codage prosodique des corpus. Nous avons découplé de façon soigneuse, d’une part, la phase d’extraction d’indices, automatique ou manuelle et, d’autre part, l’interprétation de ces indices à l’aide de règles et contraintes. Cette approche modulaire permet une meilleure compréhension du rôle des différents indices et un travail de mise au point plus aisé. Elle permet aussi une certaine indépendance de la langue : les modules de bas niveau sont applicables à diverses langues et ont été testés sur les cinq langues de notre corpus, et seul le système de règles d’interprétation est spécifique à chaque langue (dans le cadre de ce travail, nous proposons un tel système seulement pour le français).

Estelle.Campione@aixup.univ-aix.fr

Gaël de Chalendar

SVETLAN’, un système de structuration du lexique guidé par la détermination automatique du contexte thématique

Thèse d’informatique, Université Paris XI

Jury : Gérard Sabah (directeur), Brigitte Grau (codirectrice), Marie-France Bruandet (rapporteur), François Rousselot (rapporteur), Marie-Christine Rousset (examinatrice), Bernard Victorri (examinateur)

Des connaissances sémantiques sont obligatoires pour le traitement automatique des langues. Les bases de connaissances générales posent des problèmes. Jusqu’à présent, on savait extraire automatiquement des connaissances sémantiques depuis les textes de spécialité mais pas de façon adéquate depuis des textes de la langue dite « générale ». Cette thèse a pour but de montrer que ce type d’extraction est possible.

(5)

Nous commencerons par affirmer que la poursuite de l’amélioration des performances des applications de traitement automatique des langues nécessite d’effectuer des analyses de plus en plus fines des documents dans le but d’extraire leur signification plus précisément. Dans ce domaine, les techniques existantes correspondent à deux approches, radicalement différentes.

D’une part, les analyses de surface sont fondées sur les distributions des mots et leur importance dans un corpus. Elles utilisent des connaissances lexicales sur les mots et, éventuellement, des connaissances sémantiques générales, comme la classe sémantique d’un mot et les relations entre les mots et les concepts. De telles informations sont encodées par exemple dans WORDNET ou dans des thésaurus. Ce type d’approche est applicable à de grosses bases de textes, quel que soit leur sujet.

En retour, ces systèmes ne peuvent mettre en œuvre une analyse détaillée et précise du fait qu’ils ne disposent pas d’une base de connaissances détaillée et structurée.

Même en utilisant WORDNET, ce problème persiste. Les mots dans WORDNET font partie d’un ou plusieurs synsets, qui sont des ensembles de synonymes. Ces catégories sont larges et il arrive que deux mots présents simultanément dans un ou plusieurs synsets, mais considérés dans un contexte particulier, ne partagent plus la moindre part de sens dans ce cas.

D’autre part, des systèmes effectuent une analyse en profondeur. Ils nécessitent l’utilisation de bases de connaissances sémantiques extrêmement structurées, aussi bien que des connaissances pragmatiques à propos des situations auxquelles les textes font référence (événements, liens causaux et entités). Ces systèmes ont pour but de produire une analyse sémantique des phrases et de construire une représentation de la signification des textes. Leurs limites proviennent en grande partie de ces indispensables connaissances : il est très difficile et coûteux de les produire, et ce même dans des domaines restreints. De plus, leur réutilisation dans des applications ou domaines connexes est toujours difficile.

Un des buts de cette thèse est de tenter d’améliorer les premiers systèmes sans perdre leur capacité de large couverture, dans le but de tendre vers la possibilité d’appliquer les systèmes du deuxième groupe à une plus grande échelle. Nous effectuons cela par l’acquisition automatique d’une base de connaissances plus structurée que celles utilisées jusqu’à présent dans les approches de surface. Notre but est d’extraire automatiquement ces connaissances de textes. En effet ceux-ci contiennent de nombreux exemples exploitables de l’usage des mots. En revanche, nous ne cherchons pas à modéliser un domaine choisi a priori. Au contraire, nous voulons traiter « la langue en général », à opposer à un dialecte de spécialité. Bien sûr, il est reconnu qu’il n’existe pas de corpus de la langue générale. Chaque corpus est une partie de l’expression d’une ou plusieurs langues qui a sa propre spécificité. En français, nous utilisons deux corpus journalistiques : des dépêches de l’AFP (Agence France Presse) et des articles du journal Le Monde. Ces deux corpus, bien qu’ayant un style journalistique assez fixe, couvrent des sujets très variés et, de ce fait, sont assez proches de ce qui pourrait être considéré comme un corpus généraliste. De même, en anglais nous utilisons un corpus journalistique : trois mois du journal Los Angeles Times. Nous sommes bien évidemment parfaitement conscient qu’il est exagéré de parler de langue générale à propos d’un

(6)

corpus journalistique et même que la question se pose de savoir si le concept même de langue générale est pertinent. Nous montrons que la détection automatique du thème de textes non spécialisés (journalistiques en particulier) permet la plupart du temps de se ramener dans le cadre d’un problème classique de traitement de corpus spécialisé, tout en nécessitant des interventions humaines très réduites.

Nous allons aborder une autre raison qui nous pousse à tenter d’apprendre automatiquement des connaissances sémantiques. Notre but scientifique est d’avancer dans l’explication du fonctionnement cognitif humain. Les sources d’informations dans ce domaine sont nombreuses mais posent des problèmes. En neurobiologie et en imagerie médicale, on obtient des informations trop fines ou trop larges pour éclairer les modèles cognitifs. Dans les diverses branches de la psychologie (neuropsychologie, psycholinguistique, psychologie cognitive), on travaille sur des modèles mais on a un problème de finesse de grain similaire à celui des modèles biologiques. Dans tous ces domaines, on en est à la collecte d’informations. Il y a donc un grand intérêt à tenter de créer des modèles informatiques de certains traitements typiquement attachés à la cognition humaine.

On peut s’inspirer de données et de modèles tirés des autres branches des sciences cognitives, mais on n’est pas obligé de s’y sentir lié. Le résultat même de l’expérimentation informatique peut être plein d’enseignement pour les autres disciplines, en particulier quand on tente de traiter des phénomènes en vraie grandeur. Cela explique notre insistance à tenter d’avancer dans des directions abandonnées par le reste de la communauté du fait de leurs difficultés ; difficultés à traiter les divers phénomènes et difficultés à juger les résultats. Les recherches en traitement automatique des langues abandonnent depuis quelques années les directions risquées, très hypothétiques et traitent plutôt des problématiques d’ingénierie et applicatives. Ce n’est pas gênant, mais il ne faut pas laisser à d’autres communautés l’entière responsabilité d’explorer les territoires inconnus de la cognition. D’un autre côté, il serait stérile de se laisser entraîner trop loin de l’état de l’art, au risque de ne plus avoir de support factuel et de tomber dans le travers des époques passées, c’est-à-dire les systèmes « jouets » impossibles à étendre à des phénomènes réels. C’est pourquoi nous avons tenté de créer un système qui s’inscrive dans le cadre d’un modèle cognitif global de l’apprentissage et du traitement du langage qui soit complètement autonome mais malgré tout capable de rendre des services dans le cadre des applications actuellement demandeuses.

La première partie de la thèse est consacrée à une description des interactions entre l’objet « langue » et l’informatique. Elle commence par un chapitre introductif. Le deuxième chapitre est consacré à un bref rappel de l’histoire du traitement automatique des langues. Le troisième chapitre décrit la manière dont nous envisageons les questions linguistiques. Il aborde aussi le problème de la modélisation des capacités d’ordre cognitif du traitement du langage. C’est dans ce chapitre que nous décrivons pour la première fois le modèle global d’apprentissage dans lequel nous inscrivons notre travail : MoHA (Modèle Hybride d’Apprentissage), ainsi que les hypothèses et les postulats de base sur lesquels repose notre approche.

(7)

Le quatrième chapitre est consacré aux interactions entre les connaissances linguistiques et l’outil informatique. Il décrit l’état de l’art général en TAL. Puis il expose la problématique de l’apprentissage automatique de connaissances et il décrit ensuite les systèmes qui ont été développés pour effectuer de telles acquisitions à partir de texte. Il se termine par une étude des moyens qui ont été employés pour valider les connaissances apprises par les systèmes précédents.

La deuxième partie de notre travail est consacrée au projet MoHA, et plus particulièrement à notre contribution au projet. Ce projet a pour ambition de modéliser les capacités cognitives d’apprentissage et de compréhension en retenant trois principes fondamentaux. L’apprentissage utilise divers types de connaissances en interaction entre eux ; l’apprentissage ne peut être distingué de l’usage des connaissances acquises ; et enfin, il est incrémental. Dans MoHA, ces principes sont utilisés à tous les niveaux. Aux niveaux perceptifs comme aux niveaux les plus symboliques. Le premier chapitre de cette deuxième partie décrit l’architecture du modèle et son état avant notre travail. Ce chapitre se poursuit par l’exposé de notre travail dans le projet et se termine par un bref rappel des points qui restent à traiter après notre thèse.

Le chapitre 6 décrit l’état de l’art en acquisition automatique de classes de termes, puis notre propre système, SVETLAN’ qui, en conjonction avec l’outil d’acquisition des thèmes (développé au cours d’une précédente thèse dans notre groupe) et un analyseur syntaxique, extrait des classes de mots depuis des textes bruts. Notre thèse principale est que la détection automatique des domaines thématiques permet d’effectuer l’acquisition de telles classes en utilisant un corpus non spécialisé qui porte donc sur des sujets variés, et ce dans un format varié. Nous n’avons donc pas besoin de présupposer le fait que l’on soit dans un domaine extrêmement spécialisé qui permettrait de supprimer les problèmes de polysémie.

Pour les mêmes raisons, nous pouvons utiliser un système entièrement automatique qui n’a pas absolument besoin d’un expert pour l’assister pendant l’acquisition.

Bien sûr, nous ne traitons pas la langue générale, dont l’existence même peut être mise en doute, mais nous traitons des corpus variés sans adaptation manuelle. Nous y parvenons en détectant automatiquement les variations de thème rencontrées dans les textes. Les classes sont ainsi obtenues par le rassemblement de noms apparaissant avec la même relation syntaxique après un même verbe, à condition d’être utilisés dans un même contexte. Ce contexte est donné par l’agrégation de segments de textes portant sur des sujets similaires. Les classes obtenues regroupent très souvent des mots qui sont liés deux à deux par une relation sémantique, telle qu’une relation de synonymie ou d’hyperonymie. Ce sont des classes d’équivalence paradigmatique dans un certain contexte. Le domaine thématique dans lequel sont formées les classes détermine ce contexte. La description de SVETLAN’ consiste en une description de ses divers modules, puis nous donnons un aperçu de son implémentation et enfin, nous décrivons les procédures de validation que nous avons mises en place.

Le chapitre 7 concerne les programmes informatiques que nous avons mis au point pour réaliser effectivement nos propositions. Nous commençons par y décrire le format de fichier BQRDoc, épine dorsale de nos traitements de l’information.

(8)

Nous continuons en décrivant les divers modules de SVETLAN’ ainsi que ses interfaces graphiques. La dernière partie de ce chapitre, assez longue, décrit en détail les expérimentations que nous avons menées sur quatre corpus différents, de type et de taille variés. Ces expériences donnent de bons résultats. Cependant, elles confirment aussi que de très grandes quantités de données sont nécessaires pour extraire des connaissances lexicales substantielles et de bonne qualité par l’analyse des distributions syntaxiques. Elles montrent aussi qu’il n’est pas raisonnable d’imaginer obtenir un résultat exempt d’erreurs de classification. Ce dernier point ne remet absolument pas en cause les principes que nous avons utilisés. Au contraire, il permet de confirmer qu’un apprentissage de qualité dépend de l’interaction de diverses sources de connaissances (la connaissance apportée par un utilisateur du système pouvant être une source parfaitement légitime) et de l’usage qui est fait des connaissances acquises. Les utilisations que nous proposons pour nos classes (extension de requêtes, etc.) doivent pouvoir se satisfaire de leur niveau de bruit.

Le chapitre 8 décrit les diverses applications grâce auxquelles nous voulons valider nos résultats, ce qui permettra de vérifier notre assertion précédente. Un certain nombre de ces applications sont implémentées et ont commencé à fournir des résultats. D’autres sont encore à l’état de projets.

Enfin, la troisième partie traite de l’avenir de nos travaux. Elle discute des perspectives possibles et expose nos conclusions. En particulier, dans le débat qui oppose les tenants d’une sémantique universelle indépendante du domaine et ceux qui supposent que la seule voie raisonnable est celle d’une grande spécialisation avec très peu de partage possible entre les domaines de spécialité, nous avons suivi une voie médiane en tentant de prendre le meilleur des deux écoles. Nous ne pensons pas avoir prouvé la justesse de notre point de vue, car il est très difficile d’apporter une preuve dans le domaine des sciences humaines. En revanche, nous sommes persuadé d’avoir apporté des arguments qui vont dans ce sens, en particulier grâce à l’implémentation complète de notre modèle et aux tests que nous avons pu mener sur des corpus de taille importante.

Ambroise Ingold

Expérience de couplage entre bases de données factuelles et bases de données bibliographiques : identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations sur les interactions génétiques ou moléculaires à partir de publications

Thèse en sciences de l’information et de la communication, Université d’Aix- Marseille III

Jury : Bernard Jacq, (codirecteur), Luc Quoniam (codirecteur), Philippe Dessen, (rapporteur), Xavier Polanco (rapporteur), Pierre Zweigenbaum (rapporteur, absent au jury), Henri Dou (examinateur)

(9)

L’achèvement du projet génome ouvre la voie vers de nouvelles perspectives. Il s’agit d’exploiter les données acquises pour parvenir à comprendre le fonctionnement du vivant. De grandes bases de données capitalisent et organisent le savoir accumulé. Chacune répond à une problématique différente et la synthèse appartient finalement au chercheur lui-même. Les bases de données bibliographiques permettent l’accès au texte, qu’il s’agisse d’un résumé de publication, ou qu’il s’agisse du texte intégral de la publication. C’est là que se trouve l’information la plus complète, la plus détaillée, et la plus à jour. Les encyclopédies électroniques offrent un point de vue synthétique sur l’état du savoir.

Les bases de données de résultats d’expériences permettent de formuler des hypothèses fécondes. Le va-et-vient entre les bases de données bibliographiques et les bases de données factuelles est rendu possible par des liens croisés. Pour les bases de données factuelles, il s’agit de maintenir des pointeurs vers de la bibliographie. Pour les bases de données bibliographiques, il s’agit, d’une part, de proposer des liens vers les résultats d’expériences et, d’autre part, d’indexer les textes à l’aide des nomenclatures maintenues par les encyclopédies électroniques.

La masse des données en jeu est énorme. La vitesse avec laquelle le savoir s’accumule et s’actualise est grande. L’établissement de liens entre bases de données bibliographiques et bases de données factuelles ne peut plus être effectué manuellement. Comment l’automatiser ? Nous prenons deux exemples d’applications complémentaires pour y répondre.

Dans les publications scientifiques, qu’est-ce que nous aimerions voir repéré et lié à des données factuelles ? D’une part, les objets et, d’autre part, les relations entre ces objets. Nous prendrons un exemple d’application pour chaque cas. Pour les objets, nous prendrons comme exemple les gènes de la Drosophile. Pour les relations, nous prendrons comme exemple les interactions génétiques ou moléculaires chez ce même organisme. Il s’agit d’un type de relation pertinent en génétique. La question est de savoir quand deux gènes collaborent dans un processus dans lequel ils sont impliqués. Dans certains cas (interaction moléculaire), cette collaboration s’explique par un contact physique entre des molécules. Plus généralement (interaction génétique), les mécanismes moléculaires restent inconnus ou l’interaction résulte de plusieurs interactions moléculaires s’enchaînant en cascade.

Notre travail comprend donc deux volets. Le premier volet consiste à repérer dans la base de données bibliographique Medline les gènes qui sont répertoriés dans l’encyclopédie électronique sur la Drosophile Flybase. Le deuxième volet consiste à construire une base de données sur les interactions à partir des résumés de publications contenus dans Medline. Enfin, nous présentons le travail d’annotation permettant d’évaluer les résultats.

Le repérage des gènes et des interactions géniques

Nous pensons que l’accès à l’information textuelle doit se faire par des mots- clés. Pour l’identification des gènes, il s’agit d’utiliser les divers noms du gène ou de ses produits. Pour la reconnaissance des interactions, il s’agit d’analyser le vocabulaire présent pour détecter le thème de l’interaction. C’est d’ailleurs de cette

(10)

façon que les utilisateurs des bases de données recherchent des informations sur les objets qui les intéressent ou sur les relations qu’entretiennent ces objets entre eux.

Ils utilisent des mots-clés qui représentent, soit les objets, soit les relations.

Identifier les gènes cités dans un texte est une tâche difficile à automatiser car la nomenclature est complexe et l’usage ne suit pas toujours la norme. Des abréviations sont utilisées, mais il peut en exister plusieurs. La terminologie évolue avec la progression de la connaissance. Les anciennes dénominations vont former des alias. En outre, un gène peut être désigné par ses produits, en particulier les protéines dont il commande la synthèse. Des variations orthographiques existent, notamment avec la coupure des mots, l’usage optionnel des tirets ou des majuscules.

Des contradictions finissent par apparaître : deux termes peuvent désigner le même gène. Le contexte peut primer quand il existe plusieurs indices concordants de la présence d’un même gène. Certaines interprétations devront être privilégiées à contexte équivalent. Il existe aussi des termes vagues, qui ne désignent pas un gène précis mais peuvent renvoyer à toute une collection de gènes.

Flybase rend compte de la variété de tel ou tel nom de gène mais pas du choix des dénominations. S’y retrouve mêlées des informations relatives à la norme, à l’historique, aux mécanismes biologiques (avec les noms de protéines), aux variations orthographiques, aux écarts acceptables par rapport à la norme, à l’usage ponctuel dans une publication, à l’usage fautif, au manque de précisions, etc. Flybase présente un inventaire. Elle n’explique pas comment identifier les gènes dans un texte.

La polysémie est présente dans le domaine des gènes de la drosophile. D’une part, les termes utilisés peuvent désigner tout autre chose que des gènes. Par exemple : labial, blood et arrest sont des noms de gènes. De même N, h et if sont des noms abrégés des gènes Notch, hairy et inflated. D’autre part, les noms de gènes peuvent rentrer dans la composition de terme désignant d’autres gènes ou tout autre chose. Par exemple, les noms de gènes lethal of scute et Suppressor of Hairless sont formés sur les noms de gènes scute et Hairless. Autre exemple, le nom de gène scute entre dans la composition de Achaete-scute Complex qui est un complexe de gènes ; Polycomb entre dans la composition de Polycomb group qui est un groupe de gènes.

Ce phénomène d’appariement de plusieurs termes pour former une entité de sens est appelé collocation.

Le contexte permet souvent de lever les ambiguïtés. Il permet soit d’identifier une collocation, soit de donner plusieurs indices concordants de la présence d’un même gène.

Pour parvenir à automatiser l’identification des gènes, il s’agit de structurer correctement les connaissances nécessaires à l’interprétation et de trouver un algorithme efficace. L’organisation des données a été conduite grâce à une base de données relationnelle. L’algorithme permettant l’interprétation du texte a été mis en œuvre grâce à des automatismes se succédant dans un ordre déterminé.

Nous proposons une méthode pour corriger, structurer et enrichir des données déjà existantes sur la terminologie, de façon à permettre leur utilisation lors d’un

(11)

processus automatique d’identification des gènes. Cette méthode passe par une confrontation des données présentes dans la nomenclature et des textes à annoter.

Cette confrontation permet à la fois de mesurer l’efficacité du processus, de comprendre les problèmes, de corriger, annoter ou enrichir la nomenclature. La question est aussi d’obtenir des informations sur l’usage réel qui est fait de la nomenclature. Par exemple quelle est la fréquence d’utilisation des abréviations, des alias, etc. ?

La nomenclature maintenue par Flybase n’est pas tout à fait complète. Des variations orthographiques ont été omises. Nous proposons un système pour anticiper certaines de ces variations orthographiques. Il s’agit d’enrichir la nomenclature par analyse automatique des textes, de façon à valider les variations orthographiques anticipées.

Extraction d’information sur les interactions génétiques ou moléculaires

Le deuxième volet de notre travail consiste à construire une base de données sur les interactions génétiques ou moléculaires à partir de résumés de publications. Il s’agit d’une tâche d’extraction de connaissances à partir de texte. Nous utilisons principalement la cooccurrence pour y parvenir. Il s’agit de repérer les couples de gènes cités dans au moins une phrase. Nous utilisons en complément un indicateur statistique évaluant la probabilité qu’une phrase décrive une interaction. Cet indicateur est basé sur l’existence d’un vocabulaire spécifique aux interactions génétiques ou moléculaires. Il s’agit de résultats obtenus au CRRM par Violaine Pillet et que nous avons intégrés à notre système.

Les travaux sur l’extraction d’information sur les interactions génétiques ou moléculaires sont de deux types. Dans un premier type d’étude, des matrices de cooccurrence sont calculées pour savoir si l’apparition d’un gène est corrélée avec l’apparition d’un autre gène. Ces études permettent de découvrir des relations fonctionnelles évidentes ou cachées et apportent donc une aide à la découverte. Les résultats sont évalués sur la base de leur utilité pour le chercheur. Il est difficile de savoir dans quelle mesure une information initialement présente dans les textes est ou n’est pas retenue.

Dans un autre type d’étude, des modèles d’énoncés d’interactions sont inventoriés et les motifs textuels correspondants sont recherchés dans les textes.

Cependant les modèles utilisés sont simples et les motifs sont donc très spécifiques.

Par exemple, il s’agira de rechercher des verbes d’action comme bind et de les associer aux syntagmes nominaux voisins, qui sont en principe des noms de gènes ou de protéines. La spécificité des motifs recherchés va assurer une grande qualité des réponses fournies. La précision sera donc bonne. Inversement la quantité d’information extraite sera relativement faible car beaucoup de descriptions d’interactions ne correspondront pas au modèle prédéfini. Le rappel sera donc mauvais.

Les bénéfices de l’annotation

Dans la plupart des études, la perte d’information, due à la trop grande spécificité des motifs textuels recherchés ou plus généralement à la sélection qui est

(12)

opérée sur les textes, n’est pas évaluée. En effet, dans ces études, l’évaluation n’est menée que sur les textes qui présentent déjà des caractéristiques bien précises. Nous pensons que l’annotation des textes doit se faire avant toute sélection. C’est la seule façon de connaître la quantité d’informations qui est perdue après la sélection.

En outre, cette annotation est très instructive. Elle permet de se rendre compte du fait que les interactions sont souvent décrites dans des énoncés très complexes.

Ces énoncés se prêtent difficilement à des recherches de motifs textuels précis. Nous proposons donc un système basé sur la recherche de termes simples. Ces termes sont choisis pour les renseignements qu’ils apportent à eux seuls – c’est-à-dire en dehors de toute combinaison – sur la présence d’une interaction. Ceci est apprécié par une corrélation statistique entre leur utilisation dans une phrase et la présence d’une interaction dans cette même phrase. À chacun de ces termes est associé un coefficient qui a été calculé sur un échantillon d’apprentissage. La moyenne des nombres ainsi trouvée dans une même phrase nous renseigne sur la probabilité d’avoir une ou plusieurs interactions dans la phrase. Les phrases dont le vocabulaire est considéré comme favorable seront annotées. Cette annotation consiste à repérer tous les couples de gènes en présence.

Le document est organisé en deux parties. La première partie donne les éléments nécessaires à la compréhension en ce qui concerne la veille technologique, la bibliométrie, la biologie et les techniques de recherche et d’extraction d’informations. L’analyse critique des travaux menés dans ce domaine est fournie dans cette partie. Nous décrivons ensuite le programme de recherche auquel nous prenons part, ainsi que les principaux résultats sur lesquels nous nous appuyons.

La seconde partie présente les réalisations effectuées, elle fournit les résultats obtenus et donne des méthodes d’évaluation de ces résultats.

ingold@free.fr

Anca Pascu

Logique de la Détermination d’Objets : concepts de base et mathématisation en vue d’une modélisation-objet

Thèse d’informatique, Université Paris-Sorbonne, Paris IV

Jury : Jean-Pierre Desclés (directeur de thèse), François-Gilles Carpentier, Michel De Glas, Ioannis Kanellos, Denis Miéville

L’utilisation des modélisations-objet pour représenter les connaissances a connu un important développement en informatique. Cette évolution provoque un regain d’intérêt pour la notion d’objet, dans le domaine de la logique.

Dans cette thèse nous proposons une nouvelle approche de cette notion s’appuyant sur la Logique de la Détermination d’Objets (LDO).

La LDO est un système de catégorisation, comprenant une théorie de la

(13)

quantification. Du point de vue formel la LDO est une logique applicative typée, dans le sens de Curry.

La LDO est une logique qui explore certains fondements conceptuels de la logique. Du point de vue formel elle se déploie dans le cadre applicatif de Curry, c’est-à-dire dans ce qu’il appelle une prélogique.

Il s’agit d’une contribution théorique à la notion d’objet par une nouvelle approche logique constructive, fondée sur l’opération de détermination. Cette logique rend compte des problèmes cognitifs et déductifs rencontrés par l’héritage de propriétés par des objets typiques et atypiques. La quantification de la LDO prend en compte la typicalité.

La LDO considère les objets « plus ou moins déterminés » comme représentants objectaux des concepts. Ces objets sont déterminés par des opérations de

« détermination » jusqu’aux objets déterminés. Cette opération a été thématisée par la logique anté-fregéene et surtout par la logique de Port-Royal. Cette opération a été complètement effacée par la logique mathématique qui met dans la même classe – la classe des fonctions – toutes les opérations de détermination et de qualification distinguées par les langues naturelles. Les langues naturelles distinguent ces opérations par des procédées différents d’encodage. Donc, c’est en s’inspirant de la langue naturelle qu’on peut conférer à la détermination un statut particulier dans ce modèle : le statut d’opérateur qui construit des objets plus ou moins déterminés.

La quantification de la LDO porte sur les objets existants, déterminés et typiques. Sa construction tient compte des problèmes linguistiques suivants : le quantificateur est appliqué au syntagme nominal, l’encodage de la typicalité est fait dans le quantificateur.

Cette logique a été introduite pour permettre de résoudre certains problèmes en linguistique informatique et de développer des applications notamment en traduction automatique.

Notre travail présente notamment le système conceptuel de la LDO, sa formalisation comme logique applicative, le système d’opérateurs de quantification et leur expression en français, une sémantique en termes de classes d’objets et une comparaison entre la LDO et les réseaux sémantiques.

Ce travail représente les bases conceptuelles et la mathématisation d’une logique applicable à la sémantique du langage.

URL : http://geai.univ-brest.fr/recherche/index.html#publis

(14)

Sylvain Pogodalla

Réseaux de preuve et génération pour les grammaires de types logique Thèse d’informatique, Institut National Polytechnique de Lorraine

Jury : Alain Lecomte (directeur), Alexandre Dikovsky (rapporteur), Marc Dymetman, Gérard Huet (rapporteur), Glyn Morrill, Christian Retoré, Karl Tombre

L’étude de la relation entre syntaxe et sémantique qu’établissent les grammaires de types logiques a essentiellement privilégié le sens de l’analyse –syntaxe vers sémantique. Cette thèse souligne le profit que la génération –sémantique vers syntaxe – tire de l’étroitesse de cette relation.

Elle s’appuie sur l’étude logique des ces modèles grammaticaux et met en avant l’utilisation de la logique linéaire et de ses réseaux de preuve. Autour du calcul de Lambek, un fragment intuitionniste de la logique linéaire non commutative, nous étudions le comportement des extensions de ce calcul en tant que modèles syntaxiques, notamment avec le calcul ordonné. Nous montrons par exemple qu’un fragment de ce dernier permet d’engendrer la même classe de langage que les grammaires d’arbres adjoints.

D’autre part, l’adéquation de la syntaxe, portée par la notion de preuve, à la sémantique de Montague, portée par la notion de lambda-terme, s’illustre dans la correspondance de Curry-Howard. L’utilisation des réseaux de preuve nous permet de montrer que, pour le calcul de Lambek et pour des représentations sémantiques linéaires avec une constante au moins, le problème de génération est décidable et que ces grammaires sont intrinsèquement réversibles. Nous caractérisons les formes sémantiques permettant une réalisation syntaxique polynomiale. Aussi pouvons-nous proposer une méthode complète de génération dans ce cadre.

Ces résultats, de même que l’implémentation dont ils ont fait l’objet, exploitent la théorie de la démonstration sous-jacente et en particulier les réseaux de preuve sous forme de graphes. Nous obtenons ainsi un cadre uniforme pour l’analyse et la génération. Pour le conserver, dans l’optique d’une prise en compte sémantique de termes non linéaires grâce aux connecteurs exponentiels de la logique linéaire, nous donnons une nouvelle syntaxe et un nouveau critère de correction pour les réseaux avec exponentiels sous forme de graphes.

Sylvain.Pogodalla@xrce.xerox.com