Traitement Algorithmique du Langage (TAL)

(1)

Traitement Algorithmique du Langage (TAL)

Chercheurs : J. Chauché, M. Lafourcade, A. Preller ( professeur émérite), V. Prince Doctorants : S. Degeilh, D. Schwab, M. Yousfi Monod.

Ingénieur : J-M. Delorme (mémoire soutenu le 17/12/2003) Thèses soutenues : aucune en 2002- 2003.

HDR soutenues : aucune en 2002-2003.

Thématique de recherche : Syntaxe et sémantique du langage naturel, grandes applications (recherche d’information et classification de documents), traduction automatique.

Actions : co-organisation de la conférence CMMR2003 (avec le projet IHMH et l’Université d’Aarhus au Danemark), organisation pour 2004 d’une conférence internationale sur les grammaires catégorielles.

Collaborations : Université de Tokyo, Université de Penang (Malaisie), Société Makkina News (projet SPRINTT), Université de Montréal (J. Lambek), Université de Grenoble 1 (GETA), Projet Papillon, Projet UNL.

Structures d'animation nationales : co-direction d’une équipe projet « sémantique » du RTP 14 (département STIC du CNRS).

1 Introduction - Contexte et Historique

Ce projet, composé au printemps 2003, reprend les thématiques de la précédente équipe

« traitement algorithmique du langage » du département « acquisition et représentation des connaissances ». Il s’est élargi à tous ceux qui, au LIRMM, s’intéressent au langage naturel¹, ce qui en fait un projet transversal entre les deux anciens départements (ARC et IFA).

Nous détaillons ci-dessous les différentes problématiques traitées dans ce projet.

2.1 Syntaxe du langage naturel

L'analyse syntaxique du langage naturel (ici, le Français) se définit à travers deux impératifs:

Appréhension:

définir le passage d'une structure S1 dans un modèle M1 vers une structure S2 d'un modèle M2.

1 Parfois aussi nommé « informatique linguistique » (Natural Language Processing) ou « linguistique informatique « (Computational Linguisitics) selon les communautés et les dominantes (informatique, mathématiques ou linguistique formelle).

(2)

Compréhension :

définir, à partir de toutes structures d'un modèle M1, les structures correspondantes qui doivent être obtenues par appréhension. Il s'agit d'une application.

La construction d'un outil d'analyse s'appuie sur la définition d'algorithmes de Markov (J.Chauché) , ou sur les prégroupes de Lambek (A. Preller). L’évolution 2002-2003 de ce domaine est très importante. L’application des prégroupes de Lambek à la représentation des clitiques en Français (Preller, Degeilh), et les travaux de Chauché sur SYGFRAN, analyseur du Français qui est passé durant cette année d’un ensemble de 3500 règles à 9000 règles, avec un rappel de 30% sur un corpus de 220 000 phrases, là où la moyenne des analyseurs syntaxiques tourne autour de 5 à 10% de rappel.

Pour avoir une démonstration de SYGFRAN, on peut se référer à l’adresse suivante : http://www.lirmm.fr/~chauche/ExempleAnlMem.html

2.2 Sémantique du langage naturel

Fonctions lexicales et modèle des vecteurs conceptuels :

Le projet TAL cherche à modéliser et utiliser les fonctions lexicales pour améliorer la représentation vectorielle des termes et des segments. La synonymie, l’antonymie ont déjà été mises en œuvre. L’hyperonymie-hyponymie et la méronymie sont en cours d’étude. Un ensemble d’outils est mis à disposition par Didier Schwab (doctorant) à l’adresse suivante : http://www.lirmm.fr/taln/servlet/General?REQUEST_TYPE=InformationsAgents

Projet Papillon

Ce projet a pour but de créer une base lexicale multilingue comprenant entre autres l'anglais, le français, le japonais, le malais, le lao, le thaï, le vietnamien et le chinois. L'accès est gratuit pourvu que l'usage ne soit pas commercial (licence de logiciel libre). Amorcé par des chercheurs en linguistique informatique, ce projet se veut utile et ouvert à la collaboration de toutes les personnes ayant un intérêt pour ces langues.

Mathieu Lafourcade, membre du projet TAL a participé à la réalisation d’un dictionnaire Français-Anglais-Malais dans le cadre de cette communauté.Adresse :

http://www.papillon-dictionary.org/

Communauté UNL

Le projet UNLP consiste à mettre en place un système de traduction automatique universel.

Il est défini comme un projet de "métalangage numérique" pour l'encodage, le stockage, la recherche et la communication d'informations multilingues indépendamment d'une langue source - et donc d'un système de pensée.

Il est mené sous l'égide de l'Université des Nations Unies (UNU, Tokyo). Plusieurs équipes réparties dans le monde travaillent sur ce projet (Japon, Inde, France, Espagne, Italie, Chine, Russie…). L’intérêt de cette collaboration est de travailler avec les mêmes règles et codes et d'obtenir ainsi un résultat vraiment universel, c’est-à-dire compréhensible par toutes les cultures. Adresses :

http://www.unl.ias.unu.edu ou http://www.undl.org

(3)

2.3 Outils mathématiques

La plupart des notions mathématiques que nous utilisons sont algébriques.

1° Le modèle vectoriel ;

celui-ci est employé pour la représentation sémantique des termes et segments de discours. Deux modèles, qui sont des variantes d’un même principe, sont développés :

1. les vecteurs sémantiques (Chauché 1990) qui permettent de projeter tout terme lexical sur une famille génératrice de 873 concepts, avec des composantes booléennes ;

2. les vecteurs conceptuels (variante proposée par Mathieu Lafourcade), sur un espace de même dimension, mais dont les composantes sont calculées à partir de l’analyse syntaxique et des vecteurs sémantiques des textes définitoires ou des textes corrélés.

2° Les prégroupes de Lambek

Les pré-groupes ordonnés de Joachim Lambek sont à la base d'un calcul de types permettant de reconnaître les phrases et syntagmes en diverses langues, dont l'anglais, l'allemand, le français et l'italien. L'efficacité de cette notion réside dans la présence de foncteurs adjoints d'un endofoncteur du monoïde des types.

Pour le français, J. Lambek a défini, en collaboration avec D. Bargelli, un système de types muni d'une structure de pré-groupes permettant de décider, si une séquence de mots forme une phrase ou non. Bien que l'algorithme puisse être expliqué sans référence à la théorie de prégroupes sous-jacente, il est important d’étendre le système de types à un fragment plus grand du Français en tenant compte des problèmes d'efficacité de l'algorithme associé. C’est à cette tâche que le projet TAL s’est attelé. Pour en savoir plus :

http://www.lirmm.fr/~preller/papers

Nous utilisons aussi des formalismes théoriques de réécriture : les algorithmes de Markov (réécriture de mots avec règles terminales) appliqués aux structures d’arbres (syntaxiques) permettant de produire un analyseur fondé sur la transduction d’arbre.

.

2.4 Applications

Classification de documents :

La classification de documents peut être réalisée soit à partir d’une analyse statistisque de similarités (entre documents), soit à partir d’une démarche « langage naturel ». Le projet TAL a collaboré avec le projet IDC sur ce thème, chacun des projet s’attachant à une méthodologie propre à ses thèmes de recherche. Sur un corpus de près de 8000 articles, dépêches, éditoriaux ou extraits, le projet propose un classement en 37 catégories (pré-définies) à partir d’une analyse syntaxico-sémantique à l’aide de SYGFRAN et des vecteurs sémantiques. La précision de classement dans les trois premières catégories atteint 85% .

(4)

Ressources dictionnairiques :

Les ressources dictionnairiques sont les ensembles de données et de connaissances lexicales nécessaires pour réaliser d’autres applications de TAL. Beaucoup d’entre elles sont lacunaires, comme les ressources bi ou multi-lingues. D’autres existent mais sont peu exploitables par des algorithmes ou des machines. L’objectif du projet a été de réaliser des ressources multilingues (voir projet Papillon) et dans le cadre de la traduction automatique, de créer une structure bilingue (français-anglais) exploitable sous forme vectorielle (mémoire de JM Delorme) pour SYGtoFE.

Traduction automatique : SYGFtoE

Un prototype de traduction par transduction d’arbre est proposé (Français vers l’Anglais) à partir de l’analyse du Français. Pour ce traducteur, une ressource lexicale a été développée, permettant un choix dans le transfert lexical. La qualité syntaxique est assurée par la transformation d’arbres (de la grammaire française vers la forme générée anglaise).

Résumé automatique de textes :

Une thèse démarre actuellement sur le thème du résumé automatique à partir de l’analyse syntaxico-sémantique.

Traitement Algorithmique du Langage (TAL)