TAG et grammaires de lambek en ACG

Il est également intéressant de relier notre approche aux architectures comparables qui ont été utilisées pour modéliser d’autres formalismes grammaticaux, à savoir les grammaires minimalistes (MG) (Stabler, 1997), les grammaires d’adjonction d’arbres (TAG) (Joshi et Schabes, 1997), et les grammaires de Lambek non-associatives (NL) (Lambek, 1961) .

Afin d’étudier les MG d’un point de vue logique, Salvati (to appear) considère les dérivations des MG dans le formalisme des ACG. Les dérivations sont décrites à un niveau abstrait (en utilisant les opérations move et merge) et sont ensuite interprétées pour obtenir la représentation syntaxique et la représentation sémantique aux niveaux objets. Cependant, plutôt que de donner une traduction directe, il est possible d’ajouter un niveau intermédiaire qui correspond à ce qui est partagé par la syntaxe et la sémantique, mais qui contient plus que les seules dérivations des MG, ce qui renvoie à l’architecture de la figure 1.2(a) de la section 1.2.4.

Un autre exemple où une telle architecture apparaît est donné par Kanazawa et Pogodalla (2009), où un premier niveau abstrait spécifie une interface syntaxe-sémantique pour les TAG. Cette interface n’est cependant pas tota- lement contrainte et n’accepte pas seulement les dérivations TAG. Un niveau abstrait supplémentaire est ensuite ajouté pour contrôler ces dérivations et n’accepter que les TAG, les MCTAG locaux et les MCTAG non-locaux.

L’encodage des NL en ACG par Retoré et Salvati (2010) utilise également ce type d’architecture. Une interface syntaxe-sémantique y est définie dans le même esprit, et un niveau abstrait supérieur contrôle ensuite cette interface afin de défausser les dérivations qui ne sont pas des dérivations NL. Ce dernier résultat donne dans le cas de l’extraction un lien intéressant avec le niveau tectogrammatical des MMCG, en plus de la comparaison au niveau phénogrammatical qui est donnée dans la section 5.1, à cause de la relation entre NL et le calcul avec l’opérateur crochet de Morrill (1992) qui permet de traiter les îlots d’extraction.


Nous nous sommes intéressés dans ce travail à l’extension du système de typage des Grammaires catégorielles Abstraites proposée par de Groote et Maarek (2007). Nos contributions sont les suivantes :

– nous avons d’une part étudié les propriétés formelles, notamment la confluence et la normalisation, du calcul résultant. Nous en avons donné une preuve complète pour un système comprenant la β-réduction et les conversions permutatives, et nous avons présenté les problèmes posés par l’introduction de l’η-conversion, et ramené les preuves de confluence et de normalisation à la preuve de résultats plus simples ;

– nous avons d’autre part présenté une application linguistique de ces extensions, en montrant comment elles permettent de contrôler le niveau des structures de dérivation dans l’objectif de modéliser les phénomènes de contraintes sur les dépendances à distance. Nous avons à cet effet capturé les contraintes de cas pour l’ex- traction par un pronom relatif ou interrogatif, les contraintes d’îlots d’extraction pour ces mêmes extractions ainsi que pour les prises de portée des constituants quantificateurs, et les contraintes de séquençage inverse des pronoms interrogatifs et de leur trace.

La méthode de contrôle des mouvements que nous proposons permet de tirer parti de la faculté des ACG à contrôler leurs structures de dérivation. En outre, elle permet de rendre de façon homogène la modélisation de phénomènes de mouvements qui se manifestent en surface à des niveaux distincts (formes syntaxiques de surface et sémantique), mais qui révèlent de nombreuses similarités lorsqu’ils sont observés au niveau des structures de dérivation. Certaines de ces modélisations, à l’exemple des contraintes de cas et des modélisation d’îlots d’extrac- tion, se révèlent traitées de façon pertinente au niveau abstrait, et les travaux de Mihalicek (2012) qui appliquent ces méthodes à la langue serbo-croate vont dans ce sens. D’autres modélisations semblent moins pertinentes au ni- veau abstrait, notamment lorsqu’elles sont impactées par l’ordre des mots dans la phrase, qui dans les ACG est une information écartée du niveau abstrait. Ces phénomènes, tels que les contraintes sur les extractions interrogatives multiples, semblent donc plus indiqués pour être traités au niveau des formes de surface. De façon intéressante, les techniques de contrôle sur les formes de surface, telles que l’introduction de modalités, sont orthogonales aux solutions que nous avons explorées, et il est donc possible d’appliquer la solution la plus indiquée pour chaque phénomène, selon qu’il soit lié à l’ordre des mots ou à la syntaxe profonde. Les sémantiques avec continuations constituent une autre alternative intéressante à nos travaux, car elles permettent de façon économe de capturer les contraintes de prises de portée lorsqu’une phrase comprend plus de trois constituants quantificateurs. L’introduc- tion de ce type de sémantique dans les ACG est bien étudiée pour capturer les mécanismes du discours, et une première poursuite de notre travail serait donc d’étendre notre modélisation à ces phénomènes de prises de portée multiples, pour obtenir une comparaison plus précise à ces méthodes de continuations.

Une autre perspective de poursuite de ce travail réside dans l’identification précise des fragments de l’ex- tension de type nécessaires pour permettre la modélisation que nous proposons, et l’étude précise des propriétés calculatoires de ce fragment. En effet, dans leur généralité, ces extensions ont un impact lourd sur le problème de l’analyse, comme montré par de Groote et al. (2007). La modélisation des langues naturelles nécessite ainsi de trouver les bons compromis entre expressivité et calculabilité.

Du côté des preuves formelles sur le λ-calcul étendu que nous avons introduit, une première perspective de prolongation de cet travail est naturellement de rendre complète la preuve de normalisation et de confluence de −→βγη , en explorant la possibilité d’introduire un ordre bien fondé entre les termes et la forme β-normales de

leur type. Il reste également, pour compléter les propriétés requises par l’utilisation du calcul étendu dans les ACG, à expliciter un algorithme pour le problème de la vérification de type.


Cette thèse s’intéresse à la modélisation de la syntaxe et de l’interface syntaxe-sémantique de la phrase, et explore la possibilité de contrôler au niveau des structures de dérivation la surgénération que produit le traitement des dépendances à distance par des types d’ordre supérieur. À cet effet, nous étudions la possibilité d’étendre le système de typage des Grammaires Catégorielles Abstraites avec les constructions de la somme disjointe, du produit cartésien et du produit dépendant, permettant d’étiqueter les catégories syntaxiques par des structures de traits. Nous prouvons dans un premier temps que le calcul résultant de cette extension bénéficie des propriétés de confluence et de normalisation, permettant d’identifier les termes β-équivalents dans le formalisme grammatical. Nous réduisons de plus le même problème pour la βη-équivalence à un ensemble d’hypothèse de départ. Dans un second temps, nous montrons comment cette introduction de structures de traits peut être appliquée au contrôle des dépendances à distances, à travers les exemples des contraintes de cas, des îlots d’extraction pour les mouvements explicites et implicites, et des extractions interrogatives multiples, et nous discutons de la pertinence de placer ces contrôles sur les structures de dérivation.

Mots-clés : Traitement Automatique de la Langue, méthodes symboliques, grammaires catégorielles, systèmes de typage, dépendances à distance, lambda-calcul.


This thesis focuses on the modelisation of syntax and syntax-semantics interface of sentences, and investigate how the control of the surgeneration caused by the treatment of linguistics movements with higher order types can take place at the level of derivation structures. For this purpose, we look at the possibility to extend the type system of Abstract Categorial Grammars with the constructions of disjoint sum, cartesian product and dependent product, which enable syntactic categories to be labeled by feature structures. At first, we demonstrate that the calculus as- sociated with this extension enjoy the properties of confluence and normalization, by which β-equivalence can be computed in the grammatical formalism. We also reduce the same problem for βη-equivalence to a few hypothesis. Then, we show how this feature structures can be used to control linguistics movements, through the examples of case constraints, extraction islands for overt and covert movements and multiples interrogative extractions, and we discuss the relevancy of operating these controls on the derivation structures.

Keywords : Natural Language Processing, symbolic methods, categorial grammars, type systems, linguistics movements, lambda-calculus.