• Aucun résultat trouvé

L’analyseur Fips et son application à l’ALAO

5.1 Description de l’analyseur

Développé à partir de 1991 et en constante évolution depuis, l’analy-seurFrench Interactive Parser System 1 (Fips, Laenzlinger et Wehrli, 1991;

Wehrli, 1997; Goldmanet al., 2000; Berthouzoz, 2000; Wehrli, 2004b, 2006, 2007; Wehrli et Nerima, 2009) est un analyseur tabulaire (chart parser) qui implémente la théorie du gouvernement et du liage (Government & Bin-ding, §3.3.5) et sa version desPrincipes & Paramètres (Chomsky et Lasnik, 1995; Tellier, 1995; Laenzlinger, 2003), avec des emprunts à la théorie

mi-1. Les premières versions de l’analyseur étaient dotées de modules interactifs de dés-ambiguïsation de l’analyse, mais cette fonctionnalité a été rapidement abandonnée.

nimaliste (Chomsky, 1995)2, à la LFG (§3.3.5) et à laSyntaxe Simplifiée 3 (Simpler Syntax, Culicover et Jackendoff, 2005, 2006). Fipsest un analyseur ascendant, guidé par le lexique (data driven) de type validation (licensing parser, Abney, 1989)4 et traite les analyses alternatives en parallèle. Ainsi, toutes les variantes possibles sont analysées avant d’être éliminées par des filtres descendants tels que le module thématique, qui vérifie que les rôles thématiques (v. p. 119) correspondant aux arguments du verbe sont bien remplis.

Après un découpage de la phrase en unités lexicales, toutes les lectures possibles d’un mot (les lexèmes) sont projetées en structures syntaxiques dans un schéma X-barre (v. 3.6 p. 120) simplifié donné en (5.1).

XPbb

"

"

L X R

Fig. 5.1 – Schéma X-barre simplifié

Au lieu des habituels Spécifieurs, Compléments et positions d’ajout, le schéma simplifié dispose simplement de deux listes de sous-constituants à gauche (L, left) et à droite (R, right). Les deux listes et la tête X peuvent être vides. Le niveau barre, qui sert notamment à distinguer ajouts et com-pléments, est supprimé. Les catégories sont Adv (Adverbe), A (Adjectif), N (Nom), D (déterminant), V (verbe), P (préposition), C (Conjonction), Interj (Interjection), T (Inflection / Temps)5. Après le processus de pro-jection, chaque candidat est alors inséré dans un graphe ou agenda, appelé

2. Il s’agit d’une simplification de la théorie desPrincipes & Paramètresqui prône l’éco-nomie dedérivation et l’économie dereprésentation. Les mouvements et transformations n’ont lieu que pour ajouter du sens. Les structures profondes et structures de surface sont éliminées. Laforme logiquereprésente le sens de la phrase (les clauses), et laforme phono-logiquecontient les paramètres phonétiques et prosodiques de la phrase. Dans le schéma X-Barre (v. p. 120), les niveaux XP et X-Barre ne sont représentés que s’ils contiennent des constituants. La grammaire ne propose que deux types d’opération, le mouvement (move), qui représente le déplacement des constituants et leur transformation morphologique, et la fusion (merge), qui représente la combinaison des constituants suivant des vérifications de contraintes.

3. Cette théorie postule que non seulement la syntaxe, mais encore la phonétique et la sémantique ont une capacité générative et dépendent les unes des autres de manière non hiérarchique. La syntaxe simplifiée laisse un rôle plus important à la sémantique et ne postule pas de catégories vides ou de copies de constituants.

4. Les têtes peuvent valider des relations à leur gauche comme à leur droite.

5. La catégorie T correspond à la catégorie I de GB présentée au §3.3.5. Lorsqu’une forme verbale est lue, un syntagme verbal VP est projeté. Dans tous les cas sauf les participes, une autre projection TP est projetée, avec une tête contenant un marqueur de temps et un VP en complément. En français, pour les temps simples, le verbe remonte en T0et laisse une trace en V0, mais pas en anglais. Ainsi,racontedonne lieu à une projection [TP [T raconte]

[VP [V e]]], oùereprésente la trace laissée par le mouvement de la tête verbale (v. p. 120).

Des projections complexes ont aussi lieu pour les DP à valeur adverbiale, répondant à des

chart.

Fipstraite les analyses en parallèle de gauche à droite. Chaque mot nou-veau inséré dans le graphe peut être associé à son contexte gauche. Fips tente donc de combiner le nouveau constituant :

– soit en attachant le nouveau constituant à droite d’un constituant du contexte gauche ; cette stratégie est appelée algorithme ducoin droit; – soit en attachant le constituant du contexte gauche comme spécifieur

ou ajout du nouveau constituant.

L’opération de combinaison est appelée Merge. Ces combinaisons sont régies par des règles grammaticales associées à des contraintes, notamment sur l’accord, les traits lexicaux ou la structure argumentale. L’attachement à droite peut se faire sur n’importe quel nœud actif, c’est-à-dire tous les nœuds susceptibles de recevoir un attachement ; cette opération est possible, que ce soit comme attachement direct au constituant gauche ou comme attachement à un des sous-constituants actifs. Enfin, différents processus vérifient la grammaticalité par stratégie descendante, notamment :

– vérification des tables d’arguments (essentiellement des verbes) ; – module du liage (ou de déplacement,Move), qui lie l’élément extraposé

(comme les pronoms interrogatifs) à un élément vide dans la position canonique ;

– modification des structures argumentales des prédicats (ajout, effa-cement ou modification d’arguments lors des structures passives ou causatives).

Nous décrirons plus en détail le processus d’analyse de Fips au para-graphe 5.2.1. Afin de filtrer les alternatives, un score est alloué à chaque analyse, selon des critères de préférence psycholinguistique, comme l’atta-chement du groupe prépositionnel au site d’attal’atta-chement le plus bas. Par défaut, l’analyseur ne retourne comme résultat que l’alternative ayant le plus bas score, mais il est possible d’afficher plusieurs alternatives. En cas d’échec de l’analyse, Fips présente plusieurs morceaux d’analyses (chunks,

§3.3.4.3). Par ailleurs, les mots constituant potentiellement une collocation (v. p. 66) sont identifiés dans le lexique ; si de tels mots apparaissent dans les positions syntaxiques pouvant contenir des collocations, Fips consulte une base de données de collocations pour valider le choix et préférer une ana-lyse. Comme une collocation peut contenir une autre collocation, le choix est récursif comme pourtravail à temps partiel,tomber en panne sèche, etc.

contraintes spécifiques : par ex.,la semaine dernièreoule lundi sont analysés comme des DP, mais aussi des AdvP avec DP comme complément.

Wehrli (2004b, 2007) décrit l’orientation récente de Fips vers une ana-lyse multilingue, pour l’anglais, le français, l’allemand, l’italien, le castillan et le grec. Les principes de la grammaire GB permettent de tirer parti des caractéristiques communes des langues. L’ajout d’une nouvelle langue doit être facile et ne pas perturber le système. L’analyseur a donc été réécrit de manière modulaire en utilisant la programmation orientée-objet (Meyer, 2008). Ainsi, les objets décrivant les langues italienne et française héritent d’un objet décrivant les langues romanes, qui partagent un certain nombre de caractéristiques communes. L’objet contenant un item lexical (nom, nom composé, expression idiomatique6) peut être étendu pour une langue parti-culière, afin de traiter de phénomènes qui lui sont propres. Il en va de même de l’objet décrivant les projections, qui, pour les langues romanes, contient des listes supplémentaires pour traiter les clitiques.

Fips est utilisé comme analyseur et comme étiqueteur (§3.1.2). Ses ana-lyses servent entre autres de base à la synthèse vocale FipsVox (Gaudinat et Wehrli, 1997; Gaudinat et Goldman, 1998; Goldman, 2001, §3.1.4), à la traduction automatique (Ramluckun et Wehrli, 1993; L’haire et al., 2000;

Laenzlingeret al., 2000, §3.1.6), à l’extraction de collocations (Seretan, 2008) et à la traduction de mots et de collocations en contexte (Wehrli, 2004a, 2006; Seretan et Wehrli, 2006; Nerimaet al., 2006; Seretan et Wehrli, 2007).