• Aucun résultat trouvé

L’analyseur Fips et son application à l’ALAO

5.2 Détection d’erreurs syntaxiques

5.2.1 Relâchement de contraintes

Commençons par examiner comment Fips utilise le relâchement de con-traintes, dont les principes sont énoncés à la section 3.3.2.2. Les entrées lexicales sont détaillées à l’annexe D. Prenons la phrase suivante, tirée du corpus FRIDA (Granger, 2003, §4) :

(31) *L’héritage du passé est très forte et le sexisme est toujours présent.

Dans la première partie de la phrase coordonnée, le syntagme adjecti-val très forte doit s’accorder avec le sujet l’héritage du passé. Le tableau en (§D.2) représente les entrées lexicales du mot forte. L’emploi adverbial, prononcé [fOKte], est utilisé dans un contexte musical (jouer forte). Le mot héritage contient une seule entrée, présentée en (§D.1). Enfin, le mot est correspond à pas moins de huit entrées, illustrées en (§D.3).

Examinons le processus d’analyse de la phrase (31). Ce processus est légèrement simplifié pour raisons de clarté.

i. L’analyseur lit l’élément l’ et projette un constituant DP, ainsi qu’un autre constituant pour le clitique.

ii. Aucun élément n’existe dans l’agenda et aucune combinaison ne peut avoir lieu.

iii. Le mothéritageest lu et est projeté dans un NP, avec les informations présentées en (§D.1).

iv. Le constituant NP est adjoint à droite du DP présent dans l’agenda.

v. Le mot du est lu et projeté dans un constituant [

PP du [

DP ]].

vi. Le PP est attaché à droite du NP précédent.

vii. Le motpassé est lu. Il est projeté en NP.

viii. Ce NP attaché à droite du DP le plus profond dans la liste. La structure analysée est

ix. Le motest est lu. Chacune des huit variantes listées en (§D.3) donne lieu à une projection. Toutes les variantes verbales sont notamment projetées dans un constituant [

TP esti [

VP ei]].

x. Le DP complexe dans l’agenda peut être attaché à gauche des TP présents dans l’agenda, ce qui donne la structure

[TP [ autres lectures de est ne permettent pas de combinaison.

xi. Le mottrès est lu. Il donne lieu à une projection AdvP.

TP{masc}hhhhhhhhhhh aaaaa (((((((((((DP{masc}````` D{masc,fem}

l’ NP{masc}PPP N{masc}ritage PPbb""Ddu DPZZD

e NP

Npassé T{masc,fem}esti VP{masc}HHVti FP{masc} 8 FP{fem}XXXXDPe F AP{fem}aaa !!!AdvP

Advtrès A{fem}forte

Fig.5.2–Fips–échecd’analysedelaphrase(31)

xii. Ce constituant AdvP ne peut pas être combiné avec les constituants précédents.

xiii. Le mot forte est lu. Chacune des variantes en (§D.2) est projetée en des constituants AdvP et AP. Par ailleurs, comme les adjectifs peuvent donner lieu à des propositions réduites9, un constituant

[FP [

AdvP très] peut être adjoint à gauche des constituants AdjP et AP de l’étape précédente, y compris le AP inclus dans le FP.

xv. Le constituant FP peut être attaché à droite du VP projeté à partir de la lecture (3) du (§D.3). Cependant, l’accord en genre entre le VP et le FP ne peut être vérifié et l’attachement est impossible, comme l’illustre la figure (5.2).

xvi. Les contraintes d’accord sont relâchées. L’analyseur procède à l’union des traits de genre du verbe et de l’adjectif, au lieu d’en faire l’inter-section. Les traits sont mis à jour et le constituant FP est attaché à droite du VP. Le diagnostic de l’erreur est déplacé vers le NP sujet.

Ce procédé est illustré à la figure (5.3).

TP

Fig.5.3 – Fips – analyse de la phrase (31) avec relâchement de contraintes Comme nous l’avons vu au paragraphe 3.3.2.2, il semble raisonnable de ne pas relâcher toutes les contraintes en même temps. Vandeventer Faltin (2003, p. 128) propose de sélectionner les catégories d’erreurs à traiter par

9. Les verbes au participe passé peuvent également donner lieu à une proposition réduite : pressés par le temps, nous avons fait fausse route.

relâchement de contraintes puis d’identifier les contraintes en jeu qui peuvent être relâchées. Ainsi, l’erreur de genre que nous venons d’analyser concerne l’accord sujet-adjectif prédicatif. Mais l’on trouve aussi des erreurs d’accord déterminant-syntagme nominal (*le maison) et d’accord du participe passé (*la pomme que j’ai mangé). Dans Fips, les contraintes ne sont relâchées qu’après avoir vérifié les conditions nécessaires pour préciser le contexte.

Comme nous l’avons vu dans notre exemple, ces conditions sont associées à des actions qui permettent d’attacher les constituants (ici, l’union des traits de genre) et de préciser le diagnostic (attachement du diagnostic d’erreur au sujet plutôt qu’au verbe).

D’autres types d’erreur peuvent également être traités par relâchement de contrainte. Une description plus détaillées peut être consultée chez Van-deventer Faltin (2003). Examinons maintenant les différents types d’erreur et la couverture de celle-ci :

i. les erreurs d’emploi de l’auxiliaire (AUX) sont détectées de manière satisfaisante. Pour éviter une sur-détection, les erreurs d’emploi du verbeêtre à la place d’avoir ne sont signalées que pour les verbes qui n’acceptent pas la construction passive ;

ii. les erreurs de classe (CLA) sont difficiles à détecter sans traitement sémantique. Cependant, nous détectons l’emploi erroné du pronomce en tant que sujet, ainsi que l’emploi d’un pronom de mauvaise catégorie (*qui sont eux?) ;

iii. les erreurs de complément d’adjectif (CPA) causent une surdétection à cause de l’attachement du groupe prépositionnel : il est en effet difficile de distinguer compléments et ajouts ;

iv. les erreurs de complément verbaux (CPV) sont également difficiles à traiter. En effet, il est difficile de choisir le bon lexème du verbe lorsqu’il y a une erreur ; c’est pourquoi tous les lexèmes sont pris en considéra-tion et les arguments verbaux sont vérifiés un à un. En outre, dans ce cas aussi, l’attachement des groupes prépositionnels pose problème ; v. les erreurs d’euphonie (EUF) couvrent les contraction

préposition-dé-terminant (du,au), les élisions erronées et le -t- euphonique ;

vi. les erreurs d’accord en genre, nombre et personne (GEN, NBR, PER) sont traitées par paires de mots et dépendent des catégories lexicales des mots dont l’accord est vérifié ;

vii. les éléments manquants (MAN) ne sont pas détectés en tant que tels, mais entrent dans d’autres catégories (CPV, NEG, etc.) ;

viii. les erreurs de négation (NEG) sont détectées dans des cas simples, notamment lorsque l’un des éléments de la négation est présent et pas l’autre ;

ix. les erreurs d’ordre sont traitées catégorie par catégorie. L’ordre des adverbes (ORDAV) n’est que partiellement pris en compte, lorsque certains types d’adverbe sont attachés dans une position agrammati-cale. Pour l’ordre des adjectifs (ORDAJ), nous détectons les adjectifs postnominaux utilisés en position prénominale (*une rouge pomme) et vice-versa. L’ordre des verbes (ORD) est pris en compte partiellement ; x. l’oubli de ponctuation (OUB) ne traite que le cas des traits d’union manquants, spécialement dans le cas de l’inversion du sujet dans une interrogative ;

xi. enfin, les erreurs de voix (VOI) ne sont que partiellement traitées : nous détectons les verbes essentiellement pronominaux qui sont utilisés sans pronom, ainsi que les verbes non pronominaux utilisés avec pronom réfléchi.

Le principal inconvénient de Fips, selon Vandeventer Faltin (2003), est paradoxalement sa sous-spécification des contraintes. En effet, l’analyseur est conçu pour être robuste et fournir une analyse complète ou partielle à la plupart des phrases. Ainsi, l’absence des arguments verbaux sont insuf-fisamment pris en compte. La phrase *je lui aide est acceptée par la ver-sion standard de Fips; le pronom clitique au Cas Datif est attaché comme ajout et l’absence d’un complément DP ou d’un clitique Accusatif n’entraîne pas de problème d’analyse. Tout au plus, le score de la phrase correcte je l’aide est nettement plus bas. Ainsi, pour fonctionner comme outil de diag-nostic, de nouvelles contraintes ont dû être ajoutées. En outre, le lexique n’est pas toujours consistant. Par exemple, les adjectifs prénominaux ne sont pas toujours désignés comme tels et certaines sous-catégorisation de verbes manquent. Enfin, Fips rencontre également les problèmes de surgé-nération de structures et de sélection du bon diagnostic, dont nous avons parlé à la section 3.3.2.2. Nous reviendrons sur les solutions proposées au paragraphe 5.2.4.

5.2.2 Réinterprétation phonologique

Dans cette section, nous décrivons la technique de réinterprétation pho-nologique mise en place pourFips. Cet analyseur dispose d’un lexique qui contient des correspondances phonétiques (§3.3.3.2) et d’un phonétiseur pour les chaînes de caractères qui ne sont pas dans le lexique (Gaudinat et Goldman, 1998; Goldman, 2001). De plus,Fips produit des analyses par-tielles en cas d’échec. Les conditions mentionnées par Vandeventer Faltin (2003) et reprises à la section 3.3.3.2 sont donc réunies. Prenons comme

exemple la phrase suivante :

(32) *Elles peuvent maître au monde des enfants.

La phrase (32) ne peut pas être analysée complètement.Fipsretrouve les morceaux suivants :

i. [DP elles]

ii. [

TP [

DP e] [

T peuvent [

VP ]]]

iii. [

NP maître [

AdvP [

PP au [

DP [

NP monde [

PP des [

DP [

NP enfants]]]]]]]]

La première étape du processus de réinterprétation est de trouver les mots en bordure des morceaux d’analyse. Les mots en tête et en fin de phrase ne sont pas pris en considération lorsqu’ils ne forment pas un morceau à eux seuls. Ensuite, on recherche dans le lexique toutes les prononciations alternatives de chaque mot. Pour notre phrase (32), nous retrouvons les éléments suivants :

i. elles [El] : elles, aile, ailes.

ii. peuvent [pœv]

iii. maître [mEtK] : mètre mètres, mettre maîtres.

Tous les mots réinterprétés sont insérés dans le graphe à condition qu’ils soient d’une autre catégorie lexicale que le mot original. Le pronom elles est de même catégorie (nom) que les autres propositions, dont aucune ne peut être retenue. Le verbe peuvent n’a aucun homophone. Par contre, le nommaître permet de trouver un verbe mettre. Ensuite, toutes les phrases possibles sont soumises à nouveau à l’analyseur, qui tente d’obtenir une ou plusieurs phrases complètes. Dans notre exemple, un seul élément peut être inséré dans le graphe. Ainsi,Fips peut analyser une phrase complète :

(33) Elles peuvent mettre au monde des enfants.

Soulignons que seules les analyses complètes sont retenues, car elles ga-rantissent davantage un diagnostic correct. Par ailleurs, deux améliorations ont été apportées à cette technique. Le premier ajout concerne le traitement des consonnes latentes : si un mot est susceptible de contenir une consonne latente (§3.3.3.2, Hannahs, 2007), il est réinterprété à la fois avec et sans

consonne latente. Ceci permet de trouver plusieurs alternatives. Le second ajout concerne les mots multiples. Il arrive parfois que deux mots à la fron-tière d’un morceau d’analyse puissent être combinés en un seul mot.

(34) *[Vous pouvez] [peut être] [dormir].

Dans la phrase (34), les morceaux sont délimités par des crochets. La technique de réinterprétation de mots multiples consiste à rechercher dans le lexique phonétique les valeurs des deux mots à la frontière d’un morceau d’analyse. Cette technique permet parfois de retrouver des mots existants, commepeut-être dans notre exemple, qui permettent d’obtenir une analyse complète.

Terminons par quelque considérations sur les avantages et inconvénients de cette approche. Tout d’abord, elle rencontre les mêmes problèmes de surgénération de structures que le relâchement de contraintes. De plus, elle génère une ambiguïté lexicale supplémentaire en multipliant les alternatives.

Il devient alors plus difficile de sélectionner la proposition de correction la meilleure possible. Pire, cette technique prend un temps d’analyse consi-dérable si les phrases sont trop longues. C’est pourquoi nous avons dû la désactiver au-delà d’un certain seuil afin d’éviter l’échec de l’application pour dépassement de limite temporelle d’exécution (timeout) ; la méthode n’est pas activée pour les phrases de plus de 26 mots et / ou dont l’analyse lors d’une première phase donne plus de cinq morceaux d’analyse. En outre, il n’a pas été possible de construire des prononciations approchantes, basées sur des confusions fréquentes chez les apprenants, comme nous le proposions à la section 3.3.3.2. Par contre, la technique obtient un taux raisonnable de détection d’erreurs et fonctionne de manière satisfaisante.