• Aucun résultat trouvé

des Langues Assisté par Ordinateur

3.3 Analyse syntaxique et détection d’erreurs

3.3.2 Règles syntaxiques et traitement des erreurs

3.3.2.1 Grammaires formelles ou indépendantes du contexte

Les grammaires indépendantes du contexte sont des grammaires formelles utilisées par de nombreux analyseurs syntaxiques. Une règle de grammaire peut être exprimée sous forme d’une règle de réécriture indépendantes du contexte, comme celles (non exhaustives) que nous donnons en (10), qui correspondent à la syntaxe de la langue française. On trouvera une intro-duction aux grammaires hors contexte par Wehrli (1997, ch. 2). La flèche dénote la relation "se réécrit". Les tableaux (3.1) et (3.2) donnent les valeurs des étiquettes.

(10) a. S →NP VP b. NP → Det N

c. NP → N

d. NP → Det Adj N e. NP → NP PP

Catégorie en français en anglais exemples

Det déterminant determiner le, la, un, cet, ce

N nom noun chien, arbre, Paul

V verbe verb manger, dort

Adj adjectif adjective bleu, petite

Adv adverbe adverb gentiment, bien

Prep préposition preposition avec, de Conj conjonction conjunction et, ou, que

Tab. 3.1 –Grammaires hors contexte : catégories terminales ou lexicales Catégorie en français Catégorie en anglais

P phrase S sentence

SN syntagme nominal NP noun phrase

SV syntagme verbal VP verb phrase

SA syntagme adjectival AP adjective phrase

SAdv syntagme adverbial AdvP adverb phrase SP syntagme prépositionnel PP prepositional phrase Tab.3.2 –Grammaires hors contexte : catégories non terminales ou syntag-matiques

f. VP → V g. VP → V NP h. VP → V NP PP

i. PP→ Prep NP

Les catégories terminales sont les éléments atomiques de la grammaire.

Elles distinguent les mots ou éléments lexicaux, également appelés parties du discours (part of speech). Les élémentsnon terminauxsont des catégories plus complexes, qui regroupent des symboles terminaux et/ou non terminaux pour former des catégories plus complexes, appelées syntagmes. L’élément dominant du syntagme, qui donne son nom au syntagme, est appelé tête.

Chaque syntagme comprend des catégories obligatoires, qui constituent un syntagme minimal. Un syntagme peut avoir des éléments facultatifs, nom-més ajouts ou modifieurs, qui sont d’autres syntagmes attachés à certaines positions.

De plus, les prédicats varient en fonction du nombre et du type d’ar-guments qui les composent, qui est appelée valence (Kaplan, 2003). Ainsi, les verbes transitifs ont un prédicat à deux places, toutes deux formées de syntagmes nominaux. Tous les verbes ayant la même valence forment une

sous-catégorie, qui se distingue par une réalisation syntaxique différente, appeléecadre de sous-catégorisation. Certains verbes peuvent accepter plu-sieurs constructions et donc avoir pluplu-sieurs cadres de sous-catégorisation. Les noms et adjectifs peuvent également avoir un cadre de sous-catégorisation.

En (11), nous énumérons quelques cadres de sous-catégorisation entre cro-chets ; le soulignement reprend l’élément lexical :

(11) a. dormir [ ] (verbe intransitif)

b. manger [ NP ] (verbe transitif direct) c. aller [ PP(à) ] (verbe transitif indirect)

d. donner [ NP PP(à) ] (verbe ditransitif indirect) e. laver [ se ] (verbe pronominal)

f. verre [ PP(à) ]

Ainsi, en (11b), le verbemangerne pourra utiliser qu’une partie des règles de la grammaire, qui correspondent à son cadre de sous-catégorisation (dans notre grammaire, la règle (10g)). En (11c) et (11d), on stipule la préposition à utiliser dans le syntagme prépositionnel. (11e) illustre l’utilisation du verbe se laver. En (11f), nous illustrons les termes deverre à vin 32etverre à pied.

Parmi tous les éléments non terminaux figure une catégorie initiale, ici S, qui est la catégorie de la phrase et qui doit être au début de toute dérivation.

Une dérivation est une séquence de règles appartenant à la grammaire, à partir du symbole initial, qui permet de produire une chaîne du langage qui ne contient plus que des symboles terminaux. Prenons un exemple simple :

(12) a. Les pitbulls aboient.

b. S ⇒NP VP ⇒ Det N VP⇒ Det N V c. [S [

NP [

Det les] [

N pitbulls]] [

VP [

V aboient]]]

La phrase en (12a) peut être analysée à l’aide de la grammaire en (10), ce qui donne la structure en (12c). On obtient la dérivation en (12b) en appliquant successivement les règles (10a), (10b) et (10f)33. Cette dériva-tion peut être représentée par un graphe arborescent, comme le montre la figure (3.4).

32. Un verre àvin désignera le contenant, un verre spécialisé pour contenir du vin. Avec la prépositionde, on désignera le contenu. Cette différence pourra être marquée par les traits sémantiques.

33. Nous partons du principe que c’est le lexique qui donne les catégories lexicales des mots, et que notre grammaire n’a pas besoin de règles de réécriture comme Dles et N

pitbulls.

SPPP

NP bb

"

"

Det les

N pitbulls

VP V aboient

Fig. 3.4 –Représentation arborescente de la phrase (12)

Cette dérivation représente une stratégie d’analyse descendante, ou ana-lyse dirigée par les hypothèses. L’anaana-lyse ascendante, dirigée par les données, part des mots et tente de remonter vers la catégorie initiale de la grammaire.

Outre la combinaison d’éléments lexicaux, les analyseurs doivent vérifier des contraintes pour valider ces phrases, en particulier les conditions sur les accords, dont nous parlons à la section 3.3.2.2. Signalons également qu’un analyseur traite généralement plusieurs possibilités d’analyse à la fois, vu que la langue est très ambiguë. Il est rare qu’une phrase n’ait qu’une seule analyse complète. Dans la pratique, elle en a des dizaines, voire des centaines.

Ainsi, les règles applicables à un stade d’analyse sont activées et les règles activées qui ne peuvent plus être complétées sont abandonnées ; c’est ce que l’on appelle une analyse en parallèle.

Mentionnons encore quelques phénomènes qui nécessitent un traitement particulier et posent souvent des problèmes d’ambiguïté :

(13) a. Eric a écrit et débogué un analyseur.

b. Jacques aime sa femme, et moi aussi.

c. Sébastien commande encore une bière.

En (13a), on montre le problème de la coordination :Ericest à la fois sujet du verbeécrireetdéboguer. Parfois les structures coordonnées sont fort com-plexes et il est nécessaire de produire une analyse vraisemblable. En (13b), nous illustrons le problème de l’ellipse, où des fragments de phrase sont omis pour éviter des répétitions lourdes. Ici, on peut compléter la phrase par j’aime sa femme ou j’aime ma femme. En (13c), la portée de l’adverbe en-core peut concernercommander oubière, selon le contexte. Enfin, rappelons l’exemple (1a) p. 6 qui illustre l’attachement des syntagmes prépositionnels.