• Aucun résultat trouvé

État de l’art

1.2 Systèmes de Dialogue Homme-Machine

1.2.2 Analyse syntaxico-sémantique

1.2.2.2 Analyse syntaxique

Afin de structurer, généralement sous forme d’un arbre, les différents composants préala-blement étiquetés de la phrase, il est nécessaire de disposer d’une grammaire de la langue et d’un outil permettant de l’exploiter pour assembler les éléments selon les règles fixées par la grammaire : c’est ce que l’on nomme analyseur syntaxique ou parseur.

Grammaires Cette approche est fondée sur le principe chomskyen de grammaire générative, selon lequel il est possible de définir l’ensemble virtuellement infini des expressions bien formées d’une langue à l’aide d’un ensemble fini de règles. Dans le cadre de la langue naturelle, les grammaires les plus couramment utilisées pour l’analyse syntaxique sont les grammaires dites hors contexte, ou Context-Free Grammar (CFG), correspondant au type 2 dans la hiérarchie de Chomsky [1956]. Une telle grammaire G est définie par un quadruplet G = (N, Σ, R, S), où :

− N constitue l’ensemble des non-terminaux, c’est-à-dire les éléments pouvant faire l’objet d’une règle de réécriture ;

− Σ constitue l’ensemble des terminaux, c’est-à-dire les éléments formant les mots de la phrase ou feuilles de l’arbre de d’analyse ;

− R est l’ensemble des règles de réécriture de la forme A → α où A ∈ N et α ∈ (N ∪ Σ), et ∃ω ∈ (N ∪ Σ): S → ω ;

− S représente l’axiome du langage à partir duquel s’effectuent les dérivations, tel que S ∈ N .

Dans les règles de la forme A → s où A ∈ N et s ∈ Σ, A correspond en fait à lanature du mot s, à la manière de ce qui a été vu en 1.2.2.1.

Si on considère la mini-grammaire Gex donnée dans la figure 1.7, capable de représenter la phrase “je veux cliquer sur le bouton bleu” et utilisant les abréviations classiques de POS

du Penn Treebank [Marcus et al. , 1994], l’arbre d’analyse correspondant est donné par la figure1.8. Ici, on voit par exemple qu’une phrase n’est considérée valide dans cette grammaire que si elle est constituée d’un groupe nominal (NP) suivi d’un groupe verbal (VP). Pour que l’exemple soit complet, on donne le lexique correspondant, ce qui signifie que Gex gère donc également l’étape d’analyse morphosyntaxique dont nous avons parlé précédemment.

À noter que l’on ne se préoccupe pas à ce niveau de l’analyse de savoir si la phrase ainsi analysée a effectivement un sens. Ainsi, la phrase “le page cliquèrent modifiant sur la bouton sûr” est parfaitement analysable par la mini-grammaire de la figure 1.7. Il est donc souvent préférable de réserver ce type d’approche aux situations dans lesquelles on sait, par hypothèse, que les phrases en entrée du système seront bien construites.

Parseur On voit que disposant d’une grammaire et d’une phrase, deux approches sont pos-sibles pour parvenir à obtenir l’arbre de la figure 1.8:

N = { S, DT, IN, JJ, NN, PRP, VB, PP, NP, VP }

Σ = { je, vouloir, cliquer, modifier, dans, sur, le, la, page, bouton, bleu, ouvert, sûr } R = { S → NP VP NP → PRP | DT NN | DT NN JJ PP → IN NP VP → VB NP | VB VP | VB PP DT → le | la IN → sur | dans JJ → bleu | ouvert | sûr NN → page | bouton PRP → je

VB → cliquer | modifier | vouloir }

Figure 1.7 Exemple de grammaire Gex

je veux cliquer sur le bouton bleu PRP VB VB IN DT NN JJ PP NP VP VP NP S

Figure 1.8 Arbre d’analyse syntaxique pour la phrase “je veux cliquer sur le

− une analyse descendante (ou top-down) : dans laquelle on part de l’axiome S de la grammaire et on applique l’ensemble des règles disponibles jusqu’à ce qu’on parvienne à obtenir un arbre dont les feuilles correspondent à lanaturedes constituants de la phrase à analyser (cf. figure 1.9).

− une analyse montante (ou bottom-up) : dans laquelle on considère les règles de production de la grammaire dans l’ordre inverse pour tenter de remonter jusqu’à l’axiome S (cf. figure1.10) de la grammaire. VP NP S 1) 2) 3) VP NP S PRP VP NP S DT NN VP NP S DT NN JJ S VP NP S PRP VP NP S DT NN je le VP NP S DT NN la VP NP S DT NN JJ VP NP S DT NN JJ le la 4)

Figure 1.9 Quatre premières étapes de l’analyse descendante de la phrase “je

veux cliquer sur le bouton bleu” avec la grammaire Gex : cinq arbres sont présents lors de la quatrième phase ; le plus à gauche correspond à l’analyse correcte de la phrase.

Toutefois, en supposant que l’on dispose d’une grammaire modélisant parfaitement la langue étudiée, elle ne pourrait être utilisée efficacement que sur des entrées respectant elles-mêmes exactement les règles de la langue. Si cette hypothèse est envisageable pour des articles de journaux ou des romans (encore que des problèmes ne sont parviennent pas à être correc-tement traités), dans le cas d’un système de dialogue homme-machine, il est très courant de disposer en entrée de requêtes fortement agrammaticales (cf. figure 1.11) : les approches descendantes ne sont alors pas du tout appropriées.

Une solution consiste donc à effectuer uniquement une analyse de surface (shallow parsing) sur des “morceaux de phrases” (chunks) sans recouvrement. Ainsi, dans le cas de l’exemple de la figure 1.8, une analyse de surface donnerait simplement :

[N P Je] [V P veux] [V P cliquer] [P P sur] [N P le bouton bleu]

En supposant que l’analyse soit totale et parfaite. Ce type d’approche permet en effet de produire un résultat partiel si la phrase n’est pas complètement analysée, par exemple en n’obtenant que certains éléments :

[N P Je] veux [V P cliquer] sur [N P le bouton bleu]

En outre, en disposant d’un corpus suffisant, on peut aussi envisager de combiner une approche statistiqueProbablistic Context-Free Grammar (PCFG)en associant des coefficients

je veux cliquer sur le bouton bleu 1)

2)

3)

4)

je veux cliquer sur le bouton bleu

PRP VB VB IN DT NN JJ

je veux cliquer sur le bouton bleu

PRP VB VB JJ DT NN JJ

je veux cliquer sur le bouton bleu

PRP VB VB IN DT NN JJ

NP NP

je veux cliquer sur le bouton bleu

PRP VB VB IN DT NN JJ

NP NP

je veux cliquer sur le bouton bleu

PRP VB VB JJ DT NN JJ

NP NP

je veux cliquer sur le bouton bleu

PRP VB VB JJ DT NN JJ

NP NP

je veux cliquer sur le bouton bleu

PRP VB VB IN DT NN JJ

NP NP

PP

je veux cliquer sur le bouton bleu

PRP VB VB IN DT NN JJ

NP NP

PP

(+ 2 arbres)

Figure 1.10 Quatre premières étapes de l’analyse montante de la phrase “je veux

cliquer sur le bouton bleu” avec la grammaire Gex : cinq arbres sont présents lors de la quatrième phase ; le second en partant de la gauche correspond à l’analyse correcte de la phrase.

à la frontière y a un trait en gras pourquoi ?je doute je doute

bin j’ai dit RAZ pas RARE je trouve pas les autres ?

changement de bureau de Sansonnet l’assistance elle inclu quoi exactement ? cher usager :-) c’est bizarre .. léa c’est ton nom ?

c qui qui lit cette barre ? marcher

c’est le % de quoi Page de Vitesse

heu, moyen milieu si c une blouse, c pour faire scientifique j’aime pas du tout que tu fais comme ça ya des retsrictions ?

Figure 1.11 Exemples de requêtes agrammaticales recueillies dans le corpus Daft

de probabilité à chaque règle.