Langages formels et analyse syntaxique CM9 : Grammaires probabilistes

(1)

Langages formels et analyse syntaxique

CM9 : Grammaires probabilistes

Timothée Bernard 20 novembre 2020

Université de Paris

(2)

La désambiguisation, c’est important

• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.

• Ces multiples analyses correspondent :

• à des ambiguïtésartificielles, dues à des limitations du système ;

• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.

(11)

La désambiguisation, c’est important

(12)

La désambiguisation, c’est important

(13)

La désambiguisation, c’est important

(14)

La désambiguisation, c’est important

(15)

La désambiguisation, c’est important

Ambiguïté artificielle

(1) Je mange une pomme à Berlin.

Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitifmais qui en fait une entrecomplément

circonstanciel de lieuetcomplément d’objet indirect, la phrase précédente peut être artificiellement ambiguë.

(16)

La désambiguisation, c’est important

(17)

La désambiguisation, c’est important

Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitif

mais qui en fait une entrecomplément circonstanciel de lieuetcomplément d’objet indirect, la phrase précédente peut être artificiellement ambiguë.

(18)

La désambiguisation, c’est important

circonstanciel de lieuetcomplément d’objet indirect,

la phrase précédente peut être artificiellement ambiguë.

(19)

La désambiguisation, c’est important

(20)

La désambiguisation, c’est important

Ambiguïté réelle

(2) Je vois un enfant avec un télescope. (3) Je [vois [un enfant avec un télescope]] (4) Je [[vois un enfant] [avec un télescope]]

• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :

(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.

• C’est encore plus vrai si le contexte est pris en compte.

(21)

La désambiguisation, c’est important

Ambiguïté réelle

(2) Je vois un enfant avec un télescope.

(3) Je [vois [un enfant avec un télescope]] (4) Je [[vois un enfant] [avec un télescope]]

(22)

La désambiguisation, c’est important

Ambiguïté réelle

(3) Je [vois [un enfant avec un télescope]]

(4) Je [[vois un enfant] [avec un télescope]]

(23)

La désambiguisation, c’est important

Ambiguïté réelle

(24)

La désambiguisation, c’est important

Ambiguïté réelle

(25)

La désambiguisation, c’est important

Ambiguïté réelle

(5) a. Je vois un astéroïde avec un télescope.

b. Je vois un enfant avec une trottinette.

(26)

La désambiguisation, c’est important

Ambiguïté réelle

(27)

La désambiguisation, c’est important

Ambiguïté réelle

(28)

Dans ce cours

• Grammaires hors-contexte probabilistes (PCFG).

• PCFG lexicalisées.

(29)

Dans ce cours

(30)

Dans ce cours

(31)

Grammaires hors-contexte

probabilistes (PCFG)

(32)

Une PCFG est

• une CFG ;

• associant une valeurP(r)∈[0,1]à chaque règler;

• telle que∀A∈N,∑

A→αP(A→α) =1.

• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.

(33)

Une PCFG est

• une CFG ;

A→αP(A→α) =1.

(34)

Une PCFG est

• une CFG ;

A→αP(A→α) =1.

(35)

Une PCFG est

• une CFG ;

A→αP(A→α) =1.

(36)

Une PCFG est

• une CFG ;

A→αP(A→α) =1.

(37)

Grammaire probabiliste

• P→SN SV[1]

• SV→V[0.4]|V SN[0.6]

• SN→DET N[0.3]|NP[0.7]

• V→voit[0.5]|prépare[0.5]

• DET→le[0.3]|la[0.3]|un[0.2]|une[0.2]

• N→camion[0.4]|expérience[0.6]

• NP→Sabine[0.34]|Fred[0.33]|Jamy[0.33]

(38)

Probabilité d’un arbreT

• Produit des probabilités des règles utilisées pour le construire.

• Soitlla séquence de règles définissant une dérivation deT: P(T) =∏

r∈lP(r).

(39)

r∈lP(r).

(40)

r∈lP(r).

(41)

P SV

SN N camion DET

le V voit SN

NP Sabine

• S→SN SV[1],SN→NP,[0.7],NP→Sabine[0.34],SV→V SN[0.6], V→voit[0.5],SN→DET N[0.3],DET→le[0.3],N→camion[0.4]

• P(T) =1×0.7× · · · ×0.4=0.0026

(42)

P SV

SN N camion DET

le V voit SN

NP Sabine

• P(T) =1×0.7× · · · ×0.4=0.0026

(43)

P SV

SN N camion DET

le V voit SN

NP Sabine

(44)

P⁽¹^×^(0.238^×^{0.0108) =}^0.0026)

SV^(0.6×(0.5×0.036) =0.0108)

SN^(0.3×(0.3×0.4) =0.036)

N^(0.4) camion DET^(0.3)

le V^(0.5)

voit SN^(0.7×(0.34) =0.238)

NP^(0.34) Sabine

(45)

PCFG cohérente

• Une PCFG est dite cohérente si la somme des probabilités associées à l’ensemble de toutes les dérivations complètes (c’est-à-dire, où tous les non-terminaux sont réécrits) est égale à 1.

• S’il existe des non-terminaux accessibles mais non-productifs, ou si l’on a des boucles (A→⁺ αAβ) de probabilité 1, alors une PCFG peut ne pas être cohérente.

• (Ça ne va pas être le cas pour les PCFG « naturelle ».)

(46)

PCFG cohérente

(47)

PCFG cohérente

(48)

PCFG cohérente

(49)

• L’estimation des probabilités des règles d’une PCFG peut se faire par comptage (un peu comme pour les n-grammes) à partir d’un treebank.

(50)

Analyse syntaxique et PCFG

(51)

• Pour une phrasew1 · · ·wndonnée, on voudrait obtenir l’arbre de probabilité maximale : argmax

T∈tree(w1···wn)

P(T).

• Il existe des variantes des algorithmes CYK et Earley pour les PCFG.

(52)

P(T).

(53)

P(T).

(54)

CYK

• Nous allons utiliser une structureTtelle queT[i,j+1,A]est la probabilité maximale des analysesA→^∗ u_i. . .u_j.

• On noteDla fonction qui associe à chaque règle sa probabilité.

(55)

CYK

(56)

CYK

(57)

CYK

Algorithm 1 : Analyseur CYK pour une PCFG en CNF G = (Σ,N,S,P,D)

// La phrase à analyser est u=u1. . .un. // Table d'analyse initialisée à 0: T[i,j,A] =0.

FunctionCYK

// Initialisation forj:=1. . .ndo

foreachA→ui∈Pdo T[i,i+1,A] :=D(A→ui);

// Remplissage par diagonales forl:=2. . .ndo

fori:=1. . .n−l+1do fork:=i+1. . .i+l−1do

foreachA→B C∈Pdo

p:=D(A→B C)×T[i,k,B]×T[k,i+l,C]; ifp>T[i,i+l,A]thenT[i,i+l,A] :=p;

(58)

CYK

• L’algorithme précédent renvoie la probabilité de l’analyse de probabilité maximale.

• Pour être capable de reconstruire cette analyse, il faut utiliser une seconde structureT^′ telle queT^′[i,j,A]stocke le triplé (B,C,k)approprié.

(59)

CYK

• L’algorithme précédent renvoie la probabilité de l’analyse de probabilité maximale.

• Pour être capable de reconstruire cette analyse, il faut utiliser une seconde structureT^′ telle queT^′[i,j,A]stocke le triplé (B,C,k)approprié.

(60)

Faiblesses des PCFG

• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories

syntaxiques différentes pour les verbes.

• C’est aussi le cas pour les noms et leur éventuels compléments.

• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.

• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence. (6) Moscow [sent more than 100,000 soldiers] into Afghanistan... (7) a. Marie mange [une salade avec des tomates].

b. Marie [mange une salade] avec ses doigts.

(61)

Faiblesses des PCFG

(62)

Faiblesses des PCFG

(63)

Faiblesses des PCFG

• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence.

(6) Moscow [sent more than 100,000 soldiers] into Afghanistan... (7) a. Marie mange [une salade avec des tomates].

(64)

Faiblesses des PCFG

(6) Moscow [sent more than 100,000 soldiers] into Afghanistan...

(7) a. Marie mange [une salade avec des tomates]. b. Marie [mange une salade] avec ses doigts.

(65)

Faiblesses des PCFG

(66)

Faiblesses des PCFG

(67)

PCFG lexicalisée

(68)

• Pour prendre en compte certains phénomènes de dépendances lexicales, on associe à chaque constituant non plus seulement une catégorie (morpho-)syntaxique (un non-terminal) mais aussi un élément lexical (un terminal), satête lexicale.

• Les règles doivent indiquer quelle est la tête d’une partie gauche ; ce doit être soit la tête d’un non-terminal de la partie droite soit un terminal de la partie droite :

• SN[h2]→DET[h1] N[h2]

• A[h1]→h1 B[h2] C[h3]

(69)

• A[h1]→h1 B[h2] C[h3]

(70)

• A[h1]→h1 B[h2] C[h3]

(71)

• A[h1]→h1 B[h2] C[h3]

(72)

P[voit]

SV[voit]

SN[camion]

N[camion]

camion DET[le]

le V[voit]

voit SN[Sabine]

NP[Sabine]

Sabine

(73)

• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.

• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.

• Exemple pourSN[h2]→DET[h1] N[h2]:

• SN[camion]→DET[le] N[camion]

• SN[camion]→DET[un] N[camion]

• SN[scooter]→DET[le] N[scooter]

• SN[scooter]→DET[un] N[scooter]

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (10⁴) de mots, à chaque règle binaire correspondraient cent millions (10⁸) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.

• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...

(74)

• ...

(75)

• ...

(76)

• ...

(77)

• ...

(78)

• ...

(79)

• ...

(80)

• ...

(81)

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (10⁴) de mots, à chaque règle binaire correspondraient cent millions (10⁸) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles

(82)

À propos du polycopié

• Lisez jusqu’à la page 456, jusque la phrasePerhaps the main difference between various modern statistical parsers lies in exactly which independence assumptions they make.

• Lisez aussi l’encadréMETHODOLOGY BOX : EVALUATING PARSERS de la page 460.

(83)

À propos du polycopié

(84)

À propos du polycopié

(85)

Références i

Références

Jurafsky, Daniel et James H. Martin (2000).Speech and Language Processing : An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition.Sous la dir. de Stuart Russell et Peter Norvig. first edition. Prentice Hall Series in Artificial Intelligence. Upper Saddle River, NJ, USA : Prentice Hall PTR.

Langages formels et analyse syntaxique CM9 : Grammaires probabilistes