• Aucun résultat trouvé

Langages formels et analyse syntaxique CM9 : Grammaires probabilistes

N/A
N/A
Protected

Academic year: 2022

Partager "Langages formels et analyse syntaxique CM9 : Grammaires probabilistes"

Copied!
85
0
0

Texte intégral

(1)

Langages formels et analyse syntaxique

CM9 : Grammaires probabilistes

Timothée Bernard 20 novembre 2020

Université de Paris

(2)

À lire

• Chapitre 12,Lexicalized and Probabilistic Parsing, du livre de Jurafsky et Martin (2000).

(3)

À lire

• Chapitre 12,Lexicalized and Probabilistic Parsing, du livre de Jurafsky et Martin (2000).

(4)

• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.

• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).

Pourquoi utiliser des grammaires probabilistes ?

• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.

• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.

(5)

• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.

• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).

Pourquoi utiliser des grammaires probabilistes ?

• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.

• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.

(6)

• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.

• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).

Pourquoi utiliser des grammaires probabilistes ?

• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.

• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.

(7)

• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.

• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).

Pourquoi utiliser des grammaires probabilistes ?

• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.

Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.

• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.

(8)

• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.

• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).

Pourquoi utiliser des grammaires probabilistes ?

• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.

• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.

(9)

• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.

• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).

Pourquoi utiliser des grammaires probabilistes ?

• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.

• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.

(10)

La désambiguisation, c’est important

• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.

• Ces multiples analyses correspondent :

• à des ambiguïtésartificielles, dues à des limitations du système ;

• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.

(11)

La désambiguisation, c’est important

• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.

• Ces multiples analyses correspondent :

• à des ambiguïtésartificielles, dues à des limitations du système ;

• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.

(12)

La désambiguisation, c’est important

• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.

• Ces multiples analyses correspondent :

• à des ambiguïtésartificielles, dues à des limitations du système ;

• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.

(13)

La désambiguisation, c’est important

• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.

• Ces multiples analyses correspondent :

• à des ambiguïtésartificielles, dues à des limitations du système ;

• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.

(14)

La désambiguisation, c’est important

• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.

• Ces multiples analyses correspondent :

• à des ambiguïtésartificielles, dues à des limitations du système ;

• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.

(15)

La désambiguisation, c’est important

Ambiguïté artificielle

(1) Je mange une pomme à Berlin.

Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitifmais qui en fait une entrecomplément

circonstanciel de lieuetcomplément d’objet indirect, la phrase précédente peut être artificiellement ambiguë.

(16)

La désambiguisation, c’est important

Ambiguïté artificielle

(1) Je mange une pomme à Berlin.

Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitifmais qui en fait une entrecomplément

circonstanciel de lieuetcomplément d’objet indirect, la phrase précédente peut être artificiellement ambiguë.

(17)

La désambiguisation, c’est important

Ambiguïté artificielle

(1) Je mange une pomme à Berlin.

Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitif

mais qui en fait une entrecomplément circonstanciel de lieuetcomplément d’objet indirect, la phrase précédente peut être artificiellement ambiguë.

(18)

La désambiguisation, c’est important

Ambiguïté artificielle

(1) Je mange une pomme à Berlin.

Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitifmais qui en fait une entrecomplément

circonstanciel de lieuetcomplément d’objet indirect,

la phrase précédente peut être artificiellement ambiguë.

(19)

La désambiguisation, c’est important

Ambiguïté artificielle

(1) Je mange une pomme à Berlin.

Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitifmais qui en fait une entrecomplément

circonstanciel de lieuetcomplément d’objet indirect, la phrase précédente peut être artificiellement ambiguë.

(20)

La désambiguisation, c’est important

Ambiguïté réelle

(2) Je vois un enfant avec un télescope. (3) Je [vois [un enfant avec un télescope]] (4) Je [[vois un enfant] [avec un télescope]]

• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :

(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.

• C’est encore plus vrai si le contexte est pris en compte.

(21)

La désambiguisation, c’est important

Ambiguïté réelle

(2) Je vois un enfant avec un télescope.

(3) Je [vois [un enfant avec un télescope]] (4) Je [[vois un enfant] [avec un télescope]]

• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :

(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.

• C’est encore plus vrai si le contexte est pris en compte.

(22)

La désambiguisation, c’est important

Ambiguïté réelle

(2) Je vois un enfant avec un télescope.

(3) Je [vois [un enfant avec un télescope]]

(4) Je [[vois un enfant] [avec un télescope]]

• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :

(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.

• C’est encore plus vrai si le contexte est pris en compte.

(23)

La désambiguisation, c’est important

Ambiguïté réelle

(2) Je vois un enfant avec un télescope.

(3) Je [vois [un enfant avec un télescope]]

(4) Je [[vois un enfant] [avec un télescope]]

• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :

(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.

• C’est encore plus vrai si le contexte est pris en compte.

(24)

La désambiguisation, c’est important

Ambiguïté réelle

(2) Je vois un enfant avec un télescope.

(3) Je [vois [un enfant avec un télescope]]

(4) Je [[vois un enfant] [avec un télescope]]

• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :

(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.

• C’est encore plus vrai si le contexte est pris en compte.

(25)

La désambiguisation, c’est important

Ambiguïté réelle

(2) Je vois un enfant avec un télescope.

(3) Je [vois [un enfant avec un télescope]]

(4) Je [[vois un enfant] [avec un télescope]]

• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :

(5) a. Je vois un astéroïde avec un télescope.

b. Je vois un enfant avec une trottinette.

• C’est encore plus vrai si le contexte est pris en compte.

(26)

La désambiguisation, c’est important

Ambiguïté réelle

(2) Je vois un enfant avec un télescope.

(3) Je [vois [un enfant avec un télescope]]

(4) Je [[vois un enfant] [avec un télescope]]

• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :

(5) a. Je vois un astéroïde avec un télescope.

b. Je vois un enfant avec une trottinette.

• C’est encore plus vrai si le contexte est pris en compte.

(27)

La désambiguisation, c’est important

Ambiguïté réelle

(2) Je vois un enfant avec un télescope.

(3) Je [vois [un enfant avec un télescope]]

(4) Je [[vois un enfant] [avec un télescope]]

• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :

(5) a. Je vois un astéroïde avec un télescope.

b. Je vois un enfant avec une trottinette.

(28)

Dans ce cours

• Grammaires hors-contexte probabilistes (PCFG).

• PCFG lexicalisées.

(29)

Dans ce cours

• Grammaires hors-contexte probabilistes (PCFG).

• PCFG lexicalisées.

(30)

Dans ce cours

• Grammaires hors-contexte probabilistes (PCFG).

• PCFG lexicalisées.

(31)

Grammaires hors-contexte

probabilistes (PCFG)

(32)

Une PCFG est

• une CFG ;

• associant une valeurP(r)∈[0,1]à chaque règler;

• telle que∀A∈N,

A→αP(A→α) =1.

• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.

(33)

Une PCFG est

• une CFG ;

• associant une valeurP(r)∈[0,1]à chaque règler;

• telle que∀A∈N,

A→αP(A→α) =1.

• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.

(34)

Une PCFG est

• une CFG ;

• associant une valeurP(r)∈[0,1]à chaque règler;

• telle que∀A∈N,

A→αP(A→α) =1.

• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.

(35)

Une PCFG est

• une CFG ;

• associant une valeurP(r)∈[0,1]à chaque règler;

• telle que∀A∈N,

A→αP(A→α) =1.

• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.

(36)

Une PCFG est

• une CFG ;

• associant une valeurP(r)∈[0,1]à chaque règler;

• telle que∀A∈N,

A→αP(A→α) =1.

• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.

(37)

Grammaire probabiliste

P→SN SV[1]

SV→V[0.4]|V SN[0.6]

SN→DET N[0.3]|NP[0.7]

V→voit[0.5]|prépare[0.5]

DET→le[0.3]|la[0.3]|un[0.2]|une[0.2]

N→camion[0.4]|expérience[0.6]

NP→Sabine[0.34]|Fred[0.33]|Jamy[0.33]

(38)

Probabilité d’un arbreT

• Produit des probabilités des règles utilisées pour le construire.

• Soitlla séquence de règles définissant une dérivation deT: P(T) =

r∈lP(r).

(39)

Probabilité d’un arbreT

• Produit des probabilités des règles utilisées pour le construire.

• Soitlla séquence de règles définissant une dérivation deT: P(T) =

r∈lP(r).

(40)

Probabilité d’un arbreT

• Produit des probabilités des règles utilisées pour le construire.

• Soitlla séquence de règles définissant une dérivation deT: P(T) =

r∈lP(r).

(41)

P SV

SN N camion DET

le V voit SN

NP Sabine

S→SN SV[1],SN→NP,[0.7],NP→Sabine[0.34],SV→V SN[0.6], V→voit[0.5],SN→DET N[0.3],DET→le[0.3],N→camion[0.4]

P(T) =1×0.7× · · · ×0.4=0.0026

(42)

P SV

SN N camion DET

le V voit SN

NP Sabine

S→SN SV[1],SN→NP,[0.7],NP→Sabine[0.34],SV→V SN[0.6], V→voit[0.5],SN→DET N[0.3],DET→le[0.3],N→camion[0.4]

P(T) =1×0.7× · · · ×0.4=0.0026

(43)

P SV

SN N camion DET

le V voit SN

NP Sabine

S→SN SV[1],SN→NP,[0.7],NP→Sabine[0.34],SV→V SN[0.6], V→voit[0.5],SN→DET N[0.3],DET→le[0.3],N→camion[0.4]

(44)

P(1×(0.238×0.0108) =0.0026)

SV(0.6×(0.5×0.036) =0.0108)

SN(0.3×(0.3×0.4) =0.036)

N(0.4) camion DET(0.3)

le V(0.5)

voit SN(0.7×(0.34) =0.238)

NP(0.34) Sabine

(45)

PCFG cohérente

• Une PCFG est dite cohérente si la somme des probabilités associées à l’ensemble de toutes les dérivations complètes (c’est-à-dire, où tous les non-terminaux sont réécrits) est égale à 1.

• S’il existe des non-terminaux accessibles mais non-productifs, ou si l’on a des boucles (A+ αAβ) de probabilité 1, alors une PCFG peut ne pas être cohérente.

• (Ça ne va pas être le cas pour les PCFG « naturelle ».)

(46)

PCFG cohérente

• Une PCFG est dite cohérente si la somme des probabilités associées à l’ensemble de toutes les dérivations complètes (c’est-à-dire, où tous les non-terminaux sont réécrits) est égale à 1.

• S’il existe des non-terminaux accessibles mais non-productifs, ou si l’on a des boucles (A+ αAβ) de probabilité 1, alors une PCFG peut ne pas être cohérente.

• (Ça ne va pas être le cas pour les PCFG « naturelle ».)

(47)

PCFG cohérente

• Une PCFG est dite cohérente si la somme des probabilités associées à l’ensemble de toutes les dérivations complètes (c’est-à-dire, où tous les non-terminaux sont réécrits) est égale à 1.

• S’il existe des non-terminaux accessibles mais non-productifs, ou si l’on a des boucles (A+ αAβ) de probabilité 1, alors une PCFG peut ne pas être cohérente.

• (Ça ne va pas être le cas pour les PCFG « naturelle ».)

(48)

PCFG cohérente

• Une PCFG est dite cohérente si la somme des probabilités associées à l’ensemble de toutes les dérivations complètes (c’est-à-dire, où tous les non-terminaux sont réécrits) est égale à 1.

• S’il existe des non-terminaux accessibles mais non-productifs, ou si l’on a des boucles (A+ αAβ) de probabilité 1, alors une PCFG peut ne pas être cohérente.

• (Ça ne va pas être le cas pour les PCFG « naturelle ».)

(49)

• L’estimation des probabilités des règles d’une PCFG peut se faire par comptage (un peu comme pour les n-grammes) à partir d’un treebank.

(50)

Analyse syntaxique et PCFG

(51)

• Pour une phrasew1 · · ·wndonnée, on voudrait obtenir l’arbre de probabilité maximale : argmax

T∈tree(w1···wn)

P(T).

• Il existe des variantes des algorithmes CYK et Earley pour les PCFG.

(52)

• Pour une phrasew1 · · ·wndonnée, on voudrait obtenir l’arbre de probabilité maximale : argmax

T∈tree(w1···wn)

P(T).

• Il existe des variantes des algorithmes CYK et Earley pour les PCFG.

(53)

• Pour une phrasew1 · · ·wndonnée, on voudrait obtenir l’arbre de probabilité maximale : argmax

T∈tree(w1···wn)

P(T).

• Il existe des variantes des algorithmes CYK et Earley pour les PCFG.

(54)

CYK

• Nous allons utiliser une structureTtelle queT[i,j+1,A]est la probabilité maximale des analysesA→ ui. . .uj.

• On noteDla fonction qui associe à chaque règle sa probabilité.

(55)

CYK

• Nous allons utiliser une structureTtelle queT[i,j+1,A]est la probabilité maximale des analysesA→ ui. . .uj.

• On noteDla fonction qui associe à chaque règle sa probabilité.

(56)

CYK

• Nous allons utiliser une structureTtelle queT[i,j+1,A]est la probabilité maximale des analysesA→ ui. . .uj.

• On noteDla fonction qui associe à chaque règle sa probabilité.

(57)

CYK

Algorithm 1 : Analyseur CYK pour une PCFG en CNF G = (Σ,N,S,P,D)

// La phrase à analyser est u=u1. . .un. // Table d'analyse initialisée à 0: T[i,j,A] =0.

FunctionCYK

// Initialisation forj:=1. . .ndo

foreachAuiPdo T[i,i+1,A] :=D(Aui);

// Remplissage par diagonales forl:=2. . .ndo

fori:=1. . .nl+1do fork:=i+1. . .i+l1do

foreachAB CPdo

p:=D(AB C)×T[i,k,B]×T[k,i+l,C]; ifp>T[i,i+l,A]thenT[i,i+l,A] :=p;

(58)

CYK

• L’algorithme précédent renvoie la probabilité de l’analyse de probabilité maximale.

• Pour être capable de reconstruire cette analyse, il faut utiliser une seconde structureT telle queT[i,j,A]stocke le triplé (B,C,k)approprié.

(59)

CYK

• L’algorithme précédent renvoie la probabilité de l’analyse de probabilité maximale.

• Pour être capable de reconstruire cette analyse, il faut utiliser une seconde structureT telle queT[i,j,A]stocke le triplé (B,C,k)approprié.

(60)

Faiblesses des PCFG

• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories

syntaxiques différentes pour les verbes.

• C’est aussi le cas pour les noms et leur éventuels compléments.

• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.

• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence. (6) Moscow [sent more than 100,000 soldiers] into Afghanistan... (7) a. Marie mange [une salade avec des tomates].

b. Marie [mange une salade] avec ses doigts.

(61)

Faiblesses des PCFG

• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories

syntaxiques différentes pour les verbes.

• C’est aussi le cas pour les noms et leur éventuels compléments.

• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.

• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence. (6) Moscow [sent more than 100,000 soldiers] into Afghanistan... (7) a. Marie mange [une salade avec des tomates].

b. Marie [mange une salade] avec ses doigts.

(62)

Faiblesses des PCFG

• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories

syntaxiques différentes pour les verbes.

• C’est aussi le cas pour les noms et leur éventuels compléments.

• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.

• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence. (6) Moscow [sent more than 100,000 soldiers] into Afghanistan... (7) a. Marie mange [une salade avec des tomates].

b. Marie [mange une salade] avec ses doigts.

(63)

Faiblesses des PCFG

• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories

syntaxiques différentes pour les verbes.

• C’est aussi le cas pour les noms et leur éventuels compléments.

• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.

• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence.

(6) Moscow [sent more than 100,000 soldiers] into Afghanistan... (7) a. Marie mange [une salade avec des tomates].

b. Marie [mange une salade] avec ses doigts.

(64)

Faiblesses des PCFG

• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories

syntaxiques différentes pour les verbes.

• C’est aussi le cas pour les noms et leur éventuels compléments.

• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.

• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence.

(6) Moscow [sent more than 100,000 soldiers] into Afghanistan...

(7) a. Marie mange [une salade avec des tomates]. b. Marie [mange une salade] avec ses doigts.

(65)

Faiblesses des PCFG

• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories

syntaxiques différentes pour les verbes.

• C’est aussi le cas pour les noms et leur éventuels compléments.

• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.

• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence.

(6) Moscow [sent more than 100,000 soldiers] into Afghanistan...

b. Marie [mange une salade] avec ses doigts.

(66)

Faiblesses des PCFG

• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories

syntaxiques différentes pour les verbes.

• C’est aussi le cas pour les noms et leur éventuels compléments.

• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.

• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence.

(6) Moscow [sent more than 100,000 soldiers] into Afghanistan...

(67)

PCFG lexicalisée

(68)

• Pour prendre en compte certains phénomènes de dépendances lexicales, on associe à chaque constituant non plus seulement une catégorie (morpho-)syntaxique (un non-terminal) mais aussi un élément lexical (un terminal), satête lexicale.

• Les règles doivent indiquer quelle est la tête d’une partie gauche ; ce doit être soit la tête d’un non-terminal de la partie droite soit un terminal de la partie droite :

• SN[h2]DET[h1] N[h2]

• A[h1]h1 B[h2] C[h3]

(69)

• Pour prendre en compte certains phénomènes de dépendances lexicales, on associe à chaque constituant non plus seulement une catégorie (morpho-)syntaxique (un non-terminal) mais aussi un élément lexical (un terminal), satête lexicale.

• Les règles doivent indiquer quelle est la tête d’une partie gauche ; ce doit être soit la tête d’un non-terminal de la partie droite soit un terminal de la partie droite :

• SN[h2]DET[h1] N[h2]

• A[h1]h1 B[h2] C[h3]

(70)

• Pour prendre en compte certains phénomènes de dépendances lexicales, on associe à chaque constituant non plus seulement une catégorie (morpho-)syntaxique (un non-terminal) mais aussi un élément lexical (un terminal), satête lexicale.

• Les règles doivent indiquer quelle est la tête d’une partie gauche ; ce doit être soit la tête d’un non-terminal de la partie droite soit un terminal de la partie droite :

• SN[h2]DET[h1] N[h2]

• A[h1]h1 B[h2] C[h3]

(71)

• Pour prendre en compte certains phénomènes de dépendances lexicales, on associe à chaque constituant non plus seulement une catégorie (morpho-)syntaxique (un non-terminal) mais aussi un élément lexical (un terminal), satête lexicale.

• Les règles doivent indiquer quelle est la tête d’une partie gauche ; ce doit être soit la tête d’un non-terminal de la partie droite soit un terminal de la partie droite :

• SN[h2]DET[h1] N[h2]

• A[h1]h1 B[h2] C[h3]

(72)

P[voit]

SV[voit]

SN[camion]

N[camion]

camion DET[le]

le V[voit]

voit SN[Sabine]

NP[Sabine]

Sabine

(73)

• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.

• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.

• Exemple pourSN[h2]→DET[h1] N[h2]:

• SN[camion]DET[le] N[camion]

• SN[camion]DET[un] N[camion]

• SN[scooter]DET[le] N[scooter]

• SN[scooter]DET[un] N[scooter]

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.

• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...

(74)

• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.

• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.

• Exemple pourSN[h2]→DET[h1] N[h2]:

• SN[camion]DET[le] N[camion]

• SN[camion]DET[un] N[camion]

• SN[scooter]DET[le] N[scooter]

• SN[scooter]DET[un] N[scooter]

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.

• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...

(75)

• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.

• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.

• Exemple pourSN[h2]→DET[h1] N[h2]:

• SN[camion]DET[le] N[camion]

• SN[camion]DET[un] N[camion]

• SN[scooter]DET[le] N[scooter]

• SN[scooter]DET[un] N[scooter]

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.

• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...

(76)

• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.

• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.

• Exemple pourSN[h2]→DET[h1] N[h2]:

• SN[camion]DET[le] N[camion]

• SN[camion]DET[un] N[camion]

• SN[scooter]DET[le] N[scooter]

• SN[scooter]DET[un] N[scooter]

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.

• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...

(77)

• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.

• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.

• Exemple pourSN[h2]→DET[h1] N[h2]:

• SN[camion]DET[le] N[camion]

• SN[camion]DET[un] N[camion]

• SN[scooter]DET[le] N[scooter]

• SN[scooter]DET[un] N[scooter]

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.

• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...

(78)

• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.

• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.

• Exemple pourSN[h2]→DET[h1] N[h2]:

• SN[camion]DET[le] N[camion]

• SN[camion]DET[un] N[camion]

• SN[scooter]DET[le] N[scooter]

• SN[scooter]DET[un] N[scooter]

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.

• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...

(79)

• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.

• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.

• Exemple pourSN[h2]→DET[h1] N[h2]:

• SN[camion]DET[le] N[camion]

• SN[camion]DET[un] N[camion]

• SN[scooter]DET[le] N[scooter]

• SN[scooter]DET[un] N[scooter]

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.

• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...

(80)

• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.

• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.

• Exemple pourSN[h2]→DET[h1] N[h2]:

• SN[camion]DET[le] N[camion]

• SN[camion]DET[un] N[camion]

• SN[scooter]DET[le] N[scooter]

• SN[scooter]DET[un] N[scooter]

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.

• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...

(81)

• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.

• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.

• Exemple pourSN[h2]→DET[h1] N[h2]:

• SN[camion]DET[le] N[camion]

• SN[camion]DET[un] N[camion]

• SN[scooter]DET[le] N[scooter]

• SN[scooter]DET[un] N[scooter]

• ...

• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles

(82)

À propos du polycopié

• Lisez jusqu’à la page 456, jusque la phrasePerhaps the main difference between various modern statistical parsers lies in exactly which independence assumptions they make.

• Lisez aussi l’encadréMETHODOLOGY BOX : EVALUATING PARSERS de la page 460.

(83)

À propos du polycopié

• Lisez jusqu’à la page 456, jusque la phrasePerhaps the main difference between various modern statistical parsers lies in exactly which independence assumptions they make.

• Lisez aussi l’encadréMETHODOLOGY BOX : EVALUATING PARSERS de la page 460.

(84)

À propos du polycopié

• Lisez jusqu’à la page 456, jusque la phrasePerhaps the main difference between various modern statistical parsers lies in exactly which independence assumptions they make.

• Lisez aussi l’encadréMETHODOLOGY BOX : EVALUATING PARSERS de la page 460.

(85)

Références i

Références

Jurafsky, Daniel et James H. Martin (2000).Speech and Language Processing : An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition.Sous la dir. de Stuart Russell et Peter Norvig. first edition. Prentice Hall Series in Artificial Intelligence. Upper Saddle River, NJ, USA : Prentice Hall PTR.

Références

Documents relatifs

- Nous avons vu qu’un langage est un ensemble de mots où un mot est une chaîne de symboles (caractères) d’un alphabet fini.. - Pour les langages réguliers (par exemple, le langage

• En section 4.4 L’automate canonique, vous pouvez vous concentrer sur l’algorithme de minimisation (en 4.4.3 ; nécessite de connaître aussi la définition de

• On peut supprimer les productions et symboles inutiles sans affecter le langage généré.. • Algorithme en deux

Acceptation par état final : un peu comme pour les automates finis, on accepte si on se retrouve dans un état final après avoir lu tout le mot, et ce quelque soit le contenu de

• On suppose une capacité de mémoire infinie afin de pouvoir étudier la régularité (au sens usuel) des phénomènes syntaxiques et rendre la notion de structure syntaxique

• si ce n’est pas possible (parce qu’il s’agit d’un terminal ou parce que les différentes réécritures ne mènent à rien), c’est que la branche n’est pas viable.. •

À chaque étape, soit on sait qu’il faut s’arrêter (réussite ou échec), soit on sait quelle action effectuer pour continuer

Bon exercice : modifier l’algorithme afin de construire la tableT ′ en même temps que T, puis écrire l’algorithme listant toutes les