Langages formels et analyse syntaxique
CM9 : Grammaires probabilistes
Timothée Bernard 20 novembre 2020
Université de Paris
À lire
• Chapitre 12,Lexicalized and Probabilistic Parsing, du livre de Jurafsky et Martin (2000).
À lire
• Chapitre 12,Lexicalized and Probabilistic Parsing, du livre de Jurafsky et Martin (2000).
• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.
• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).
Pourquoi utiliser des grammaires probabilistes ?
• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.
• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.
• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.
• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).
Pourquoi utiliser des grammaires probabilistes ?
• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.
• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.
• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.
• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).
Pourquoi utiliser des grammaires probabilistes ?
• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.
• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.
• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.
• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).
Pourquoi utiliser des grammaires probabilistes ?
• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.
Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.
• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.
• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.
• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).
Pourquoi utiliser des grammaires probabilistes ?
• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.
• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.
• Une grammaire probabiliste assigne des probabilités aux structures syntaxiques.
• Et donc aussi aux phrases (via la somme des probabilités de toutes les structures syntaxiques possibles).
Pourquoi utiliser des grammaires probabilistes ?
• Être capable de dire queColorless green ideas sleep furiously est syntaxiquement correcte mais très peu probable est plus intéressant que simplement l’accepter ou la rejeter.Pas tous les formalismes ne vont avoir quelque chose à dire là-dessus.
• Pour faire de la désambiguïsation : on peut exprimer des préférences sur les différentes analyses d’une même phrase.
La désambiguisation, c’est important
• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.
• Ces multiples analyses correspondent :
• à des ambiguïtésartificielles, dues à des limitations du système ;
• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.
La désambiguisation, c’est important
• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.
• Ces multiples analyses correspondent :
• à des ambiguïtésartificielles, dues à des limitations du système ;
• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.
La désambiguisation, c’est important
• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.
• Ces multiples analyses correspondent :
• à des ambiguïtésartificielles, dues à des limitations du système ;
• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.
La désambiguisation, c’est important
• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.
• Ces multiples analyses correspondent :
• à des ambiguïtésartificielles, dues à des limitations du système ;
• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.
La désambiguisation, c’est important
• Les grammaires CF sont telles qu’à la plupart des phrases correspondent un grand nombre d’analyses.
• Ces multiples analyses correspondent :
• à des ambiguïtésartificielles, dues à des limitations du système ;
• à des ambiguïtésréelles, parce que le langage naturel est extrêmement ambigu.
La désambiguisation, c’est important
Ambiguïté artificielle
(1) Je mange une pomme à Berlin.
Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitifmais qui en fait une entrecomplément
circonstanciel de lieuetcomplément d’objet indirect, la phrase précédente peut être artificiellement ambiguë.
La désambiguisation, c’est important
Ambiguïté artificielle
(1) Je mange une pomme à Berlin.
Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitifmais qui en fait une entrecomplément
circonstanciel de lieuetcomplément d’objet indirect, la phrase précédente peut être artificiellement ambiguë.
La désambiguisation, c’est important
Ambiguïté artificielle
(1) Je mange une pomme à Berlin.
Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitif
mais qui en fait une entrecomplément circonstanciel de lieuetcomplément d’objet indirect, la phrase précédente peut être artificiellement ambiguë.
La désambiguisation, c’est important
Ambiguïté artificielle
(1) Je mange une pomme à Berlin.
Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitifmais qui en fait une entrecomplément
circonstanciel de lieuetcomplément d’objet indirect,
la phrase précédente peut être artificiellement ambiguë.
La désambiguisation, c’est important
Ambiguïté artificielle
(1) Je mange une pomme à Berlin.
Pour un système qui ne fait pas de distinction entre verbetransitif et verbebitransitifmais qui en fait une entrecomplément
circonstanciel de lieuetcomplément d’objet indirect, la phrase précédente peut être artificiellement ambiguë.
La désambiguisation, c’est important
Ambiguïté réelle
(2) Je vois un enfant avec un télescope. (3) Je [vois [un enfant avec un télescope]] (4) Je [[vois un enfant] [avec un télescope]]
• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :
(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.
• C’est encore plus vrai si le contexte est pris en compte.
La désambiguisation, c’est important
Ambiguïté réelle
(2) Je vois un enfant avec un télescope.
(3) Je [vois [un enfant avec un télescope]] (4) Je [[vois un enfant] [avec un télescope]]
• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :
(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.
• C’est encore plus vrai si le contexte est pris en compte.
La désambiguisation, c’est important
Ambiguïté réelle
(2) Je vois un enfant avec un télescope.
(3) Je [vois [un enfant avec un télescope]]
(4) Je [[vois un enfant] [avec un télescope]]
• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :
(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.
• C’est encore plus vrai si le contexte est pris en compte.
La désambiguisation, c’est important
Ambiguïté réelle
(2) Je vois un enfant avec un télescope.
(3) Je [vois [un enfant avec un télescope]]
(4) Je [[vois un enfant] [avec un télescope]]
• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :
(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.
• C’est encore plus vrai si le contexte est pris en compte.
La désambiguisation, c’est important
Ambiguïté réelle
(2) Je vois un enfant avec un télescope.
(3) Je [vois [un enfant avec un télescope]]
(4) Je [[vois un enfant] [avec un télescope]]
• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :
(5) a. Je vois un astéroïde avec un télescope. b. Je vois un enfant avec une trottinette.
• C’est encore plus vrai si le contexte est pris en compte.
La désambiguisation, c’est important
Ambiguïté réelle
(2) Je vois un enfant avec un télescope.
(3) Je [vois [un enfant avec un télescope]]
(4) Je [[vois un enfant] [avec un télescope]]
• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :
(5) a. Je vois un astéroïde avec un télescope.
b. Je vois un enfant avec une trottinette.
• C’est encore plus vrai si le contexte est pris en compte.
La désambiguisation, c’est important
Ambiguïté réelle
(2) Je vois un enfant avec un télescope.
(3) Je [vois [un enfant avec un télescope]]
(4) Je [[vois un enfant] [avec un télescope]]
• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :
(5) a. Je vois un astéroïde avec un télescope.
b. Je vois un enfant avec une trottinette.
• C’est encore plus vrai si le contexte est pris en compte.
La désambiguisation, c’est important
Ambiguïté réelle
(2) Je vois un enfant avec un télescope.
(3) Je [vois [un enfant avec un télescope]]
(4) Je [[vois un enfant] [avec un télescope]]
• Cependant, la plupart de ces ambiguïtés sont « théoriques ». Les humains les résolvent sans s’en rendre compte :
(5) a. Je vois un astéroïde avec un télescope.
b. Je vois un enfant avec une trottinette.
Dans ce cours
• Grammaires hors-contexte probabilistes (PCFG).
• PCFG lexicalisées.
Dans ce cours
• Grammaires hors-contexte probabilistes (PCFG).
• PCFG lexicalisées.
Dans ce cours
• Grammaires hors-contexte probabilistes (PCFG).
• PCFG lexicalisées.
Grammaires hors-contexte
probabilistes (PCFG)
Une PCFG est
• une CFG ;
• associant une valeurP(r)∈[0,1]à chaque règler;
• telle que∀A∈N,∑
A→αP(A→α) =1.
• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.
Une PCFG est
• une CFG ;
• associant une valeurP(r)∈[0,1]à chaque règler;
• telle que∀A∈N,∑
A→αP(A→α) =1.
• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.
Une PCFG est
• une CFG ;
• associant une valeurP(r)∈[0,1]à chaque règler;
• telle que∀A∈N,∑
A→αP(A→α) =1.
• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.
Une PCFG est
• une CFG ;
• associant une valeurP(r)∈[0,1]à chaque règler;
• telle que∀A∈N,∑
A→αP(A→α) =1.
• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.
Une PCFG est
• une CFG ;
• associant une valeurP(r)∈[0,1]à chaque règler;
• telle que∀A∈N,∑
A→αP(A→α) =1.
• Par convention, on peut aussi vouloir dire que la probabilité de toute règle ne faisant pas partie de la grammaire est 0.
Grammaire probabiliste
• P→SN SV[1]
• SV→V[0.4]|V SN[0.6]
• SN→DET N[0.3]|NP[0.7]
• V→voit[0.5]|prépare[0.5]
• DET→le[0.3]|la[0.3]|un[0.2]|une[0.2]
• N→camion[0.4]|expérience[0.6]
• NP→Sabine[0.34]|Fred[0.33]|Jamy[0.33]
Probabilité d’un arbreT
• Produit des probabilités des règles utilisées pour le construire.
• Soitlla séquence de règles définissant une dérivation deT: P(T) =∏
r∈lP(r).
Probabilité d’un arbreT
• Produit des probabilités des règles utilisées pour le construire.
• Soitlla séquence de règles définissant une dérivation deT: P(T) =∏
r∈lP(r).
Probabilité d’un arbreT
• Produit des probabilités des règles utilisées pour le construire.
• Soitlla séquence de règles définissant une dérivation deT: P(T) =∏
r∈lP(r).
P SV
SN N camion DET
le V voit SN
NP Sabine
• S→SN SV[1],SN→NP,[0.7],NP→Sabine[0.34],SV→V SN[0.6], V→voit[0.5],SN→DET N[0.3],DET→le[0.3],N→camion[0.4]
• P(T) =1×0.7× · · · ×0.4=0.0026
P SV
SN N camion DET
le V voit SN
NP Sabine
• S→SN SV[1],SN→NP,[0.7],NP→Sabine[0.34],SV→V SN[0.6], V→voit[0.5],SN→DET N[0.3],DET→le[0.3],N→camion[0.4]
• P(T) =1×0.7× · · · ×0.4=0.0026
P SV
SN N camion DET
le V voit SN
NP Sabine
• S→SN SV[1],SN→NP,[0.7],NP→Sabine[0.34],SV→V SN[0.6], V→voit[0.5],SN→DET N[0.3],DET→le[0.3],N→camion[0.4]
P(1×(0.238×0.0108) =0.0026)
SV(0.6×(0.5×0.036) =0.0108)
SN(0.3×(0.3×0.4) =0.036)
N(0.4) camion DET(0.3)
le V(0.5)
voit SN(0.7×(0.34) =0.238)
NP(0.34) Sabine
PCFG cohérente
• Une PCFG est dite cohérente si la somme des probabilités associées à l’ensemble de toutes les dérivations complètes (c’est-à-dire, où tous les non-terminaux sont réécrits) est égale à 1.
• S’il existe des non-terminaux accessibles mais non-productifs, ou si l’on a des boucles (A→+ αAβ) de probabilité 1, alors une PCFG peut ne pas être cohérente.
• (Ça ne va pas être le cas pour les PCFG « naturelle ».)
PCFG cohérente
• Une PCFG est dite cohérente si la somme des probabilités associées à l’ensemble de toutes les dérivations complètes (c’est-à-dire, où tous les non-terminaux sont réécrits) est égale à 1.
• S’il existe des non-terminaux accessibles mais non-productifs, ou si l’on a des boucles (A→+ αAβ) de probabilité 1, alors une PCFG peut ne pas être cohérente.
• (Ça ne va pas être le cas pour les PCFG « naturelle ».)
PCFG cohérente
• Une PCFG est dite cohérente si la somme des probabilités associées à l’ensemble de toutes les dérivations complètes (c’est-à-dire, où tous les non-terminaux sont réécrits) est égale à 1.
• S’il existe des non-terminaux accessibles mais non-productifs, ou si l’on a des boucles (A→+ αAβ) de probabilité 1, alors une PCFG peut ne pas être cohérente.
• (Ça ne va pas être le cas pour les PCFG « naturelle ».)
PCFG cohérente
• Une PCFG est dite cohérente si la somme des probabilités associées à l’ensemble de toutes les dérivations complètes (c’est-à-dire, où tous les non-terminaux sont réécrits) est égale à 1.
• S’il existe des non-terminaux accessibles mais non-productifs, ou si l’on a des boucles (A→+ αAβ) de probabilité 1, alors une PCFG peut ne pas être cohérente.
• (Ça ne va pas être le cas pour les PCFG « naturelle ».)
• L’estimation des probabilités des règles d’une PCFG peut se faire par comptage (un peu comme pour les n-grammes) à partir d’un treebank.
Analyse syntaxique et PCFG
• Pour une phrasew1 · · ·wndonnée, on voudrait obtenir l’arbre de probabilité maximale : argmax
T∈tree(w1···wn)
P(T).
• Il existe des variantes des algorithmes CYK et Earley pour les PCFG.
• Pour une phrasew1 · · ·wndonnée, on voudrait obtenir l’arbre de probabilité maximale : argmax
T∈tree(w1···wn)
P(T).
• Il existe des variantes des algorithmes CYK et Earley pour les PCFG.
• Pour une phrasew1 · · ·wndonnée, on voudrait obtenir l’arbre de probabilité maximale : argmax
T∈tree(w1···wn)
P(T).
• Il existe des variantes des algorithmes CYK et Earley pour les PCFG.
CYK
• Nous allons utiliser une structureTtelle queT[i,j+1,A]est la probabilité maximale des analysesA→∗ ui. . .uj.
• On noteDla fonction qui associe à chaque règle sa probabilité.
CYK
• Nous allons utiliser une structureTtelle queT[i,j+1,A]est la probabilité maximale des analysesA→∗ ui. . .uj.
• On noteDla fonction qui associe à chaque règle sa probabilité.
CYK
• Nous allons utiliser une structureTtelle queT[i,j+1,A]est la probabilité maximale des analysesA→∗ ui. . .uj.
• On noteDla fonction qui associe à chaque règle sa probabilité.
CYK
Algorithm 1 : Analyseur CYK pour une PCFG en CNF G = (Σ,N,S,P,D)
// La phrase à analyser est u=u1. . .un. // Table d'analyse initialisée à 0: T[i,j,A] =0.
FunctionCYK
// Initialisation forj:=1. . .ndo
foreachA→ui∈Pdo T[i,i+1,A] :=D(A→ui);
// Remplissage par diagonales forl:=2. . .ndo
fori:=1. . .n−l+1do fork:=i+1. . .i+l−1do
foreachA→B C∈Pdo
p:=D(A→B C)×T[i,k,B]×T[k,i+l,C]; ifp>T[i,i+l,A]thenT[i,i+l,A] :=p;
CYK
• L’algorithme précédent renvoie la probabilité de l’analyse de probabilité maximale.
• Pour être capable de reconstruire cette analyse, il faut utiliser une seconde structureT′ telle queT′[i,j,A]stocke le triplé (B,C,k)approprié.
CYK
• L’algorithme précédent renvoie la probabilité de l’analyse de probabilité maximale.
• Pour être capable de reconstruire cette analyse, il faut utiliser une seconde structureT′ telle queT′[i,j,A]stocke le triplé (B,C,k)approprié.
Faiblesses des PCFG
• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories
syntaxiques différentes pour les verbes.
• C’est aussi le cas pour les noms et leur éventuels compléments.
• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.
• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence. (6) Moscow [sent more than 100,000 soldiers] into Afghanistan... (7) a. Marie mange [une salade avec des tomates].
b. Marie [mange une salade] avec ses doigts.
Faiblesses des PCFG
• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories
syntaxiques différentes pour les verbes.
• C’est aussi le cas pour les noms et leur éventuels compléments.
• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.
• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence. (6) Moscow [sent more than 100,000 soldiers] into Afghanistan... (7) a. Marie mange [une salade avec des tomates].
b. Marie [mange une salade] avec ses doigts.
Faiblesses des PCFG
• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories
syntaxiques différentes pour les verbes.
• C’est aussi le cas pour les noms et leur éventuels compléments.
• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.
• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence. (6) Moscow [sent more than 100,000 soldiers] into Afghanistan... (7) a. Marie mange [une salade avec des tomates].
b. Marie [mange une salade] avec ses doigts.
Faiblesses des PCFG
• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories
syntaxiques différentes pour les verbes.
• C’est aussi le cas pour les noms et leur éventuels compléments.
• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.
• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence.
(6) Moscow [sent more than 100,000 soldiers] into Afghanistan... (7) a. Marie mange [une salade avec des tomates].
b. Marie [mange une salade] avec ses doigts.
Faiblesses des PCFG
• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories
syntaxiques différentes pour les verbes.
• C’est aussi le cas pour les noms et leur éventuels compléments.
• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.
• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence.
(6) Moscow [sent more than 100,000 soldiers] into Afghanistan...
(7) a. Marie mange [une salade avec des tomates]. b. Marie [mange une salade] avec ses doigts.
Faiblesses des PCFG
• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories
syntaxiques différentes pour les verbes.
• C’est aussi le cas pour les noms et leur éventuels compléments.
• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.
• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence.
(6) Moscow [sent more than 100,000 soldiers] into Afghanistan...
b. Marie [mange une salade] avec ses doigts.
Faiblesses des PCFG
• Le type d’arguments (ou de compléments circonstanciels) que l’on retrouve avec les verbes varie statistiquement d’un verbe à un autre, sans que cela justifie de créer des catégories
syntaxiques différentes pour les verbes.
• C’est aussi le cas pour les noms et leur éventuels compléments.
• Or, lorsqu’il n’y a pas de différences de catégories syntaxiques, les PCFG ne peuvent pas faire de différence.
• Par exemple, si la question se pose de savoir si l’on doit attacher un SPrep à un SN ou à un SV (typiquement, quand on a une séquenceV SN SPrep), une PCFG encodera la même préférence quels que soient les différents items lexicaux en présence.
(6) Moscow [sent more than 100,000 soldiers] into Afghanistan...
PCFG lexicalisée
• Pour prendre en compte certains phénomènes de dépendances lexicales, on associe à chaque constituant non plus seulement une catégorie (morpho-)syntaxique (un non-terminal) mais aussi un élément lexical (un terminal), satête lexicale.
• Les règles doivent indiquer quelle est la tête d’une partie gauche ; ce doit être soit la tête d’un non-terminal de la partie droite soit un terminal de la partie droite :
• SN[h2]→DET[h1] N[h2]
• A[h1]→h1 B[h2] C[h3]
• Pour prendre en compte certains phénomènes de dépendances lexicales, on associe à chaque constituant non plus seulement une catégorie (morpho-)syntaxique (un non-terminal) mais aussi un élément lexical (un terminal), satête lexicale.
• Les règles doivent indiquer quelle est la tête d’une partie gauche ; ce doit être soit la tête d’un non-terminal de la partie droite soit un terminal de la partie droite :
• SN[h2]→DET[h1] N[h2]
• A[h1]→h1 B[h2] C[h3]
• Pour prendre en compte certains phénomènes de dépendances lexicales, on associe à chaque constituant non plus seulement une catégorie (morpho-)syntaxique (un non-terminal) mais aussi un élément lexical (un terminal), satête lexicale.
• Les règles doivent indiquer quelle est la tête d’une partie gauche ; ce doit être soit la tête d’un non-terminal de la partie droite soit un terminal de la partie droite :
• SN[h2]→DET[h1] N[h2]
• A[h1]→h1 B[h2] C[h3]
• Pour prendre en compte certains phénomènes de dépendances lexicales, on associe à chaque constituant non plus seulement une catégorie (morpho-)syntaxique (un non-terminal) mais aussi un élément lexical (un terminal), satête lexicale.
• Les règles doivent indiquer quelle est la tête d’une partie gauche ; ce doit être soit la tête d’un non-terminal de la partie droite soit un terminal de la partie droite :
• SN[h2]→DET[h1] N[h2]
• A[h1]→h1 B[h2] C[h3]
P[voit]
SV[voit]
SN[camion]
N[camion]
camion DET[le]
le V[voit]
voit SN[Sabine]
NP[Sabine]
Sabine
• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.
• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.
• Exemple pourSN[h2]→DET[h1] N[h2]:
• SN[camion]→DET[le] N[camion]
• SN[camion]→DET[un] N[camion]
• SN[scooter]→DET[le] N[scooter]
• SN[scooter]→DET[un] N[scooter]
• ...
• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.
• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...
• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.
• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.
• Exemple pourSN[h2]→DET[h1] N[h2]:
• SN[camion]→DET[le] N[camion]
• SN[camion]→DET[un] N[camion]
• SN[scooter]→DET[le] N[scooter]
• SN[scooter]→DET[un] N[scooter]
• ...
• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.
• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...
• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.
• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.
• Exemple pourSN[h2]→DET[h1] N[h2]:
• SN[camion]→DET[le] N[camion]
• SN[camion]→DET[un] N[camion]
• SN[scooter]→DET[le] N[scooter]
• SN[scooter]→DET[un] N[scooter]
• ...
• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.
• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...
• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.
• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.
• Exemple pourSN[h2]→DET[h1] N[h2]:
• SN[camion]→DET[le] N[camion]
• SN[camion]→DET[un] N[camion]
• SN[scooter]→DET[le] N[scooter]
• SN[scooter]→DET[un] N[scooter]
• ...
• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.
• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...
• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.
• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.
• Exemple pourSN[h2]→DET[h1] N[h2]:
• SN[camion]→DET[le] N[camion]
• SN[camion]→DET[un] N[camion]
• SN[scooter]→DET[le] N[scooter]
• SN[scooter]→DET[un] N[scooter]
• ...
• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.
• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...
• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.
• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.
• Exemple pourSN[h2]→DET[h1] N[h2]:
• SN[camion]→DET[le] N[camion]
• SN[camion]→DET[un] N[camion]
• SN[scooter]→DET[le] N[scooter]
• SN[scooter]→DET[un] N[scooter]
• ...
• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.
• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...
• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.
• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.
• Exemple pourSN[h2]→DET[h1] N[h2]:
• SN[camion]→DET[le] N[camion]
• SN[camion]→DET[un] N[camion]
• SN[scooter]→DET[le] N[scooter]
• SN[scooter]→DET[un] N[scooter]
• ...
• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.
• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...
• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.
• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.
• Exemple pourSN[h2]→DET[h1] N[h2]:
• SN[camion]→DET[le] N[camion]
• SN[camion]→DET[un] N[camion]
• SN[scooter]→DET[le] N[scooter]
• SN[scooter]→DET[un] N[scooter]
• ...
• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles indépendemment ; on aurait quasi-systématiquement des 0.
• Il faut donc faire des hypothèses pour regrouper des règles entre elles pour ces estimations...
• Suivant comment sont définies les têtes, différents phénomènes peuvent être capturés via les probabilités des règles lexicalisées.
• On peut voir une grammaire lexicalisée comme une grammaire non-lexicalisée où chaque règle est dupliquée pour chacune des combinaisons lexicales possibles.
• Exemple pourSN[h2]→DET[h1] N[h2]:
• SN[camion]→DET[le] N[camion]
• SN[camion]→DET[un] N[camion]
• SN[scooter]→DET[le] N[scooter]
• SN[scooter]→DET[un] N[scooter]
• ...
• Le nombre de règles serait en fait démentiel : si on a un vocabulaire de dix mille (104) de mots, à chaque règle binaire correspondraient cent millions (108) de règles. On ne pourrait pas en pratique estimer en corpus les probabilités des règles
À propos du polycopié
• Lisez jusqu’à la page 456, jusque la phrasePerhaps the main difference between various modern statistical parsers lies in exactly which independence assumptions they make.
• Lisez aussi l’encadréMETHODOLOGY BOX : EVALUATING PARSERS de la page 460.
À propos du polycopié
• Lisez jusqu’à la page 456, jusque la phrasePerhaps the main difference between various modern statistical parsers lies in exactly which independence assumptions they make.
• Lisez aussi l’encadréMETHODOLOGY BOX : EVALUATING PARSERS de la page 460.
À propos du polycopié
• Lisez jusqu’à la page 456, jusque la phrasePerhaps the main difference between various modern statistical parsers lies in exactly which independence assumptions they make.
• Lisez aussi l’encadréMETHODOLOGY BOX : EVALUATING PARSERS de la page 460.
Références i
Références
Jurafsky, Daniel et James H. Martin (2000).Speech and Language Processing : An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition.Sous la dir. de Stuart Russell et Peter Norvig. first edition. Prentice Hall Series in Artificial Intelligence. Upper Saddle River, NJ, USA : Prentice Hall PTR.