7.2.1 Applicabilit´e des m´ethodes de filtrage
La figure7.1montre l’applicabilit´e des m´ethodes de filtrage selon la longueur des phrases. La
partie grise de chaque barre repr´esente le nombre de phrases sur lesquelles toutes les m´ethodes
de filtrage ont pu ˆetre appliqu´ees avant l’expiration du d´elai de 3 minutes ; les parties color´ees
repr´esentent le nombre de phrases pour lesquelles le d´elai a expir´e. La couleur de chaque partie
indique la m´ethode qui ´etait en cours d’application lors de l’expiration du d´elai. Sur toutes les
phrases de longueur inf´erieure `a 15 mots, tous les filtres s’appliquent en moins de trois minutes.
Jusqu’`a 21 mots, l’ensemble des filtres s’applique en moins de trois minutes pour 97.8 % des
phrases de chaque longueur. Au-del`a de 21 mots, la proportion de phrases pour lesquelles le
filtrage est termin´e au bout de trois minutes diminue rapidement : 90 % pour les phrases de
longueur 24, 79.3 % pour les phrases de longueur 27, 69 % pour les phrases de longueur 30.
Les m´ethodes les plus fr´equemment interrompues par l’expiration du d´elai sont, par ordre de
fr´equence d´ecroissante, la m´ethodeICP, en magenta, la m´ethodeACTIVE, en kaki, la m´ethode
BCPV, en bleu et les diff´erentes applications de la m´ethodeQCP. Les m´ethodesICP,ACTIVE
et BCPV construisent des automates tr`es d´epli´es et potentiellement tr`es diff´erents les uns des
autres, dont l’intersection est potentiellement tr`es coˆuteuse en temps et en espace.
Les diff´erentes applications du QCP sont ´egalement r´eguli`erement interrompues par
l’expi-ration du d´elai. Comme nous l’avons ´evoqu´e au chapitre 5, le temps de calcul de la m´ethode
QCP d´epend directement de la taille de l’automate. Or, les m´ethodes de filtrage autres queQCP
d´eplient l’automate. Par cons´equent, le QCP peut prendre un temps tr`es important lorsqu’il est
appliqu´e `a l’automate produit par une autre m´ethode de filtrage.
7.2.2 Coˆut en temps des m´ethodes de filtrage
La figure 7.2repr´esente le temps moyen d’application des m´ethodes de filtrage pour chaque
longueur de phrase. La courbe correspondant `a une m´ethode de filtrage est en trait plein tant que
cette m´ethode n’a jamais ´et´e interrompue sur une phrase par l’expiration du d´elai de 3 minutes.
7.2. R´esultats exp´erimentaux 113
0
500
1000
1500
2000
2500
3000
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Nombre de phrases
Longueur
VDAI (timeout 180) [number of sentences]
No timeout
Timeout on icp
Timeout on qcp
Timeout on active
Timeout on qcp
Timeout on det
Timeout on qcp
Timeout on bcpv
Timeout on qcp
Seule l’application duQCP sur l’automate initial s’applique `a toutes les phrases, quelle que soit
leur longueur. Les autres m´ethodes s’appliquent `a toutes les phrases sans exception jusqu’`a la
longueur 15 (16 pour BCPV).
0
10
20
30
40
50
60
70
80
90
5 10 15 20 25 30
Temps (s)
Longueur
VDAI (timeout 180) [filtering time]
+icp
+qcp
+active
+qcp
+det
+qcp
+bcpv
+qcp
Figure7.2 – Coˆut en temps des m´ethodes de filtrage selon la longueur des phrases
La premi`ere application duQCP a lieu sur l’automate initial : le temps est quasi lin´eaire et
inf´erieur `a 0.2 secondes mˆeme pour les phrases longues. Les autres m´ethodes sont plus coˆuteuses :
BCP prend, uniquement sur les polarit´es virtuelles (BCPV), jusqu’`a 16 secondes en moyenne
pour les phrases de longueur 29 ; DET prend jusqu’`a 15 secondes en moyenne pour les phrases
de longueur 29 ; ACTIVE prend jusqu’`a 16 secondes en moyenne pour les phrases de longueur
30 ;ICP prend jusqu’`a 19 secondes en moyenne sur les phrases de longueur 29. Les applications
successives du QCP apr`es ces m´ethodes prennent entre 2 et 8 secondes chacune.
7.2.3 Efficacit´e des m´ethodes de filtrage
La figure 7.3 montre l’efficacit´e des m´ethodes de filtrage selon la longueur des phrases. Les
courbes repr´esentent le logarithme du nombre moyen d’´etiquetages grammaticaux par phrase en
fonction de la longueur des phrases, au fur et `a mesure de l’application successive des m´ethodes
de filtrage. Chaque courbe correspond au r´esultat de l’application d’une m´ethode de filtrage
7.2. R´esultats exp´erimentaux 115
suppl´ementaire.
0
5
10
15
20
25
30
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Log10 (Path + 1)
Longueur
VDAI (timeout 180) [path numbers]
Init
+qcp
+bcpv
+qcp
+det
+qcp
+active
+qcp
+icp
Figure 7.3 – Nombre d’´etiquetages apr`es application des m´ethodes de filtrage
Prenons comme exemple les phrases de longueur 27 :
1. la courbe sup´erieure, en rouge, correspond au nombre initial d’´etiquetages grammaticaux ;
les phrases de longueur 27 ont initialement en moyenne 10
25´etiquetages grammaticaux
possibles ;
2. la deuxi`eme courbe, en vert vif, correspond au r´esultat de l’application de la m´ethode
QCP sur l’automate d’´etiquetages initial ; ces phrases ont alors environ 10
19´etiquetages
grammaticaux possibles en moyenne ;
3. la troisi`eme courbe, en bleu, correspond au r´esultat de l’application de la m´ethode BCP
pour les seules polarit´es virtuelles sur l’automate pr´ec´edent ; il reste alors environ 10
14´
etiquetages en moyenne ;
4. la quatri`eme courbe, en mauve, est produite par l’application de la m´ethode QCP sur
l’automate pr´ec´edent ; il reste un peu moins de 10
14´etiquetages ;
5. la courbe bleue claire est produite par application de la m´ethodeDET, toujours sur
l’au-tomate pr´ec´edent, qui correspond au filtrage d´eterministe par bilan de polarit´es ; il reste
alors 10
10´etiquetages ;
6. la courbe marron est produite par une nouvelle application de la m´ethodeQCP; il reste
l´eg`erement plus de 10
9´etiquetages ;
7. la courbe kaki r´esulte de l’application de la m´ethodeACTIVE, qui correspond au filtrage
par bilan de polarit´es ; apr`es application de cette m´ethode, il reste un peu moins de 10
8´etiquetages ;
8. la courbe vert clair correspond `a l’application deQCP `a l’automate pr´ec´edent ; il reste 10
7´etiquetages ;
9. la courbe magenta est obtenue par application de la m´ethode ICP; il reste en moyenne
pour les phrases de longueur 27 entre 10
5et 10
6´etiquetages.
Au final, la combinaison des diff´erentes m´ethodes de filtrage symbolique pour les formalismes
polaris´es apporte un gain extrˆemement important : le nombre moyen d’´etiquetages passe de 10
25`
a 10
6pour les phrases de longueur 27.
Ces courbes am`enent deux commentaires g´en´eraux. Premi`erement, les trajectoires des courbes
sont lin´eaires. Nous retrouvons ainsi l’augmentation exponentielle du nombre d’´etiquetages
pos-sibles, suivant l’augmentation de la longueur des phrases. Deuxi`emement, chaque application
d’une m´ethode de filtrage suppl´ementaire produit une courbe dont la pente est plus faible que la
courbe pr´ec´edente. Or, la pente des courbes correspond `a l’ambigu¨ıt´e moyenne par mot : si un
mot peut ˆetre associ´e en moyenne `a a descriptions ´el´ementaires, alors le nombre d’´etiquetages
pour une phrase de longueur n est environ a
net donc log(a
n) = n·log(a). Par cons´equent,
l’ambigu¨ıt´e moyenne peut ˆetre lue comme 10
so`u sest la pente des courbes de la figure7.3.
Une illustration est donn´ee par la figure 7.4, qui contient l’ambigu¨ıt´e moyenne par mot au
fur et `a mesure des applications de m´ethodes de filtrage. L’ambigu¨ıt´e moyenne par mot passe
de 8.18 initialement `a 6.12 apr`es application du QCP sur l’automate initial, puis 4.02 apr`es
application du BCPV, puis diminue r´eguli`erement jusqu’`a atteindre 1.83 apr`es application de
tous les filtres.
init QCP +BCPV +QCP +DET +QCP +ACTIVE +QCP +ICP
8.18 6.12 4.02 3.80 2.91 2.76 2.20 2.12 1.83
Figure 7.4 – Ambigu¨ıt´e moyenne par mot au fur et `a mesure des m´ethodes appliqu´ees
Dans le document
Étiquetage grammatical symbolique et interface syntaxe-sémantique des formalismes grammaticaux lexicalisés polarisés
(Page 127-131)