• Aucun résultat trouvé

7.2.1 Applicabilit´e des m´ethodes de filtrage

La figure7.1montre l’applicabilit´e des m´ethodes de filtrage selon la longueur des phrases. La

partie grise de chaque barre repr´esente le nombre de phrases sur lesquelles toutes les m´ethodes

de filtrage ont pu ˆetre appliqu´ees avant l’expiration du d´elai de 3 minutes ; les parties color´ees

repr´esentent le nombre de phrases pour lesquelles le d´elai a expir´e. La couleur de chaque partie

indique la m´ethode qui ´etait en cours d’application lors de l’expiration du d´elai. Sur toutes les

phrases de longueur inf´erieure `a 15 mots, tous les filtres s’appliquent en moins de trois minutes.

Jusqu’`a 21 mots, l’ensemble des filtres s’applique en moins de trois minutes pour 97.8 % des

phrases de chaque longueur. Au-del`a de 21 mots, la proportion de phrases pour lesquelles le

filtrage est termin´e au bout de trois minutes diminue rapidement : 90 % pour les phrases de

longueur 24, 79.3 % pour les phrases de longueur 27, 69 % pour les phrases de longueur 30.

Les m´ethodes les plus fr´equemment interrompues par l’expiration du d´elai sont, par ordre de

fr´equence d´ecroissante, la m´ethodeICP, en magenta, la m´ethodeACTIVE, en kaki, la m´ethode

BCPV, en bleu et les diff´erentes applications de la m´ethodeQCP. Les m´ethodesICP,ACTIVE

et BCPV construisent des automates tr`es d´epli´es et potentiellement tr`es diff´erents les uns des

autres, dont l’intersection est potentiellement tr`es coˆuteuse en temps et en espace.

Les diff´erentes applications du QCP sont ´egalement r´eguli`erement interrompues par

l’expi-ration du d´elai. Comme nous l’avons ´evoqu´e au chapitre 5, le temps de calcul de la m´ethode

QCP d´epend directement de la taille de l’automate. Or, les m´ethodes de filtrage autres queQCP

d´eplient l’automate. Par cons´equent, le QCP peut prendre un temps tr`es important lorsqu’il est

appliqu´e `a l’automate produit par une autre m´ethode de filtrage.

7.2.2 Coˆut en temps des m´ethodes de filtrage

La figure 7.2repr´esente le temps moyen d’application des m´ethodes de filtrage pour chaque

longueur de phrase. La courbe correspondant `a une m´ethode de filtrage est en trait plein tant que

cette m´ethode n’a jamais ´et´e interrompue sur une phrase par l’expiration du d´elai de 3 minutes.

7.2. R´esultats exp´erimentaux 113

0

500

1000

1500

2000

2500

3000

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Nombre de phrases

Longueur

VDAI (timeout 180) [number of sentences]

No timeout

Timeout on icp

Timeout on qcp

Timeout on active

Timeout on qcp

Timeout on det

Timeout on qcp

Timeout on bcpv

Timeout on qcp

Seule l’application duQCP sur l’automate initial s’applique `a toutes les phrases, quelle que soit

leur longueur. Les autres m´ethodes s’appliquent `a toutes les phrases sans exception jusqu’`a la

longueur 15 (16 pour BCPV).

0

10

20

30

40

50

60

70

80

90

5 10 15 20 25 30

Temps (s)

Longueur

VDAI (timeout 180) [filtering time]

+icp

+qcp

+active

+qcp

+det

+qcp

+bcpv

+qcp

Figure7.2 – Coˆut en temps des m´ethodes de filtrage selon la longueur des phrases

La premi`ere application duQCP a lieu sur l’automate initial : le temps est quasi lin´eaire et

inf´erieur `a 0.2 secondes mˆeme pour les phrases longues. Les autres m´ethodes sont plus coˆuteuses :

BCP prend, uniquement sur les polarit´es virtuelles (BCPV), jusqu’`a 16 secondes en moyenne

pour les phrases de longueur 29 ; DET prend jusqu’`a 15 secondes en moyenne pour les phrases

de longueur 29 ; ACTIVE prend jusqu’`a 16 secondes en moyenne pour les phrases de longueur

30 ;ICP prend jusqu’`a 19 secondes en moyenne sur les phrases de longueur 29. Les applications

successives du QCP apr`es ces m´ethodes prennent entre 2 et 8 secondes chacune.

7.2.3 Efficacit´e des m´ethodes de filtrage

La figure 7.3 montre l’efficacit´e des m´ethodes de filtrage selon la longueur des phrases. Les

courbes repr´esentent le logarithme du nombre moyen d’´etiquetages grammaticaux par phrase en

fonction de la longueur des phrases, au fur et `a mesure de l’application successive des m´ethodes

de filtrage. Chaque courbe correspond au r´esultat de l’application d’une m´ethode de filtrage

7.2. R´esultats exp´erimentaux 115

suppl´ementaire.

0

5

10

15

20

25

30

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Log10 (Path + 1)

Longueur

VDAI (timeout 180) [path numbers]

Init

+qcp

+bcpv

+qcp

+det

+qcp

+active

+qcp

+icp

Figure 7.3 – Nombre d’´etiquetages apr`es application des m´ethodes de filtrage

Prenons comme exemple les phrases de longueur 27 :

1. la courbe sup´erieure, en rouge, correspond au nombre initial d’´etiquetages grammaticaux ;

les phrases de longueur 27 ont initialement en moyenne 10

25

´etiquetages grammaticaux

possibles ;

2. la deuxi`eme courbe, en vert vif, correspond au r´esultat de l’application de la m´ethode

QCP sur l’automate d’´etiquetages initial ; ces phrases ont alors environ 10

19

´etiquetages

grammaticaux possibles en moyenne ;

3. la troisi`eme courbe, en bleu, correspond au r´esultat de l’application de la m´ethode BCP

pour les seules polarit´es virtuelles sur l’automate pr´ec´edent ; il reste alors environ 10

14

´

etiquetages en moyenne ;

4. la quatri`eme courbe, en mauve, est produite par l’application de la m´ethode QCP sur

l’automate pr´ec´edent ; il reste un peu moins de 10

14

´etiquetages ;

5. la courbe bleue claire est produite par application de la m´ethodeDET, toujours sur

l’au-tomate pr´ec´edent, qui correspond au filtrage d´eterministe par bilan de polarit´es ; il reste

alors 10

10

´etiquetages ;

6. la courbe marron est produite par une nouvelle application de la m´ethodeQCP; il reste

l´eg`erement plus de 10

9

´etiquetages ;

7. la courbe kaki r´esulte de l’application de la m´ethodeACTIVE, qui correspond au filtrage

par bilan de polarit´es ; apr`es application de cette m´ethode, il reste un peu moins de 10

8

´etiquetages ;

8. la courbe vert clair correspond `a l’application deQCP `a l’automate pr´ec´edent ; il reste 10

7

´etiquetages ;

9. la courbe magenta est obtenue par application de la m´ethode ICP; il reste en moyenne

pour les phrases de longueur 27 entre 10

5

et 10

6

´etiquetages.

Au final, la combinaison des diff´erentes m´ethodes de filtrage symbolique pour les formalismes

polaris´es apporte un gain extrˆemement important : le nombre moyen d’´etiquetages passe de 10

25

`

a 10

6

pour les phrases de longueur 27.

Ces courbes am`enent deux commentaires g´en´eraux. Premi`erement, les trajectoires des courbes

sont lin´eaires. Nous retrouvons ainsi l’augmentation exponentielle du nombre d’´etiquetages

pos-sibles, suivant l’augmentation de la longueur des phrases. Deuxi`emement, chaque application

d’une m´ethode de filtrage suppl´ementaire produit une courbe dont la pente est plus faible que la

courbe pr´ec´edente. Or, la pente des courbes correspond `a l’ambigu¨ıt´e moyenne par mot : si un

mot peut ˆetre associ´e en moyenne `a a descriptions ´el´ementaires, alors le nombre d’´etiquetages

pour une phrase de longueur n est environ a

n

et donc log(a

n

) = n·log(a). Par cons´equent,

l’ambigu¨ıt´e moyenne peut ˆetre lue comme 10

s

o`u sest la pente des courbes de la figure7.3.

Une illustration est donn´ee par la figure 7.4, qui contient l’ambigu¨ıt´e moyenne par mot au

fur et `a mesure des applications de m´ethodes de filtrage. L’ambigu¨ıt´e moyenne par mot passe

de 8.18 initialement `a 6.12 apr`es application du QCP sur l’automate initial, puis 4.02 apr`es

application du BCPV, puis diminue r´eguli`erement jusqu’`a atteindre 1.83 apr`es application de

tous les filtres.

init QCP +BCPV +QCP +DET +QCP +ACTIVE +QCP +ICP

8.18 6.12 4.02 3.80 2.91 2.76 2.20 2.12 1.83

Figure 7.4 – Ambigu¨ıt´e moyenne par mot au fur et `a mesure des m´ethodes appliqu´ees