• Aucun résultat trouvé

Considérations sur la taille du contexte

Étude de critères pour la désambiguïsation lexicale

7.3 Critères basés sur les cooccurrences évalués indé- indé-pendammentindé-pendamment

7.3.5 Considérations sur la taille du contexte

Privilégier les petites tailles de contexte

Comme nous pouvons le voir dans les tableaux 7.4 et 7.5, les tailles de contextes avec lesquelles nous obtenons la meilleure précision sont petites et vont de plus ou moins un mot à plus ou moins quatre mots. Dans la majorité des cas, la meilleure précision est obtenue avec un contexte de plus ou moins un mot ou plus ou moins deux mots. Ces résultats sont en accord avec de nombreuses études, comme celles de Yarowsky (1993, 2000) et de El-Bèze et al. (1998) par exemple, qui obtiennent de bons résultats en ne se basant que sur de petits contextes.

Les classifieurs réagissent différemment à la variation de la taille du contexte Les deux classifieurs que nous avons utilisés ne se comportent pas de la même façon vis-à-vis de la taille du contexte. La dynamique de la précision en fonction du contexte est plus grande pour le classifieur TNB(0,00) que pour le classifieur TPCM(0,00). Cette tendance est générale, la figure 7.7 le montre pour le critère [lemme]-[ordonne]-[mot]. Plus le contexte est grand, plus les indices sont bruités. Le classifieur TNB(0,00) qui combine l’information de tous les indices s’accommode moins bien de ce bruit que le classifieur TPCM(0,00) qui prend sa décision sur un indice unique supposé le plus fiable. En acceptant les mots en dehors de la phrase et en augmentant la taille du contexte, cette tendance est encore plus marquée comme le montre la figure 7.8

La prise en compte de la position des mots influe sur la décroissance de la précision lorsque la taille du contexte augmente

Un autre paramètre a un impact sur la dynamique de la précision en fonction du contexte, il s’agit du fait de tenir compte ou pas de la position des mots par rapport au mot à désambiguïser (i.e. considérer les mots du contexte comme un ensemble non ordonné ou ordonné). Le tableau 7.7 illustre ce phénomène pour le vocable détention. Nous utilisons ici le classifieur TPCM(0,00) qui ordonne les indices par fiabilité

dé-Figure 7.7 – Précision moyenne, pour les 60 vocables et pour le critère [lemme]-[ordonne]-[mot], des classifieurs TPCM(0,00) et TNB(0,00).

Figure 7.8 – Variante de la figure 7.7 en augmentant la taille du contexte et en acceptant les indices en dehors de la phrase.

LOM 1 2 fiabilité LNoM 1 2 fiabilité

(-1)en 18 0 0,905 arme 0 16 0,900

(2)’ 0 17 0,902 préventif 11 0 0,884

(3)arme 0 13 0,891 en 29 2 0,869

(1)préventif 11 0 0,884 ’ 22 31 0,575

Tableau 7.7 – Les indices pertinents pour le critère [lemme]-[ordonne]-[mot] (LOM) ne le sont pas forcément pour le critère [lemme]-[non-ordonne]-[mot] (LNoM). Les quatre colonnes de gauche montrent les quatre indices les plus fiables pour le critère [lemme]-[ordonne]-[mot] pour le vocable détention. Les quatre colonnes de droite montrent com-ment ces indices se fondent avec les autres mots du contexte avec le critère [lemme]-[non-ordonne]-[mot]. Dans les deux cas, la taille des contextes est de plus ou moins cinq mots à droite et à gauche. L’indice de fiabilité est celui calculé par le classifieur TPCM(0,00).

croissante (cf. section 6.5.4). L’intérêt de ce classifieur est que sa prise de décision est transparente à travers sa liste de décisions.

Les deux lexies de détention (cf. annexe C.4) sont : 1. « Fait d’être incarcéré ou enfermé » ;

2. « Avoir en sa possession ».

Selon le tableau 7.7, le mot en adjacent à gauche est l’indice le plus fiable pour le critère [lemme]-[ordonne]-[mot]. C’est un bon indicateur de la lexie 1 comme le montrent les exemples suivants :

– « . . . maintenir des personnes en détention sans inculpation ni jugement . . . » ; – « . . . avait été mis en détention préventive et relâché après . . . » ;

– « Aux CRS , la " présence dissuasive en détention " .. ».

L’apostrophe en deuxième position à droite est le deuxième indice le plus fiable pour le critère [lemme]-[ordonne]-[mot]. C’est un bon indicateur de la lexie 2 comme le montrent les exemples suivants :

– « . . . relative au contrôle de l ’ acquisition et de la détention d ’ armes . » ; – « . . . détention d ’ une arme à feu pendant un voyage . . . » ;

– « . . . aboutir à la détention d ’ un diplôme . ».

Comme le montre le tableau 7.7, ces deux indices les plus fiables, pour le critère [lemme]-[ordonne]-[mot], ont une mesure de fiabilité de 0,905 et 0,902. En raison du bruit généré par des mots se trouvant dans d’autres positions, cette fiabilité tombe respectivement à 0,869 et à 0,575 avec le critère [lemme]-[non-ordonne]-[mot]. La fi-gure 7.9 illustre également ce comportement. Quand le contexte croît, la pente de la décroissance de la précision est plus importante pour le critère [lemme]-[non-ordonne]-[mot] que pour le critère [lemme]-[ordonne]-[lemme]-[non-ordonne]-[mot].

Le tableau 7.7 peut laisser penser que ce phénomène ne se produit que pour des mots grammaticaux et non pour des mots pleins. En effet, l’indice (1)préventif n’est pas affecté par le passage au critère [lemme]-[non-ordonne]-[mot], et l’indice (3)arme est encore plus pertinent pour le critère [lemme]-[non-ordonne]-[mot]. La figure 7.10 montre que ce comportement reste vrai même quand le critère ne considère que les mots pleins.

Figure 7.9 – Précision moyenne du classifieur TPCM(0,00), pour les 60 vocables, et pour les critères [lemme]-[ordonne]-[mot] et [lemme]-[non-ordonne]-[mot].

Figure 7.10 – Précision moyenne du classifieur TPCM(0,00), pour les 60 vocables, et pour les critères [lemme]-[ordonne]-[mot-plein] et [lemme]-[non-ordonne]-[mot-plein].

La taille optimale du contexte dépend de la catégorie grammaticales du mot à désambiguïser

Intéressons-nous aux performances des critères de la forme [jeton]-[<param2>]-[<param3>] ou [lemme]-[<param2>]-[jeton]-[<param2>]-[<param3>] dans les tableaux 7.4 et 7.5. Dans ces tableaux, la taille optimale du contexte est pratiquement systématiquement plus grande pour les critères qui considèrent tous les mots que pour les critères qui ne consi-dèrent que les mots pleins, exception faite des adjectifs. Il est évident que les mots pleins apportent une information essentielle. Aussi, pour être performant, un contexte doit en contenir. Or, contrairement aux noms et aux verbes, les adjectifs ont, dans la majorité des cas, un mot plein directement adjacent. Ainsi, le meilleur contexte pour désambi-guïser un adjectif est généralement de plus ou moins un mot, que le critère s’intéresse à tous les mots ou uniquement aux mots pleins, tandis que pour les noms et les verbes, le meilleur contexte est de plus ou moins un à plus ou moins deux mots quand le critère ne considère que les mots pleins, et de plus ou moins deux à plus ou moins quatre mots quand il considère tous les mots. La figure 7.6 illustre bien ce comportement des trois catégories de vocables. Cette figure permet également de noter que :

– bien que le meilleur contexte pour les adjectifs soit de plus ou moins un mot, en prenant un contexte plus grand, la dégradation de la précision est pratiquement nulle pour un contexte de plus ou moins deux ou plus ou moins trois mots pour le classifieur TPCM(0,00), pratiquement nulle pour un contexte de plus ou moins deux et de l’ordre de 1,6% pour un contexte de plus ou moins trois mots pour le classifieur TNB(0,00) ;

– le meilleur contexte pour les noms est de plus ou moins deux ou plus ou moins quatre mots suivant le classifieur utilisé ; en revanche, en prenant un contexte plus petit, la dégradation de la précision est plus importante que pour les adjectifs et est l’ordre de 5,4% pour un contexte de plus ou moins un mot ;

– le meilleur contexte pour les verbes est de plus ou moins trois mots ; en prenant un contexte plus petit, la dégradation de la précision est encore plus importante, elle est l’ordre de 9% pour un contexte de plus ou moins un mot.

Les catégories grammaticales réagissent différemment à un élargissement de la taille du contexte

Lorsque nous sortons du cadre des micro-contextes et que nous nous intéressons à des contextes plus larges, nous remarquons que l’information pour désambiguïser un mot semble plus locale quand ce mot est un verbe ou un adjectif que quand il s’agit d’un nom. Yarowsky (1993) a déjà observé ce phénomène. Pour le mettre en valeur, nous avons tenté de désambiguïser chacun des 60 vocables en regardant le lemme de quatre mots pleins situés à une distance de plus ou moins x mots (la distance est bien comptée en nombre de mots et non en nombre de mots pleins). Nous avons effectué cette expérience avec les deux classifieurs et obtenu des résultats similaires. Nous exposons les résultats obtenus avec le classifieur TPCM(0,00). Pour effectuer la désambiguïsation de chacun des 60 vocables, ce classifieur dispose donc de huit indices :

– le lemme des quatre mots pleins les plus proches situés à une distance de plus de x mots à gauche de la cible ;

– le lemme des quatre mots pleins les plus proches situés à une distance de plus de x mots à droite de la cible.

La figure 7.11 montre le gain moyen obtenu, en fonction de cette distance de x mots, pour les 20 noms, les 20 adjectifs et les 20 verbes. Nous observons immédiatement

Figure 7.11 – Gain moyen pour chacune des catégories en fonction de l’éloignement des indices. Il s’agit du gain obtenu par le classifieur TPCM(0,00) en basant sa classi-fication sur le lemme de quatre mots pleins situés à une distance de plus ou moins x mots (représentée par une échelle logarithmique sur la figure).

qu’en s’éloignant de la cible, le gain tend vers zéro de manière bien plus rapide pour les adjectifs et les verbes que pour les noms. Le gain devient nul au delà de 8 mots pour les adjectifs, 14 pour les verbes et 300 pour les noms.