• Aucun résultat trouvé

Faut-il favoriser la variabilité ou le regroupement?

Étude de critères pour la désambiguïsation lexicale

7.3 Critères basés sur les cooccurrences évalués indé- indé-pendammentindé-pendamment

7.3.6 Faut-il favoriser la variabilité ou le regroupement?

L’apprentissage de nos deux classifieurs est basé sur la corrélation qu’il peut y avoir entre la présence d’un indice (i.e. la valeur d’un attribut) et la lexie de l’exemple. Pour cela, il faut que différents exemples aient des indices identiques. Lorsque la variabilité des attributs est trop grande, chaque description d’exemple est différente, la générali-sation et donc l’apprentissage sont alors impossibles. Ce phénomène, discuté dans la section 2.5.6, est d’autant plus sensible que le nombre d’exemples d’apprentissage est petit.

Il en va de même si la variabilité des indices est trop faible. Dans ce cas, les attributs ont des valeurs quasiment constantes, aucune corrélation entre la présence d’un indice et la lexie de l’exemple ne peut être faite, l’apprentissage est alors également impossible. Le tableau 7.8 indique le nombre d’indices générés par nos 24 critères pour un con-texte de plus ou moins deux mots et pour l’ensemble des 60 vocables. En première lecture, il peut paraître surprenant que le critère JOMp génère plus d’indices que le critère JOM. En effet, la seule différence entre ces deux critères est que JOMp ne consi-dère que les mots pleins alors que JOM consiconsi-dère tous les mots, or l’ensemble des mots pleins est inclus dans l’ensemble des mots. L’inversion qu’il se produit avec le dénom-brement des indices provient du fait que le contexte est limité à plus ou moins deux mots. Dans ce contexte, seul un sous-ensemble des mots pleins existant est concerné. Ce sous-ensemble est encore réduit dans le cas où le critère considère également les mots

Critères Nb. Ind. Critères Nb. Ind. Critères Nb. Ind.

JOMp 53 663 LNoMp 17 586 ENoM 125

JDMp 40 667 JNoM 17 060 ENoMp 93

LOMp 35 030 LDM 14 770 SOM 84

JNoMp 30 065 LNoM 10 901 SDM 44

JOM 26 328 EOM 498 SOMp 32

LDMp 25 036 EOMp 418 SNoM 22

JDM 21 748 EDM 301 SDMp 16

LOM 18 744 EDMp 255 SNoMp 8

Tableau 7.8 – Critères classés par nombre décroissant d’indices générés. Dans cette expérience, la taille du contexte est de plus ou moins deux mots. La colonne Nb. Ind. précise le nombre d’indices générés pour l’ensemble des 60 vocables.

grammaticaux. Or, la variabilité des mots pleins est bien plus importante que celle des mots grammaticaux. C’est cette faible variabilité des mots grammaticaux qui explique pourquoi les critères qui considèrent tous les mots génèrent moins d’indices que ceux qui ne considèrent que les mots pleins dans le tableau. D’ailleurs, cela n’est vrai que pour les critères qui considèrent le lemme ou le jeton des mots, dans le cas où c’est l’étiquette ems ou smallems qui est considérée, l’ordre logique est rétabli.

En excluant les critères qui ne considèrent que les mots pleins, le tableau 7.9 montre la corrélation qu’il y a entre le nombre d’indices générés (la variabilité) et la précision de la classification. Pour ces critères, il semble que variabilité croissante et précision croissante aillent de pair.

Le tableau 7.10 montre l’impact sur la précision du choix de chacune des trois parties [<param1>], [<param2>] et [<param3>] des 24 critères étudiés avec le classifieur TPCM(0,00). Le tableau 7.11 montre cet impact en utilisant le classifieur TNB(0,00).

Ces tableaux permettent de tirer un nombre important d’enseignements :

– En utilisant le classifieur TPCM(0,00) (respectivement TNB(0,00)), considérer tous les mots plutôt que seulement les mots pleins améliore en moyenne la préci-sion de 0,3% (2,2%) pour les noms, 2,5% (4,1%) pour les adjectifs et 6,9% (11,1%) pour les verbes. Il semble donc que les mots grammaticaux soient très importants pour la désambiguïsation des verbes, moins importants pour la désambiguïsation des adjectifs et peu importants pour la désambiguïsation des noms. Comme nous l’avons noté dans la section 7.2.1, de nombreuses études ne considèrent pas les mots grammaticaux (les mots vides). Dans notre expérience, si une telle pratique ne semble pas trop préjudiciable pour les noms, elle l’est pour les adjectifs et encore plus pour les verbes.

– La lemmatisation ne s’avère pas constituer une opération essentielle car les critères de la forme [lemme]-[<param2>]-[<param3>] ne se démarquent pas franchement des critères de la forme [jeton]-[<param2>]-[<param3>].

– Nous observons que le classifieur TNB(0,00) réagit mieux que le classifieur TPCM(0,00)lorsque les critères considèrent tous les mots (plutôt que seulement les mots pleins) et lorsque les critères considèrent les étiquettes morphosyntaxiques (ems) des mots.

Conformément au tableau 7.9, l’analyse des tableaux 7.10 et 7.11 va dans le sens de la variabilité. Par exemple, les critères dans lesquels <param2>=ordonne génèrent plus d’indices que les critères similaires dans lesquels <param2>=differencie qui génèrent eux-mêmes plus d’indices que les critères dans lesquels <param2>=non-ordonne. La

Critères TPCM(0,00) Critères TNB(0,00) Critères Nb. Ind.

LOM 71,2% LOM 74,3% JOM 26 328

JOM 71,5% LDM 73,6% JDM 21 748

JDM 71,1% JOM 73,6% LOM 18 744

LDM 70,6% JDM 73,5% JNoM 17 060

JNoM 69,7% JNoM 72,2% LDM 14 770

LNoM 68,8% LNoM 72,1% LNoM 10 901

EOM 59,3% EOM 65,5% EOM 498

EDM 56,5% EDM 64,1% EDM 301

SOM 55,1% SOM 60,2% ENoM 125

ENoM 52,9% ENoM 60,0% SOM 84

SDM 52,1% SDM 58,5% SDM 44

SNoM 49,2% SNoM 53,7% SNoM 22

Tableau 7.9 – Correspondance entre la variabilité et la précision. Dans les colonnes un, trois et cinq, les critères en italiques sont ceux qui se trouvent sur la même ligne dans ces trois colonnes. Dans la cinquième colonne, les critères en gras sont ceux qui se trouvent sur la même ligne ou sur la ligne au-dessous ou au-dessus dans la première ou la troisième colonne. Les deuxième, quatrième et sixième colonnes indiquent respec-tivement la précision obtenue par le classifieur TPCM(0,00), la précision obtenue par le classifieur TNB(0,00) et le nombre d’indices générés. Dans tous les cas, la taille du contexte est de plus ou moins deux mots.

Noms Adjectifs Verbs Moy

[jeton]- 16,3% 17,8% 18,8% 18,0% [lemme]- 16,6% 18,2% 18,5% 17,9% [ems]- 4,4% 2,9% 4,4% 4,1% [smallems]- 0,0% 0,0% 0,0% 0,0% -[ordonne]- 2,9% 1,1% 2,2% 2,3% -[differencie]- 1,9% 0,8% 1,6% 1,3% -[non-ordonne]- 0,0% 0,0% 0,0% 0,0% -[mot] 0,3% 2,5% 6,9% 4,7% -[mot-plein] 0,0% 0,0% 0,0% 0,0%

Tableau 7.10 – Évaluation de l’impact du choix de chacune des trois parties [<param1>], [<param2>] et [<param3>] des 24 critères étudiés avec le classifieur TPCM(0,00). Le tableau se lit de la manière suivante : la valeur de <param1> qui donne les plus mauvais résultats est <param1>=smallems, en prenant <param1>=ems, la pré-cision est en moyenne améliorée de 4,1% et de 17,9% en prenant <param1>=lemme. Les précisions retenues pour calculer les moyennes sont celles obtenues, pour chacun des critères, avec la taille de contexte optimal.

Noms Adjectifs Verbs Moy [jeton]- 16,1% 16,7% 15,4% 15,8% [lemme]- 16,0% 17,5% 15,5% 16,0% [ems]- 6,1% 3,0% 7,4% 6,5% [smallems]- 0,0% 0,0% 0,0% 0,0% -[ordonne]- 2,0% 1,0% 1,5% 1,3% -[differencie]- 1,5% 1,0% 1,1% 1,1% -[non-ordonne]- 0,0% 0,0% 0,0% 0,0% -[mot] 2,2% 4,1% 11,1% 7,9% -[mot-plein] 0,0% 0,0% 0,0% 0,0%

Tableau 7.11 – Évaluation de l’impact du choix de chacune des trois parties [<param1>], [<param2>] et [<param3>] des 24 critères étudiés avec le classifieur TNB(0,00). Le tableau se lit de la même manière que le tableau 7.10.

précision croissante va, dans la plupart des cas, dans le même sens que le nombre d’indices générés. Ce résultat général est à moduler dans deux cas :

– un critère dans lequel <param3>=mot génère potentiellement plus d’indices qu’un critère similaire pour lequel <param3>=mot-plein, cependant, comme nous l’avons vu plus haut, cette affirmation n’est pas vraie pour de petites tailles de contexte ;

– un critère dans lequel <param1>=jeton génère plus d’indices qu’un critère si-milaire dans lequel <param1>=lemme, cependant, nous n’observons pas ou peu d’amélioration de la précision dans le cas où <param1>=jeton.