6.1 Validation des approches de désambiguïsation morphologique possi-
6.1.3 Validation de l’approche de désambiguïsation possibiliste dis-
Nous présentons les résultats préliminaires qui ont montré une grande précision du classifieur possibiliste de base [Bounhas et al., 2015a,Bounhas et al., 2015b]. Ils nous ont permis d’étudier la dépendance au domaine de notre classifieur. Cepen-dant, nous devons aussi évaluer notre classifieur discriminant possibiliste, le modèle de pondération et l’effet de l’introduction de la possibilité lexicale.
Nos travaux dans [Bounhas et al., 2015a,Bounhas et al., 2015b] sont axés sur le classifieur possibiliste de base qui utilise uniquement la mesure de possibilité pour déterminer la classe la plus plausible. Il donne un poids uniforme pour tous les attributs impliqués dans le processus de classification. Nous discernons dans cette section notre classifieur discriminant possibiliste et le modèle de pondération. Nous fournissons des détails sur le processus d’apprentissage et les taux de classifica-tion obtenus avec plusieurs combinaisons des modèles de classificaclassifica-tion. A partir de quelques exemples, le tableau 6.3 donne quelques distributions de possibilité (i.e. des fréquences) obtenues pour le POS avec les valeurs les plus couramment associées à l’attribut POS-1.
Valeur de POS-1 (ajL)
Valeur de POS (ci)
NOUN VERB_PERFECT NOUN_PROP ...
Occ(ajL, ci) Freq(ajL, ci) Occ(ajL, ci) Freq(ajL, ci) Occ(ajL, ci) Freq(ajL, ci)
PRP 1063.08 0.61 0156.33 0.14 158.16 0.16
VERB_PERFECT 1086.33 0.63 0641.99 0.59 868.33 0.90
NOUN 1718.75 1 1073.86 1 957.80 1
. . .
Table 6.3 – Exemples de nombres d’occurrences et des valeurs de fréquences pour la catégorie grammaticale POS associés à l’attribut POS-1.
Nous pouvons, également, extraire les relations de dépendance du POS avec d’autres attributs morphologiques. Le tableau 6.4 présente le gain d’information (IGJ) pour chaque attribut (Aj) en considérant la classe POS. Ces poids attestent que le POS d’un mot donné est plus lié aux POS des mots précédents et suivants que à d’autres attributs morphologiques. Nous affirmons que, pour lever l’ambiguïté du POS, nous devons invoquer le POS, le pronom et le déterminant des mots précédents et suivants. Ces attributs possèdent les gains d’informations les plus élevés. Cette hypothèse peut être linguistiquement prouvée. Ayant l’exemple suivant «
Ym. ' AÓ ð
CJʯ B @ H.A J«B@ QÔ g é JKYÖÏAK.
» (« Et nous ne trouvons à la Médine que rarement les raisins de cuve »). Nous essayons de désambiguïser le motQÔ g
(xmr), en utilisant seulement des informations sur le POS, le pronom et le déterminant des deux mots voisins.é JKYÖÏAK.
(bAlmdynp ; « à la Médine ») etH.A J«B@
(Al>nAb ; « raisins ») sontCHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA
tous les deux des noms, qui ont un déterminant et ne contiennent pas de pronoms. Ils sont précédés par un verbe, qui est
Ym. '
(njd ; « nous trouvons »). Noussélec-tionnons principalement le nom (NOUN) comme un POS pour le mot
QÔ g
.Quant aux autres attributs morphologiques, nous présentons dans le tableau 6.5, les trois premières valeurs du gain d’information de chaque attribut. Ces valeurs sont affectées aux attributs les plus discriminants de chaque catégorie. Nous remarquons que les attributs les plus liés sont ceux des mots adjacents ; le mot précédant et le mot suivant. En outre, nous pouvons remarquer que tous les attributs disponibles dépendent du POS, puisque au moins un attribut est associé avec le POS apparaît dans la liste des gains d’information les plus élevés. Ce fait est évident puisque le POS détermine la catégorie grammaticale du mot sur lequel les autres attributs se basent. Nous justifions, une fois de plus, la relation étroite entre le POS, le pronom et le déterminant. Comme nous le savons, les déterminants ne sont applicables que pour les noms et le pronom dépend de la catégorie grammaticale POS (verbe, nom ou particule).
Aj IGJ Aj IGJ Aj IGJ Aj IGJ Aj IGJ
POS-1 0.2790 VOICE+1 0.0893 PREPOSITION+1 0.0538 PRONOUN+1 0.2859 ADJECTIVE+1 0.0098
POS+1 0.2780 VOICE-2 0.0403 PREPOSITION-1 0.0398 PRONOUN-1 0.1489 ADJECTIVE-1 0.0068
POS-2 0.1262 VOICE-1 0.0327 PREPOSITION+2 0.0249 PRONOUN-2 0.1316 ADJECTIVE-2 0.0063
POS+2 0.1265 VOICE+2 0.0120 PREPOSITION-2 0.0087 PRONOUN+2 0.1226 ADJECTIVE+2 0.0021
MODE+1 0.0180 GENDER+1 0.0504 DETERMINER-1 0.1284 PERSON+1 0.0939 PARTICULE-1 0.0401
MODE-1 0.0513 GENDER+2 0.0367 DETERMINER+1 0.1118 PERSON-1 0.0447 PARTICULE+1 0.0073
MODE-2 0.0484 GENDER-1 0.0076 DETERMINER+2 0.0634 PERSON-2 0.0268 PARTICULE+2 0.0070
MODE+2 0.0344 GENDER-2 0.0052 DETERMINER-2 0.0525 PERSON+2 0.0134 PARTICULE-2 0.0631
CASE+1 0.1547 ASPECT+1 0.1160 CONJUNCTION+1 0.0902 NUMBER+1 0.0444
CASE-1 0.0681 ASPECT-2 0.0509 CONJUNCTION+2 0.0204 NUMBER+2 0.0307
CASE-2 0.0608 ASPECT-1 0.0371 CONJUNCTION-1 0.0175 NUMBER-1 0.0059
CASE+2 0.0277 ASPECT+2 0.0177 CONJUNCTION-2 0.0101 NUMBER-2 0.0055
CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA
Attribut Aj IGj Attribut Aj IGj Attribut Aj IGj
ADJECTIVE PRONOUN+1 0.0096 PARTICULE PRONOUN+1 0.0484 CASE POS-1 0.1546
POS-1 0.0084 POS+1 0.0422 PRONOUN-1 0.0928
PRONOUN-1 0.0073 ASPECT+1 0.0358 POS+1 0.0679
CONJUNCTION POS-1 0.0898 DETERMINER POS+1 0.0012 ASPECT POS-1 0.1234
DETERMINER-1 0.0752 PRONOUN+1 0.1249 PRONOUN+2 0.0598
PRONOUN-1 0.0069 POS-1 0.1118 PRONOUN-1 0.0588
PRONOUN POS-1 0.2859 PERSON POS-1 0.1000 NUMBER PRONOUN-1 0.0767
POS+1 0.1491 CASE+1 0.0580 PRONOUN-2 0.0570
POS+2 0.1319 PRONOUN-1 0.0485 POS-1 0.0460
VOICE POS-1 0.0953 PREPOSITION POS-1 0.0537 MODE POS-1 0.0179
PRONOUN-1 0.0489 POS+1 0.0396 PARTICULE-1 0.0126
PRONOUN+2 0.0483 PRONOUN+1 0.0278 PRONOUN+2 0.0583
GENDER
PRONOUN-1 0.0634
POS-1 0.0526
PRONOUN-2 0.0471
Table 6.5 – Les trois plus grandes valeurs des gains d’information de chaque at-tribut morphologique.
Enfin, nous présentons dans le tableau 6.6 les taux de désambiguïsation (Disam-biguation Rate - DR) pour tous les attributs en utilisant toutes les combinaisons de modèles de classification. Nous obtenons six combinaisons ; soit six classifieurs. Π , N et N + Π dénotent que nous utilisons, respectivement, la possibilité, la nécessité et la somme des deux mesures. « Sans pondération » et « avec repondération » déter-minent le fait d’inclure ou non le gain d’information dans les mesures de possibilité et de nécessité (voir les formules 4.21 et 4.22 page 96). Nous calculons, également, la différence entre les résultats des cinq derniers modèles avec le classificateur de base (DB). Par exemple, le pourcentage d’amélioration du classifieur de base (Π) par rapport au modèle utilisant seulement la mesure de nécessité (N) est égal à 0,61% du taux de désambiguïsation du POS. Les expérimentations montrent que la plupart des attributs sont étroitement interdépendants. Ils fournissent souvent plus de 70% de taux de désambiguïsation. Pour la plupart des attributs, les taux d’amé-lioration obtenus par la mesure Π sont meilleurs que ceux donnés par la mesure N. La somme des deux mesures donne de meilleurs résultats. Cela peut s’expliquer par le phénomène de l’ordre libre des mots arabes [Attia, 2008,Keskes et al., 2013]. Ainsi, les valeurs d’un attribut donné (un attribut d’un mot précédent ou un mot suivant) seront distribuées d’une façon égale sur les valeurs de la classe.
L’utilisation du gain d’information a augmenté les taux de désambiguïsation pour les trois mesures, sauf pour certaines valeurs de possibilité ou/et de nécessité de certains attributs comme par exemple N-CONJUNCTION, N-DETERMINER, N- PERSON, Π-PERSON, Π-NUMBER et N-MODE. Cette détérioration des taux est mineure et ne dépasse pas 0,47%. Les moyennes globales des taux de tous les
CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA
attributs donnent des valeurs élevées lors de l’utilisation du gain de l’information, ce qui montre l’utilité de ce modèle. Pour comparer les six classifieurs en termes du taux de désambiguïsation (DR), nous utilisons le test des rangs signés de Wilcoxon pour échantillons appariés (Wilcoxon Matched-Pairs Signed-Ranks test) proposé par Demsar [Demsar, 2006] et utilisé par Bounhas et al. [Bounhas et al., 2013]. Il est une alternative non paramétrique de t-test apparié qui nous permet de comparer deux classifieurs en se basant sur plusieurs attributs. Les valeurs indiquées sont calculées en comparant le classifieur (Π + N) avec pondération avec les cinq autres classifieurs restants.
Les résultats de la comparaison donnés dans le tableau 6.7 montrent que le classifieur (Π + N) avec pondération est significativement meilleur (p <0.05) que les cinq autres classifieurs pour tous les attributs.
Attribut morpholo-gique
Sans pondération Avec pondération
Π N Π + N Π N Π + N DR DR DB DR DB DR DB DR DB DR DB POS 90.95% 90.34% -0.61% 90.34% -0.61% 91.16% +0.21% 90.52% -0.43% 90.93% -0.02% CONJUNCTION 87.92% 81.72% -6.20% 82.74% -5.18% 88.98% +1.06% 81.67% -6.25% 91.07% +3.15% PARTICLE 96.91% 98.87% +1.96% 98.87% +1.96% 98.46% +1.55% 98.87% +1.96% 98.87% +1.96% DETERMINER 94.95% 95.12% +0.17% 95.33% +0.38% 95.12% +0.17% 94.90% -0.05% 96.93% +1.98% PRONOUN 59.10% 59.56% +0.46% 58.79% -0.31% 59.56% +0.46% 59.56% +0.46% 59.56% +0.46% PERSON 65.21% 64.91% -0.30% 65.22% +0.01% 64.91% -0.30% 64.63% -0.58% 65.28% +0.07% VOICE 78.75% 78.80% +0.05% 79.05% +0.30% 79.16% +0.41% 78.81% +0.06% 79.11% +0.36% ASPECT 76.49% 76.89% +0.40% 79.19% +2.70% 77.27% +0.78% 76.91% +0.42% 81.30% +4.81% GENDER 92.11% 89.55% -2.56% 93.66% +1.55% 93.74% +1.63% 95.05% +2.94% 95.62% +3.51% NUMBER 91.25% 86.56% -4.69% 90.91% -0.34% 90.78% -0.47% 90.21% -1.04% 92.41% +1.16% CASE 59.49% 59.57% +0.08% 63.36% +3.87% 59.61% +0.12% 59.63% +0.14% 63.52% +4.03% PREPOSITION 85.61% 85.57% -0.04% 85.80% +0.19% 85.70% +0.09% 85.70% +0.09% 85.80% +0.19% MODE 99.93% 99.96% +0.03% 99.96% +0.03% 99.96% +0.03% 99.93% 00.00% 99.96% +0.03% ADJECTIVE 97.58% 96.86% -0.72% 97.63% +0.05% 97.71% +0.13% 97.88% +0.30% 99.00% +1.42% Moyenne 84.02% 83.16% -0.86% 84.35% +0.33% 84.44% +0.42% 83.88% -0.14% 85.67% +1.65%
Table 6.6 – Les taux de désambiguïsation des attributs morphologiques en utilisant toutes les combinaisons de modèles de classification.
(Π+N) avec pondération versus (Π+N) sans pondération (Π+N) avec pondération versus (Π) sans pondération (Π+N) avec pondération versus (N) sans pondération (Π+N) avec pondération versus (Π) avec pondération (Π+N) avec pondération versus (N) avec pondération p= 0.003330 p= 0.001225 p=0.003346 p=0.005077 p= 0.002218
Table 6.7 – Les p-valeurs du test des rangs signés de Wilcoxon pour les échantillons appariés
CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA