Validation de l’approche de désambiguïsation possibiliste dis-

6.1 Validation des approches de désambiguïsation morphologique possi-

6.1.3 Validation de l’approche de désambiguïsation possibiliste dis-

Nous présentons les résultats préliminaires qui ont montré une grande précision du classifieur possibiliste de base [Bounhas et al., 2015a,Bounhas et al., 2015b]. Ils nous ont permis d’étudier la dépendance au domaine de notre classifieur. Cepen-dant, nous devons aussi évaluer notre classifieur discriminant possibiliste, le modèle de pondération et l’effet de l’introduction de la possibilité lexicale.

Nos travaux dans [Bounhas et al., 2015a,Bounhas et al., 2015b] sont axés sur le classifieur possibiliste de base qui utilise uniquement la mesure de possibilité pour déterminer la classe la plus plausible. Il donne un poids uniforme pour tous les attributs impliqués dans le processus de classification. Nous discernons dans cette section notre classifieur discriminant possibiliste et le modèle de pondération. Nous fournissons des détails sur le processus d’apprentissage et les taux de classifica-tion obtenus avec plusieurs combinaisons des modèles de classificaclassifica-tion. A partir de quelques exemples, le tableau 6.3 donne quelques distributions de possibilité (i.e. des fréquences) obtenues pour le POS avec les valeurs les plus couramment associées à l’attribut POS-1.

Valeur de POS-1 (ajL)

Valeur de POS (ci)

NOUN VERB_PERFECT NOUN_PROP ...

Occ(ajL, ci) Freq(ajL, ci) Occ(ajL, ci) Freq(ajL, ci) Occ(ajL, ci) Freq(ajL, ci)

PRP 1063.08 0.61 0156.33 0.14 158.16 0.16

VERB_PERFECT 1086.33 0.63 0641.99 0.59 868.33 0.90

NOUN 1718.75 1 1073.86 1 957.80 1

. . .

Table 6.3 – Exemples de nombres d’occurrences et des valeurs de fréquences pour la catégorie grammaticale POS associés à l’attribut POS-1.

Nous pouvons, également, extraire les relations de dépendance du POS avec d’autres attributs morphologiques. Le tableau 6.4 présente le gain d’information (IGJ) pour chaque attribut (Aj) en considérant la classe POS. Ces poids attestent que le POS d’un mot donné est plus lié aux POS des mots précédents et suivants que à d’autres attributs morphologiques. Nous affirmons que, pour lever l’ambiguïté du POS, nous devons invoquer le POS, le pronom et le déterminant des mots précédents et suivants. Ces attributs possèdent les gains d’informations les plus élevés. Cette hypothèse peut être linguistiquement prouvée. Ayant l’exemple suivant «

Ym. ' AÓ ð

CJÊ¯ B @ H.A J«B@ QÔ g é JK_YÖÏAK.

» (« Et nous ne trouvons à la Médine que rarement les raisins de cuve »). Nous essayons de désambiguïser le mot

_QÔ g

(xmr), en utilisant seulement des informations sur le POS, le pronom et le déterminant des deux mots voisins.

é JKYÖÏAK.

^{(bAlmdynp ; « à la Médine ») et}

H.A J«B@

(Al>nAb ; « raisins ») sont

CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA

tous les deux des noms, qui ont un déterminant et ne contiennent pas de pronoms. Ils sont précédés par un verbe, qui est

Ym. '

_{(njd ; « nous trouvons »). Nous}

sélec-tionnons principalement le nom (NOUN) comme un POS pour le mot

_QÔ g

Quant aux autres attributs morphologiques, nous présentons dans le tableau 6.5, les trois premières valeurs du gain d’information de chaque attribut. Ces valeurs sont affectées aux attributs les plus discriminants de chaque catégorie. Nous remarquons que les attributs les plus liés sont ceux des mots adjacents ; le mot précédant et le mot suivant. En outre, nous pouvons remarquer que tous les attributs disponibles dépendent du POS, puisque au moins un attribut est associé avec le POS apparaît dans la liste des gains d’information les plus élevés. Ce fait est évident puisque le POS détermine la catégorie grammaticale du mot sur lequel les autres attributs se basent. Nous justifions, une fois de plus, la relation étroite entre le POS, le pronom et le déterminant. Comme nous le savons, les déterminants ne sont applicables que pour les noms et le pronom dépend de la catégorie grammaticale POS (verbe, nom ou particule).

Aj IGJ Aj IGJ Aj IGJ Aj IGJ Aj IGJ

POS-1 0.2790 VOICE+1 0.0893 PREPOSITION+1 0.0538 PRONOUN+1 0.2859 ADJECTIVE+1 0.0098

POS+1 0.2780 VOICE-2 0.0403 PREPOSITION-1 0.0398 PRONOUN-1 0.1489 ADJECTIVE-1 0.0068

POS-2 0.1262 VOICE-1 0.0327 PREPOSITION+2 0.0249 PRONOUN-2 0.1316 ADJECTIVE-2 0.0063

POS+2 0.1265 VOICE+2 0.0120 PREPOSITION-2 0.0087 PRONOUN+2 0.1226 ADJECTIVE+2 0.0021

MODE+1 0.0180 GENDER+1 0.0504 DETERMINER-1 0.1284 PERSON+1 0.0939 PARTICULE-1 0.0401

MODE-1 0.0513 GENDER+2 0.0367 DETERMINER+1 0.1118 PERSON-1 0.0447 PARTICULE+1 0.0073

MODE-2 0.0484 GENDER-1 0.0076 DETERMINER+2 0.0634 PERSON-2 0.0268 PARTICULE+2 0.0070

MODE+2 0.0344 GENDER-2 0.0052 DETERMINER-2 0.0525 PERSON+2 0.0134 PARTICULE-2 0.0631

CASE+1 0.1547 ASPECT+1 0.1160 CONJUNCTION+1 0.0902 NUMBER+1 0.0444

CASE-1 0.0681 ASPECT-2 0.0509 CONJUNCTION+2 0.0204 NUMBER+2 0.0307

CASE-2 0.0608 ASPECT-1 0.0371 CONJUNCTION-1 0.0175 NUMBER-1 0.0059

CASE+2 0.0277 ASPECT+2 0.0177 CONJUNCTION-2 0.0101 NUMBER-2 0.0055

CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA

Attribut Aj IGj Attribut Aj IGj Attribut Aj IGj

ADJECTIVE PRONOUN+1 0.0096 PARTICULE PRONOUN+1 0.0484 CASE POS-1 0.1546

POS-1 0.0084 POS+1 0.0422 PRONOUN-1 0.0928

PRONOUN-1 0.0073 ASPECT+1 0.0358 POS+1 0.0679

CONJUNCTION POS-1 0.0898 DETERMINER POS+1 0.0012 ASPECT POS-1 0.1234

DETERMINER-1 0.0752 PRONOUN+1 0.1249 PRONOUN+2 0.0598

PRONOUN-1 0.0069 POS-1 0.1118 PRONOUN-1 0.0588

PRONOUN POS-1 0.2859 PERSON POS-1 0.1000 NUMBER PRONOUN-1 0.0767

POS+1 0.1491 CASE+1 0.0580 PRONOUN-2 0.0570

POS+2 0.1319 PRONOUN-1 0.0485 POS-1 0.0460

VOICE POS-1 0.0953 PREPOSITION POS-1 0.0537 MODE POS-1 0.0179

PRONOUN-1 0.0489 POS+1 0.0396 PARTICULE-1 0.0126

PRONOUN+2 0.0483 PRONOUN+1 0.0278 PRONOUN+2 0.0583

GENDER

PRONOUN-1 0.0634

POS-1 0.0526

PRONOUN-2 0.0471

Table 6.5 – Les trois plus grandes valeurs des gains d’information de chaque at-tribut morphologique.

Enfin, nous présentons dans le tableau 6.6 les taux de désambiguïsation (Disam-biguation Rate - DR) pour tous les attributs en utilisant toutes les combinaisons de modèles de classification. Nous obtenons six combinaisons ; soit six classifieurs. Π , N et N + Π dénotent que nous utilisons, respectivement, la possibilité, la nécessité et la somme des deux mesures. « Sans pondération » et « avec repondération » déter-minent le fait d’inclure ou non le gain d’information dans les mesures de possibilité et de nécessité (voir les formules 4.21 et 4.22 page 96). Nous calculons, également, la différence entre les résultats des cinq derniers modèles avec le classificateur de base (DB). Par exemple, le pourcentage d’amélioration du classifieur de base (Π) par rapport au modèle utilisant seulement la mesure de nécessité (N) est égal à 0,61% du taux de désambiguïsation du POS. Les expérimentations montrent que la plupart des attributs sont étroitement interdépendants. Ils fournissent souvent plus de 70% de taux de désambiguïsation. Pour la plupart des attributs, les taux d’amé-lioration obtenus par la mesure Π sont meilleurs que ceux donnés par la mesure N. La somme des deux mesures donne de meilleurs résultats. Cela peut s’expliquer par le phénomène de l’ordre libre des mots arabes [Attia, 2008,Keskes et al., 2013]. Ainsi, les valeurs d’un attribut donné (un attribut d’un mot précédent ou un mot suivant) seront distribuées d’une façon égale sur les valeurs de la classe.

L’utilisation du gain d’information a augmenté les taux de désambiguïsation pour les trois mesures, sauf pour certaines valeurs de possibilité ou/et de nécessité de certains attributs comme par exemple N-CONJUNCTION, N-DETERMINER, N- PERSON, Π-PERSON, Π-NUMBER et N-MODE. Cette détérioration des taux est mineure et ne dépasse pas 0,47%. Les moyennes globales des taux de tous les

CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA

attributs donnent des valeurs élevées lors de l’utilisation du gain de l’information, ce qui montre l’utilité de ce modèle. Pour comparer les six classifieurs en termes du taux de désambiguïsation (DR), nous utilisons le test des rangs signés de Wilcoxon pour échantillons appariés (Wilcoxon Matched-Pairs Signed-Ranks test) proposé par Demsar [Demsar, 2006] et utilisé par Bounhas et al. [Bounhas et al., 2013]. Il est une alternative non paramétrique de t-test apparié qui nous permet de comparer deux classifieurs en se basant sur plusieurs attributs. Les valeurs indiquées sont calculées en comparant le classifieur (Π + N) avec pondération avec les cinq autres classifieurs restants.

Les résultats de la comparaison donnés dans le tableau 6.7 montrent que le classifieur (Π + N) avec pondération est significativement meilleur (p <0.05) que les cinq autres classifieurs pour tous les attributs.

Attribut morpholo-gique

Sans pondération Avec pondération

Π N Π + N Π N Π + N DR DR DB DR DB DR DB DR DB DR DB POS 90.95% 90.34% -0.61% 90.34% -0.61% 91.16% +0.21% 90.52% -0.43% 90.93% -0.02% CONJUNCTION 87.92% 81.72% -6.20% 82.74% -5.18% 88.98% +1.06% 81.67% -6.25% 91.07% +3.15% PARTICLE 96.91% 98.87% +1.96% 98.87% +1.96% 98.46% +1.55% 98.87% +1.96% 98.87% +1.96% DETERMINER 94.95% 95.12% +0.17% 95.33% +0.38% 95.12% +0.17% 94.90% -0.05% 96.93% +1.98% PRONOUN 59.10% 59.56% +0.46% 58.79% -0.31% 59.56% +0.46% 59.56% +0.46% 59.56% +0.46% PERSON 65.21% 64.91% -0.30% 65.22% +0.01% 64.91% -0.30% 64.63% -0.58% 65.28% +0.07% VOICE 78.75% 78.80% +0.05% 79.05% +0.30% 79.16% +0.41% 78.81% +0.06% 79.11% +0.36% ASPECT 76.49% 76.89% +0.40% 79.19% +2.70% 77.27% +0.78% 76.91% +0.42% 81.30% +4.81% GENDER 92.11% 89.55% -2.56% 93.66% +1.55% 93.74% +1.63% 95.05% +2.94% 95.62% +3.51% NUMBER 91.25% 86.56% -4.69% 90.91% -0.34% 90.78% -0.47% 90.21% -1.04% 92.41% +1.16% CASE 59.49% 59.57% +0.08% 63.36% +3.87% 59.61% +0.12% 59.63% +0.14% 63.52% +4.03% PREPOSITION 85.61% 85.57% -0.04% 85.80% +0.19% 85.70% +0.09% 85.70% +0.09% 85.80% +0.19% MODE 99.93% 99.96% +0.03% 99.96% +0.03% 99.96% +0.03% 99.93% 00.00% 99.96% +0.03% ADJECTIVE 97.58% 96.86% -0.72% 97.63% +0.05% 97.71% +0.13% 97.88% +0.30% 99.00% +1.42% Moyenne 84.02% 83.16% -0.86% 84.35% +0.33% 84.44% +0.42% 83.88% -0.14% 85.67% +1.65%

Table 6.6 – Les taux de désambiguïsation des attributs morphologiques en utilisant toutes les combinaisons de modèles de classification.

(Π+N) avec pondération versus (Π+N) sans pondération (Π+N) avec pondération versus (Π) sans pondération (Π+N) avec pondération versus (N) sans pondération (Π+N) avec pondération versus (Π) avec pondération (Π+N) avec pondération versus (N) avec pondération p= 0.003330 p= 0.001225 p=0.003346 p=0.005077 p= 0.002218

Table 6.7 – Les p-valeurs du test des rangs signés de Wilcoxon pour les échantillons appariés

CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA

Dans le document Désambiguïsation Morphologique de Textes Arabes à Base de Classification Possibiliste pour la Recherche d'Information Socio-Sémantique (Page 160-164)

Validation de l’approche de désambiguïsation possibiliste dis-

6.1 Validation des approches de désambiguïsation morphologique possi-

6.1.3 Validation de l’approche de désambiguïsation possibiliste dis-

Ym. ' AÓ ð

CJÊ¯ B @ H.A J«B@ QÔ g é JKYÖÏAK.

QÔ g

é JKYÖÏAK.

H.A J«B@

Ym. '

QÔ g

Ym. ' AÓ ð

CJÊ¯ B @ H.A J«B@ QÔ g é JK_YÖÏAK.

_QÔ g

é JKYÖÏAK.

Ym. '

_QÔ g