Évaluation de l’outil d’annotation rhétorique

Le développement de notre outil d’annotation rhétorique a subi deux versions. Dans une première version [Maaloul 2010a] de l’outil, la détection des relations rhétoriques repose exclu-sivement sur des frames rhétoriques basés sur des indices linguistiques.

La nouvelle version de cet outil [Maaloul 2012a], est plus "approfondie" que la première. En ce sens, l’outil est devenu capable de résoudre certains cas d’ambiguïtés liés à l’absence d’indices

8. http://duc.nist.gov/duc2005/quality-questions.txt

complémentaires au voisinage de l’indicateur déclencheur, et qui sont utiles à la confirmation du concept énoncé par l’indicateur déclencheur. Ainsi, l’amélioration se résume dans l’utilisa-tion des critères morphologiques qui ont montré leurs utilités dans le repérage des relal’utilisa-tions rhétoriques. D’autres, mis-à-jour, de moindre importance, mais tout aussi utiles, ont concerné l’ajout de fonctionnalités dans le but d’assigner un arbre RST personnalisé⁹ et par conséquent convenir au mieux aux besoins de l’utilisateur au moment de la sélection des phrases formant le contenu de l’extrait généré.

Dans cette section, nous allons évaluer les performances des frames rhétoriques basés sur des critères morphologiques dans la tâche d’assignation des relations rhétoriques. Les performances de l’outil d’annotation ont été testées pour cent articles de presse, pris au hasard, du corpus de test. La valeur relativement réduite du corpus de test s’explique par le coût élevé de l’analyse discursive, de qualité, des articles en terme de temps vu qu’elle se base sur une compréhension approfondie du contenu et du domaine traité dans le texte. Ainsi, moins le lecteur, l’expert dans notre cas, a des connaissances sur le domaine traité moins son exigence vis-à-vis de la lisibilité est forte, ce qui reflète par ailleurs la qualité, l’importance et le nombre de relations rhétoriques détectées.

Pour remédier au maximum à ce problème, nous avons choisi d’évaluer cet outil sur la base des jugements réalisés par deux linguistes. Ces derniers, ont annoté le corpus test en découpant les phrases, des articles, en segments et en associant, par la suite, à ces segments les rela-tions qui les relient. De même, et pour résoudre le problème de désaccord entre les jugements, nous avons utilisé l’indice statistique Kappa [Cohen 1960] afin de mesurer le degré d’accord inter-annotateur.

7.3.1 Protocole expérimental

Pour bien apprécier les performances de notre outil d’annotation rhétorique dans sa tâche de détection des relations rhétoriques, nous avons choisi de tester les résultats générés automatiquement avec ceux déterminés suite à des jugements donnés par deux experts.

Une mesure du degré d’accord est ainsi nécessaire pour déterminer la conformité de ces jugements donnés par les experts.

Le taux d’accord ou de "concordance" est estimé par le coefficient K Kappa défini par Cohen [Cohen 1960]. Ainsi, l’accord observé entre deux jugements est présenté par le coefficient KappaK qui est le pourcentage d’accord maximum corrigé de ce qu’il serait sous le simple effet du hasard. C’est un nombre réel, sans dimension, compris entre {-1} et {1} [Carletta 1996].

Le calcul d’accord entre deux observateurs statistiquement indépendants se présente comme

9. L’utilisateur peut modifier la position d’un item de l’arbre RST, élaborer une nouvelle relation de ce dernier avec un autre, etc.

suit :

K = P₀−P_e

1−P_e (7.6)

avec :

– P₀ : Le taux de concordance d’accord dans les réponses communes données par les deux experts.

– P_e: Le taux d’accord aléatoire ou concordance aléatoire, calculé par la somme des produits des normes de chaque classe de chaque expert, divisée par le carré du nombre total de réponses à ramener.

P_e = 1 N²

i=1

(n_i ∗n_i) (7.7)

où :

– r représente le nombre de modalités,

– n est le vecteur des proportions observées d’un tableau de contingence à r modalités, et – N est le nombre total de réponses à ramener.

Selon les expériences de Landis et Koch [Landis 1977], ils ont pu déduire un échelle de classement pour l’indice kappa (K) afin de juger le degré d’accord (voir tableau 7.2).

Tableau 7.2 – Degré d’accord et valeur de Kappa proposés par Landis et Koch [Landis 1977]

Accord Kappa

Excellent accord 0,81 ≤K ≤ 1,00 Bon accord 0,61 ≤K ≤ 0,80 Accord modéré 0,41 ≤K ≤ 0,60 Accord médiocre 0,21 ≤K ≤ 0,40 Mauvais accord 0,00 ≤K ≤ 0,20 Très mauvais accord -1 ≤K ≤0,00

Dans notre expérimentation, l’indice Kappa (K) moyen¹⁰ est de 0,78 %, ce qui correspond à un bon accord d’après l’échelle de Landis et Koch.

. dAr Al.hyAT .

10. L’indice Kappa moyen est déterminé à partir de la moyenne des indices Kappa obtenus par l’application de l’équation7.6sur les cent articles de presse du corpus test

7.3.2 Apport de l’étiquetage morphologique dans l’annotation rhéto-rique

Afin d’évaluer l’importance de l’annotation rhétorique proposée dans le chapitre 4, nous avons procédé à l’évaluation de la performance et la pertinence de cette dernière à l’aide d’une étude comparative qui met en jeu les résultats générés par notre système avec ceux des deux experts. Signalons que cette évaluation est réalisée par la première version (V₁) de notre outil d’annotation [Maaloul 2010a] qui repose uniquement sur des frames rhétoriques basés sur des indices linguistiques.

Le tableau7.3 des résultats des performances de l’outil d’annotation rhétorique, permet de pré-senter le nombre de relations rhétoriques trouvées par les experts humains (E), le nombre total de relations rhétoriques trouvées par l’outil d’annotation version 1 (D), le nombre de relations rhétoriques correctement trouvées par l’outil d’annotation version version 1 (C). De même, pour la deuxième version (V₂) de l’outil d’annotation qui repose sur des frames rhétoriques basés sur des indices linguistiques et des critères morphologiques (voir paragraphe 4.3 du chapitre 4).

Le tableau 7.3 se lit ligne par ligne comme suit :

Sur cent documents comportant 2083 relations rhétoriques déduites par les experts, l’outil d’an-notation version (V₁) a détecté 945 relations parmi lesquelles 646 relations sont correctement déduites, 299 relations ont été déduites en tant que relations différentes à celles présentées par les experts, se qui donne un pourcentage de performance de 31.01%, etc.

Tableau 7.3 – Résultats des performances de l’outil d’annotation rhétorique Experts humains Outil d’annotation V1 Outil d’annotation V2

(E) (D) (C) (D) (C)

2083 945 646 1181 811

Pourcentage de performance 31.01% 38.93%

Les résultats de l’évaluation de l’outil d’annotation, montrent clairement l’apport des frames rhétoriques basés sur des critères morphologiques dans la tâche d’annotation des relations rhé-toriques. Nous remarquons ainsi, que le pourcentages des relations correctement déduites s’élève à un taux de 38.93% avec une augmentation de 7,92% par rapport à la première version qui utilise uniquement des frames rhétoriques basés sur des indices linguistiques.

Toutefois, nous pouvons remarquer que l’utilisation des frames rhétoriques basés sur des cri-tères morphologiques augmente le nombre de relations détectées par 236 relations, dont 165 relations correctement déduites, ce qui implique que 69,91% des nouvelles relations déduites sont correctes.

Dans le document Approche hybride pour le résumé automatique de textes. Application à la langue arabe. (Page 133-137)