Analyses comparatives fondées sur des données réelles

réelles

Afin d’illustrer la différence entre les mesures offertes par ETER et celles of-fertes par SER sur des données réelles, nous proposons ici une analyse compa-rative fondée sur l’interprétation des performances des systèmes de REN ayant participés à la campagne d’évaluation ETAPE [Galibert et al., 2014]. La tâche de 82

4.4.7 Analyses comparatives fondées sur des données réelles

reconnaissance d’entités nommées adoptée durant ETAPE est conforme aux règles définies durant le projet QUAERO. Pour la description détaillée du corpus ETAPE voir le chapitre 3.4. Le tableau 4.1 affiche les taux d’erreur mesurés par les deux métriques SER et ETER pour les différents participants de la campagne ETAPE, ainsi que les classements obtenus à partir de chacune des deux mesures.

Systèmes REN SER ETER

Taux d’erreur Classement Taux d’erreur Classement

REN-1 35,4 1 34,4 1 REN-2 38,0 4 35,5 2 REN-3 51,4 8 50,0 7 REN-4 36,4 2 40,4 5 REN-5 37,3 3 38,7 4 REN-6 39,2 5 37,9 3 REN-7 50,0 7 52,6 9 REN-8 56,4 9 50,1 8 REN-9 44,6 6 42,8 6 REN-10 85,6 10 81,4 10

TABLEAU 4.1 – Comparaison des mesures de taux d’erreur offertes par SER et ETER (avec α= 0,5) sur le test ETAPE

En comparant les mesures offertes par les deux métriques affichées dans le ta-bleau4.1, nous pouvons remarquer que pour tous les systèmes de REN, les taux d’erreur mesurés par ETER sont différents de ceux mesurés par SER. Nous pouvons noter également que pour certains systèmes de REN (REN-4, REN-5 et REN-7) le taux d’erreur mesuré par ETER est plus élevé que celui mesuré en utilisant le SER. Alors que d’autres (REN-1, REN-2, REN-3, REN-10...) affichent le comportement inverse. Par conséquent, les classements obtenus selon les mesures des deux mé-triques sont différents. Ces observations confirment que ETER et SER possèdent des comportements différents.

Pour mieux en comprendre les raisons, nous allons nous focaliser en détail sur l’analyse des performances de trois systèmes de REN (4, 5 et REN-8) montrant des comportements différents vis-à-vis des deux métriques et qui abordent la problématique de reconnaissance d’entité nommées avec des approches différentes :

• REN-4 : [Raymond, 2013], ce système ignore la structure des entités et considère que tous les slots types et composants sont complètement indé-pendants ;

• REN-5 : [Dinarelli et Rosset, 2012], ce système construit les arbres (entités) en deux étapes. Tout d’abord, un modèle CRF détecte les composants, et

CHAPITRE 4. NOUVELLE MÉTRIQUE POUR L’ÉVALUATION DES ENTITÉS STRUCTURÉES ET COMPOSITIONNELLES

puis un modèle PCFG applique des méthodes d’analyse afin de construire l’arborescence des entités ;

• REN-8 : [Hatmi et al., 2013], ce système ne prend pas la décomposition en compte et considère ainsi que tous les composants sont desname.

D I S SER ETER

REN-4 types 1 925 155 541 39,5 %

REN-4 composants 2 304 310 587 33,7 %

REN-4 tâche globale 4 229 465 1128 36,4 % 40,0 %

REN-5 types 1 476 543 888 41,0 %

REN-5 composants 2 092 525 589 33,7 %

REN-5 tâche globale 3 568 1 068 1 477 37,3 % 38,6 %

REN-8 types 1 511 290 818 37 %

REN-8 composants 4 295 266 2 908 69,7 %

REN-8 tâche globale 5 806 556 3 726 56,4 % 50 %

TABLEAU4.2 – Statistiques sur les types d’erreurs commises par les trois systèmes REN-4, REN-5 et REN-8, ainsi que les mesures de performance données par SER et ETER

Le tableau 4.2 affiche les résultats obtenus par ces trois systèmes. Nous pou-vons distinguer quatre mesures différentes :

• un SER calculé sur les slots types uniquement ;

• un SER calculé sur les slots composants uniquement ;

• un SER global calculé sur tous les slots types et composants ; • un ETER global calculé avec une valeur de α = 0, 5.

Pour essayer de comprendre les causes des comportements différents des deux métriques, nous allons nous intéresser aux performances des systèmes pour cha-cune des sous-tâches séparément. Une approche pour faire cela consiste à calculer le SER pour les slots types et les slots composants séparément. Nous pouvons voir dans le tableau4.2que REN-8 affiche un SER moins élevé sur les slots types (37,0 %) que sur les slots composants (69,7 %). Sur la tâche globale, ce même système obtient un ETER (50,0 %) moins élevé que le taux d’erreur donné par SER (56,4 %).

Les deux autres systèmes REN-4 et REN-5 affichent des SER moins élevés sur les slots composants (33,7 % et 33,7 %) que ceux calculés sur les slots types (39,5 % et 41,0 %). Contrairement au comportement de REN-8, ces deux systèmes ob-tiennent des ETER (40,0 % et 38,6%) plus élevés que les taux d’erreur donnés par SER (36,4 % et 37,3 %) sur la tâche globale.

Ces comportements sont dus à l’existence d’un biais dans les taux d’erreur me-surés par SER qui favorise les systèmes ayant des meilleures performances en 84

4.4.7 Analyses comparatives fondées sur des données réelles

Test-ETAPE Pourcentage

Nombre de slots types 5 954 40,8 %

Nombre de slots composants 8 627 59,2 %

Total 14 581 100%

TABLEAU4.3 – Description du corpus test ETAPE en termes de nombre de slots types et composants

décomposition (traitement des composants) par rapport à la classification (trai-tement des types). Ainsi, les systèmes ayant des bonnes performances en décom-position comme dans le cas de REN-4 et REN-5 auront un SER qui surestime leurs performances sur la tâche globale. Alors que les systèmes ayant des mauvaises performances en décomposition, comme dans le cas de REN-8, verront leurs per-formances abaissées sur la tâche globale.

Pour mieux comprendre la source de ce biais nous proposons d’étudier en détail le calcul fait par SER :

SER = Nombre de slots erronés

Nombre de slots dans la référence ^(4.18)

somme des erreurs de classification

z }| {

N bT

i=0

(erreur de type) +

somme des erreurs de décomposition

z }| {

N bC

j=0

(erreurs de composant) Nombre de slots dans la référence

(4.19) avec :

NbT : nombre de slots types dans l’hypothèse ; NbC : nombre de slots composants dans l’hypothèse ; NbC ≥ NbT.

Comme nous pouvons le voir dans le tableau 4.3, dans le cas des données réelles NbC est toujours supérieur à NbT (NbC est 1,5 fois plus grand que NbT). Par conséquent, l’utilisation d’une métrique qui comptabilise les erreurs par rap-port aux slots comme le fait le SER, conduit à une favorisation de la décomposition par rapport à la classification, et ce, à cause de la supériorité numérique des slots composants, introduisant ainsi un biais important lors de l’évaluation des perfor-mances des systèmes pour la tâche globale. Dans le cas de ETER les erreurs sont comptabilisées au niveau des entités et non pas au niveau des slots. L’utilisation de ETER avec un α = 0, 5 garantit un poids égal à la classification et à la décom-position indépendamment du nombre de slots concernés par chaque sous-tâche.

CHAPITRE 4. NOUVELLE MÉTRIQUE POUR L’ÉVALUATION DES ENTITÉS STRUCTURÉES ET COMPOSITIONNELLES 20 30

Dans le document Évaluation adaptative des systèmes de transcription en contexte applicatif (Page 100-104)