Problématique - Métriques d’évaluation - Extraction et Complétion de Terminologies Multilingues

7.2 Métriques d’évaluation

7.2.1 Problématique

Comme nous l’avons vu à la section précédente, l’obtention d’un score d’évaluation est envisageable en comparant les étiquettes proposées par un modèle (entraîné sur les parties

train+dev.) appliqué à la portion de test aux étiquettes de références pour cette même por-

tion.

Cette comparaison peut être binaire (un terme est correct ou pas), et il s’agira juste dans ce cas de déterminer ce qui a été bien deviné, le bruit récupéré (lorsque les candidats termes ne sont pas corrects) et les silences (lorsque des termes corrects ne sont pas détectés par le sys- tème). Dans ce cas, les notions traditionnelles deprécision et rappel peuvent s’appliquer, ainsi

que d’autres mesures d’évaluation comme l’exactitude, la spéciﬁcité, etc. (Manning & Schütze,

1999). La figure 7.1 (a) représente, dans le cas binaire, les possibilités de comparer, pour une classe, les données de référence et les données prédites.

Figure 7.1 – Diagrammes ((a) adapté de (Manning & Schütze, 1999, p.268)) motivant les mesures deprécision et rappel. Appliqué à l’évaluation de candidats termes, tout ce qui a été

correctement deviné, les vrais positifs (vp) se situent dans l’intersection des ensembles de réfé- rence et d’hypothèse. Les éléments exclusivement dans l’ensemble de référence, les faux néga- tifs (f n), n’ont pas été devinés par le système. À l’inverse, les éléments présents exclusivement dans l’ensemble d’hypothèse sont des faux positifs (f p), devinés à tort. Enfin, tous les éléments ne faisant pas partie de l’union des deux ensembles sont des vrais négatifs (vn).

(a) Cas binaire (a) Gradient

7.2. MÉTRIQUES D’ÉVALUATION 125

P = vp

vp + f p R = vp vp + f n

Une comparaison binaire souffre toutefois d’un biais négatif concernant l’évaluation de candidats termes par rapport à une référence. Tout d’abord, dans les typologies consacrées aux variations de termes (notamment Daille (2005), mais aussi Jacquemin (1999), et Savary (2000) parmi d’autres) 6, sont recensées les variations orthographiques (proactif /pro-actif ), morpho-

logiques (uniformiser/uniformisation), morpho-syntaxiques (faire d économi /économiser)

et syntaxiques (développement personnel et développement professionnel/développement per- sonnel et professionnel). Au total, Daille (2005) indique que ces variations peuvent représen-

ter jusqu’à 35% des éléments d’une terminologie. Par ailleurs, Vivaldi & Rodríguez (2007) indiquent que pour leur expérience, des experts de domaine constituant une terminologie de référence se sont accordés uniquement sur 37% des termes choisis 7. Ces divergences peuvent par exemple survenir lorsque les experts et terminologues ne s’accordent pas sur la granularité à donner à la terminologie. Parce qu’il est impossible de recenser l’ensemble des variations de termes pour un domaine spécialisé mais non technique, il est courant que certains termes équi- valents n’apparaissent pas dans la terminologie de référence (travailler correctement / bien bosser). Il est donc impossible d’avoir une donnée terminologique de référence parfaite à tous

points de vue.

Ce « gradient d’adhésion », qui apparaît aussi bien pour la terminologie de référence que pour la terminologie candidate, est schématisé dans la figure 7.1 (b). Pour l’ensemble de référence (resp. d’hypothèse), les termes faisant consensus (resp. ayant un score de prédiction élevé) se trouvent au centre et les termes acceptables (resp. ayant un score de prédiction à la limite du refus) se trouvent en périphérie. Ces contours imprécis rendent une évaluation automatique des terminologies difficile.

Nazarenkoet al. (2009) ont dressé un bilan des tentatives qui ont été faites pour évaluer et

comparer des systèmes d’extraction terminologique monolingues, ou tout du moins des tâches s’en approchant. Parmi elles, l’initiative japonaise NTCIR 8 incluant l’évaluation binaire d’une tâche de reconnaissance de termes (TERMREC) (Kandoet al., 1999), jamais reconduite. Plus

récemment, la Campagne d’Évaluation des Systèmes d’Acquisition des Ressources Termino- 6. Dans ces typologies, c’est une approche quasi-wüsterienne du terme, dont les paradigmes syntaxiques et sémantiques sont très contrôlés, qui est entendue. Toutefois admettre la validité de ces variations relaxe le cadre formel des terminologies ainsi produites, en fonction des applications.

7. Vivaldi & Rodríguez (2007) font état de coefficients d’accord inter-annotateurskappa entre leurs trois

annotateurs très faibles :−0, 05, −0, 12 et 0, 31. Ils comparent ces chiffres au seuil optimal, selon Carletta (1996), de 0, 8.

8. NII Testbeds and Community for Information access Research, de l’Institut National d’Informatique du

126 CHAPITRE 7. PROTOCOLE D’ÉVALUATION

logiques (CESART) proposée par El Hadiet al. (2006) sur des corpus de domaines en français

(médical, éducation), a permis d’obtenir, pour sa tâche d’extraction terminologique, des scores sur différents critères : cinq valeurs d’acceptation, allant de la correspondance parfaite entre un candidat terme et un terme de référence à une correspondance partielle à différents de- grés. Cela a été fait en soumettant les résultats des systèmes en compétition à une évaluation manuelle menée par des experts, simplifiée par la mise à disposition d’une liste de termes de référence. Toutefois, ce mode d’évaluation est coûteux en temps, et demande par ailleurs la maîtrise parfaite de la langue concernée et du domaine pour évaluer les nuances. D’autres tentatives ont été faites, sur des tâches et avec des méthodes diverses. Nous renvoyons à Nazarenko

et al. (2009) pour un état de l’art détaillé.

Plus récemment, Mondaryet al. (2012) (inspirés par les propositions de Nazarenko &

Zargayouna (2009)) ont lancé une nouvelle initiative, à notre connaissance la plus aboutie car la plus objective et la mieux reproductible, dans le cadre du programmeQuæro. Elle a la triple

intention de mesurer à la fois, pour chaque système en compétition, la mise à l’échelle sur de grosses masses de textes (et du même coup, la stabilité des métriques utilisées), les progrès ef- fectués d’une version d’un système à une autre et l’influence du type de corpus sur les résultats. L’évaluation ne concerne que la tâche d’extraction terminologique monolingue, et aucune ac- tivité annexe comme le classement ou le regroupement de variantes. La comparaison se fait par rapport à une terminologie de référence, grâce à des métriques deprécision et de rappel

graduelles, adaptées à l’extraction terminologique. Parce que ces dernières semblent faire le lien entre évaluation binaire et évaluation manuelle en modélisant un gradient d’acceptation (fig. 7.1 (b)), c’est le cadre évaluatif dont nous avons souhaité nous rapprocher. Le détail des métriques pour le calcul des scores sera présenté dans la section 7.2.

7.2.2 Précision et rappel terminologiques de Nazarenko

et al.

(2009)

Dans le document Extraction et Complétion de Terminologies Multilingues (Page 149-151)