Organisation des corpus pour l’évaluation

6.2 Annotation des corpus

7.1.1 Organisation des corpus pour l’évaluation

La nature de l’algorithme d’apprentissage, en l’occurrence ici les CRF, impose de scinder les données de référence en trois parties pour l’entraînement d’un modèle et l’estimation de ses performances :

— une partieapprentissage (ci-après train), qui va entraîner un modèle,

— une partiedéveloppement (ci-après dev.), qui va permettre aux CRF d’ajuster les para-

mètres du modèle entraîné sur la partieapprentissage,

2. Un exemple correspond à une unité de traitement (token informé, UTE modérée ou franche selon l’expé- rience) à laquelle est associée un ensemble de traits et une étiquette de classe (B, I, L, U ou O).

7.1. PROTOCOLE EXPÉRIMENTAL 121 — une partietest dont les données n’ont jamais été vues par l’algorithme d’apprentissage.

Le modèle entraîné sur les partiestrain+dev. est appliqué à la portion de test. Les

étiquettes alors obtenues sont comparées aux données de références pour l’obtention d’un score d’évaluation.

Le tableau 7.1 (p. 119) présentait les tailles des différents corpus. Certains corpus, comme ce- lui de l’arabe, sont trop petits pour pouvoir à la fois entraîner un modèle et estimer correctement ses performances en une seule fois. La section 7.1.1.1 indique comment, pour sur- monter ce problème de manque de données de référence, il est possible d’effectuer des ré- échantillonnages sur ces dernières, notamment par validation croisée.

La section suivante (7.1.1.2) évoquera la question de l’incidence du déséquilibre entre le nombre d’exemples positifs (étiquetés B, I, L ou U ) et négatifs (étiquetés O) dans nos données (c.f. tableau 7.2).

7.1.1.1 Ré-échantillonage

Lorsque qu’il y a suffisamment de données de références, un découpage aléatoire de ces données en trois fragments mutuellement exclusifs (train, dev. et test) éventuellement de

tailles équivalentes permet d’obtenir une estimation fiable de la qualité du modèle. Cette mé- thode est appelée «holdout » (Maimon & Rokach, 2005, p. 293). Il est possible de répéter

la méthodeholdout plusieurs fois, avec des découpages différents afin de calculer un score

moyen, plus fiable. Or cette option est proscrite dans notre cas car nous ne sommes pas certains de disposer de corpus suffisamment volumineux.

Parmi les méthodes disponibles pour remédier à cette limitation, la plus populaire (Rao

et al., 2008) est la validation croisée. Il s’agit d’un cas particulier de la méthode holdout ré-

pétée, pour lequel les portions detest ne se recouvrent jamais d’une itération à l’autre. Les

données sont découpées en k parties mutuellement exclusives. Un modèle est entraîné sur

k− 2 portions de train et une portion de dev., et testé sur une portion de test. Cette opéra-

tion est réalisée k fois, avec chaque fois des partiesdev. et test différents. Plus la valeur de k est

grande, meilleure est l’estimation du score 3. Kohaviet al. (1995) indiquent qu’en dessous de k = 10, les estimations de scores tendent à souffrir plus d’un biais pessimiste. Avec k = 10, les estimations sont raisonnablement bonnes, et à partir de k = 20, ces dernières ne semblent plus souffrir aucun biais.

En ce qui nous concerne, pour des questions de temps de traitement, nous avons choisi k = 10pour l’évaluation.

3. Un cas particulier également populaire de validation croisée, laleave-one-out cross-validation (abrégée

LOOCV), consiste à réduire l’échantillontest à un seul exemple à classifier, et à utiliser le reste des exemples pour

122 CHAPITRE 7. PROTOCOLE D’ÉVALUATION

De la même façon, la normalisation et la discrétisation 4 des valeurs effectuées lors de la phase de pré-traitement numérique émancipe ces traits de certains paramètres liés aux corpus (comme leur taille) ce qui rend global le calcul des traits. Nous avons fait le choix d’utiliser les traits calculés sur l’ensemble du corpus d’évaluation pour chaque sous-corpus de l’évaluation croisée. Nous nous attendons à ce que ce choix n’ait pas une influence considérable sur les scores d’évaluation.

7.1.1.2 Rééquilibrage des corpus

Le tableau 7.2 (p. 120) présente le nombre d’instances par étiquette dans chacun des corpus de spécialité. La distribution des classes n’est pas uniforme, et certaines étiquettes sont même extrêmement rares en comparaison de la classe majoritaire : les exemples étiquetés I apparaissent en moyenne 0,26% du temps alors que les exemples négatifs (étiquetés O) repré- sentent en moyenne près de 80% des exemples d’entraînement.

Il s’agit d’un problème courant lorsqu’on est confronté à des données réelles. L’ennui réside dans le fait que l’algorithme d’apprentissage automatique est conçu pour maximiser le nombre global d’étiquettes bien devinées, nombre sur lequel les classes disposant de peu d’exemples ont une influence quasi nulle. Par exemple, dans un cas de classification binaire pour lequel les exemples positifs représentent moins de 1% du nombre total d’exemples, il suffira à l’algorithme de ne pas les prendre en compte pour espérer obtenir un taux d’exemples correctement classifiés d’au moins 99%.

Visa & Ralescu (2005) et Mollineda & Sotoca (2007) entre autres ont proposé un état des lieux des solutions déjà envisagées dans la littérature pour tempérer cet inconvénient. Cer- taines pallient le problème directement au niveau de l’algorithme, en pondérant les classes de façon favorable ou non. D’autres scindent le problème, en le réduisant à plusieurs classifica- tions binaires opposant les exemples majoritaires aux exemples minoritaires d’une seule classe à la fois et en appliquant un rééquilibrage sur les données restantes. Lerééquilibrage (« re- sampling » en anglais) est la famille de méthodes la plus couramment utilisée. Elle consiste à

modifier le ratio exemples positifs (rares) / exemples négatifs (majoritaires). On peut procé- der en ignorant certains exemples négatifs. En ce cas, une partie de l’information, qui peut être utile pour l’entraînement du modèle, est perdue. Cette option est appelée «down-sampling »

ou «under-sampling ». L’option inverse, appelée « up-sampling » ou « over-sampling »,

consiste à dupliquer des exemples minoritaires. Cela augmente la taille des données d’entraî- nement sans gain d’information supplémentaire, et peut avoir pour effet de bord un sur- 4. La discrétisation divise un certain univers en un nombre de segments. On peut donc voir la normalisation comme un cas particulier de discrétisation dans un univers normalisé, d’autant plus que l’on perd en précision en arrondissant.

7.1. PROTOCOLE EXPÉRIMENTAL 123 apprentissage 5. Il est également envisageable d’associerup-sampling et down-sampling. Il est

à noter toutefois qu’une distribution totalement équilibrée n’est pas une garantie d’améliora- tion (Provost, 2000), et que l’influence du déséquilibre dépend aussi de l’algorithme d’apprentissage utilisé. Concernant les CRF, il n’existe aucune étude spécifiquement dédiée à étudier l’influence du déséquilibre des données sur les performances des prédictions ; Toutefois, il y a des fortes présomptions, notamment d’après les constatations de Wanget al. (2011), que les

CRF y soient sensibles.

Pour ce qui concerne nos données d’apprentissage, notre stratégie dedown-sampling a

consisté à ne conserver que les exemples négatifs (étiquette O) se trouvant dans une fenêtre de 4 tokens autour d’un exemple positif dans la limite des frontières de phrases. Le choix de la taille de la fenêtre a notamment été dicté par la taille maximale des n-grams envisagés pour le calcul des traits (n = 3). La figure 7.3 présente le résultat de cette heuristique dedown- sampling, en terme de proportion des étiquettes dans le corpus d’entraînement rééquilibré.

Table 7.3 – Proportion des étiquettes pour les corpus d’entraînement pour l’évaluation, ré- équilibré pardown-sampling.

Proportion des classes (%)

B I L U O Langues (ISO) ara 1,33 0,07 1,33 20,55 76,73 deu 0,93 0,1 0,93 18,88 79,15 eng 2,06 0,34 2,06 21,5 74,03 fra 2,29 0,77 2,29 20,32 74,33 pol 1,2 0,11 1,2 23,27 74,23 tur 1,39 0,07 1,39 21,33 75,83 zho 4,41 0,72 4,41 21,33 75,83 Moyenne 1,94 0,3 1,94 21,03 74,77

Les données d’entraînement sont toujours très déséquilibrées, notamment en ce qui concerne les étiquettes B, I et L. Cependant, les étiquettes U dépassent quasiment toutes le cinquième du nombre d’exemples. Par ailleurs, d’un corpus à l’autre, les proportions sont plus compa- rables. Les expériences menées avec les données ainsi ré-équilibrées produisent des scores inté- ressants (voir notamment le chapitre suivant et résultats détaillés présentés dans l’annexe B), 5. Des variantes plus élaborées, comme la méthode SMOTE (Chawlaet al., 2002), permettent de générer

artificiellement des instances de classes minoritaires à partir d’exemples proches, et générer ainsi de l’information utile.

124 CHAPITRE 7. PROTOCOLE D’ÉVALUATION

c’est pourquoi nous avons jugé ce ré-équilibrage suffisant pour cette recherche.

Dans le document Extraction et Complétion de Terminologies Multilingues (Page 145-149)