Difficultés liées à l’apprentissage automatique

3.2 Identification automatique des relations implicites : importance, complexité et

3.2.4 Difficultés liées à l’apprentissage automatique

3.2.4.1 Classification multiclasse

La tâche d’identification des relations discursives correspond à un problème de classification multiclasse. L’apprentissage multiclasse, où le nombre de concepts cibles C > 2, est réputé plus difficile que l’apprentissage binaire, où C = 2, puisque l’on doit apprendre plusieurs surfaces de séparation. Il existe différentes possibilités pour résoudre un problème multiclasse qui impliquent en général d’entraîner des classifieurs binaires ou d’optimiser un problème plus complexe. On peut distinguer deux grandes catégories d’algorithmes multiclasse, nous reprenons la terminologie de MOHRIet al. (2012).

Les algorithmes agrégés correspondent à la formulation d’un problème multiclasse en problèmes binaires, c’est-à-dire à la combinaison de plusieurs classifieurs binaires pour obtenir un système multiclasse en utilisant n’importe quel algorithme pour construire les classifieurs binaires. Dans ce cadre, on peut adopter trois types de stratégies pour lesquelles on apprend plusieurs classifieurs binaires indépendamment les uns des autres. La première stratégie consiste à apprendre pour chaque classe un classifieur qui la discrimine par rapport à toutes les autres classes, stratégie dite one-vs-all ou one-vs-rest. Cela nécessite donc la construction de C classifieurs. La prédiction se fait généralement en choisissant la classe ayant obtenu le score le plus haut. Si on note file classifieur

pour la classe i, 0  i  C, la fonction de prédiction pour une instance x en entrée du système peut s’écrire : f(x) = argmaxifi(x). Pour la seconde méthode, on cherche à discriminer les classes deux

à deux, on appelle cette stratégie one-vs-one ou all-vs-all. On construit alors C(C 1) classifieurs (ou C(C 1)

2 si on prend en compte un seul classifieur par paire de classes), donc, généralement, plus

de classifieurs que pour la stratégie précédente mais entraînés sur des données moins nombreuses. La prédiction se fait en faisant voter les différents classifieurs. Si on note fi,j le classifieur où i

correspond à la classe positive et j la classe négative (avec fj,i= fi,j), la prédiction peut se faire

en utilisant la fonction f(x) = argmax_i(P_i fi,j(x)). Une autre solution, appelée code correcteur

d’erreur (Error Correcting Code) consiste à assigner à chaque classe un code sous la forme d’un vecteur, originellement binaire : la tâche est alors de prédire un code et on assigne à l’instance la classe dont le code est le plus proche de celui qui a été prédit (DIETTERICHet BAKIRI, 1995 ;

ALLWEINet al., 2000).

Les algorithmes non combinés sont originellement conçus pour les problèmes multiclasse. C’est le cas de l’algorithme naïf bayésien ou des classifieurs par arbre de décision. On peut également proposer une formulation multiclasse d’un algorithme conçu pour le cas binaire. Par exemple, l’algorithme à vecteurs de support (SVM) a été adapté en passant par une modification du vecteur de paramètres qui devient une matrice contenant un vecteur de paramètres par classe, transformation similaire à la configuration multi-prototype proposée par CRAMMERet al. (2006) pour l’algorithme Passive

Aggressive. Pour ce dernier algorithme, notons cependant que le passage au multiclasse de CRAM-

MERet al. (2006) passe en fait par une formulation binaire puisque le problème d’optimisation

porte uniquement sur la classe prédite et la classe à prédire, laissant inchangés les paramètres pour les autres classes. Une extension exacte au cas multiclasse pour cet algorithme a été proposée par MATSUSHIMAet al. (2010). Pour l’algorithme de régression logistique, on appelle généralement

multinomial ou softmax la version correspondant à une version multiclasse qui est cependant assez rarement utilisée (KRISHNAPURAMet al., 2005).

La supériorité de l’une ou l’autre de ces méthodes n’est pas clairement établie, l’utilisation d’une simple stratégie comme one-vs-all pouvant conduire à des performances équivalentes à celles obtenues avec des méthodes plus complexes (RIFKIN et KLAUTAU, 2004), et chacune de ces

des relations implicites ont mis en jeu différents algorithmes parmi lesquels l’algorithme naïf bayésien est probablement le plus répandu. Plusieurs auteurs ont effet trouvé que cet algorithme permettait d’obtenir de meilleures performances, du moins pour des classifieurs binaires (PITLER

et al., 2009 ; RUTHERFORDet XUE, 2014). Lorsque la tâche est formulée en un problème multiclasse,

on a plus rarement une comparaison d’algorithmes et la stratégie multiclasse n’est pas souvent précisée : RUTHERFORDet XUE(2015) et LINet al. (2009) utilisent un algorithme par régression

logistique, WANGet al. (2012) utilisent l’algorithme naïf bayésien et un algorithme par arbre de

décision, le second se montrant généralement plus performant. Enfin, notons que LIet NENKOVA

(2014a) comparent un algorithme de type SVM et une stratégie de vote de multiple classifieurs binaires mais, comme nous le détaillerons dans la section 3.3.3, la comparaison ne nous semble ni très juste ni très claire.

3.2.4.2 Déséquilibre des classes

Les données implicites sont fortement déséquilibrées en termes de nombre d’exemples par classe, problème connu sous le terme de déséquilibre des classes. Dans ce cadre, les algorithmes de classification ont tendance à favoriser la ou les classes majoritaires et on obtient généralement des performances basses pour les classes peu représentées. Dans le cas extrême, le classifieur prédit tous les exemples vers la classe majoritaire ce qui peut correspondre à des performances qui semblent bonnes selon le score considéré.

Il existe différents types de déséquilibre (HEet GARCIA, 2009). Notamment, on peut considérer

que l’on a affaire à un véritable déséquilibre entre les classes quand la proportion est de l’ordre de 100 à 10 000 exemples dans la classe majoritaire contre 1 dans la classe minoritaire. Dans notre cas, on a plutôt un déséquilibre dit relatif : les instances des classes minoritaires sont rares relativement à la classe majoritaire. Selon HEet GARCIA(2009), la classe minoritaire peut être relativement

bien apprise dans le cas de déséquilibre relatif, ce qui suggère que le degré de déséquilibre n’est pas le seul facteur qui pose problème : la complexité des données est le premier facteur déterminant de la baisse de performance amplifiée par le déséquilibre. De plus, notons que les classes du PDTB correspondent à plusieurs sous-types eux-mêmes déséquilibrés. Cette situation correspond au déséquilibre intra-classe. A l’intérieur des classes, et notamment des classes minoritaires, on peut avoir des sous-concepts sous-représentés et qui seront donc difficiles à modéliser et à différencier d’une forme de bruit au sein du concept principal.

Différentes méthodes ont été proposées pour gérer le problème de déséquilibre des classes. Nous nous limitons ici à la description des stratégies mises en place dans les études sur l’identification des relations implicites, une bonne description des difficultés engendrées par cette configuration et des solutions existantes peut être trouvée dans (HEet GARCIA, 2009 ; HEet MA, 2013 ; WEISS,

2013). En théorie dans ce cas il faudrait pondérer les probabilités en sortie selon la distribution originelle pour reconstruire les probabilités correctes. En pratique, on ignore généralement cette pondération puisque cette modification permet d’améliorer les performances sur les classes rares généralement considérées comme plus importantes (STORKEY, 2009).

La première stratégie, la plus simple, consiste à agir directement au niveau des données. Elle consiste en un rééchantillonnage des exemples permettant de rééquilibrer les données, c’est-à-dire d’obtenir un corpus d’entraînement où toutes les classes sont représentées par le même nombre d’exemples. En général, dans le cas d’un classifieur binaire, la classe majoritaire est la classe négative, il semble rarement être envisagé d’avoir une classe positive majoritaire. Le sur-échantillonnage aléatoire (random oversampling) consiste à répliquer certains exemples de la classe minoritaire de manière aléatoire jusqu’à obtenir autant d’exemples que dans la classe majoritaire. Cette méthode mène potentiellement au problème de sur-entraînement car en dupliquant les exemples, on insiste sur

certaines caractéristiques des données auxquelles le classifieur finit par accorder trop d’importance. Le sous-échantillonnage aléatoire (random undersampling ou downsampling) consiste à supprimer des exemples de la classe majoritaire de manière aléatoire. Ceci peut conduire à rater certaines caractéristiques importantes de la classe majoritaire donc à obtenir une séparation des classes moins pertinente.

La deuxième stratégie envisagée dans la littérature consiste à attribuer un coût différent aux exemples proportionnel au nombre d’exemples dans la classe. Plus précisément, on définit un coût pour la prédiction erronée d’un exemple de la classe majoritaire en tant qu’exemple de la classe minoritaire et un coût pour le cas inverse. Le coût d’une erreur pour un exemple de la classe minoritaire est plus élevé que pour l’erreur inverse. L’objectif de l’apprentissage est alors de minimiser le coût total. On peut intégrer cette fonction de coût de diverses façons. Pour notre tâche, ce coût est intégré à la fonction objective de l’algorithme (LI et NENKOVA, 2014a ;

RUTHERFORD et XUE, 2014 ; RUTHERFORD et XUE, 2015). Par exemple, RUTHERFORD et XUE

(2015) utilisent un algorithme de régression logistique et pondèrent les instances en utilisant le poids suivant pour une instance i de la classe j avec n le nombre total d’instances dans le corpus et C ={c1, . . . , cj, . . . , c|C|} l’ensemble de classes :

wi,j= n

|C| ⇥ |cj|

Ainsi, dans un problème où une classe correspond à 10 exemples et la seconde classe à 100 exemples, les exemples de la première recevront un poids de 5, 5 et ceux de la seconde un poids de 0, 55 reflétant le fait qu’une erreur sur la classe minoritaire coûte 10 fois plus cher qu’une erreur sur la classe majoritaire forçant ainsi l’algorithme à porter plus d’attention aux exemples rares. La somme des poids pour toutes les instances d’une classe est la même pour toutes les classes :

|C]. Notons que le processus ressemble au sur-échantillonnage aléatoire, mais sans nécessiter de

duplication d’exemples, donc un entraînement plus long, et en permettant une optimisation qui reflète l’importance que l’on accorde à certains exemples.

Dans le cadre de données déséquilibrées, il faut porter une attention toute particulière à la mesure d’évaluation utilisée comme souligné dans (HEet GARCIA, 2009). L’exactitude micro-moyennée ou

plus simplement (micro-)exactitude, en particulier, peut donner une fausse idée des performances du classifieur. Dans le cas où le classifieur prédit tous les exemples comme appartenant à la classe majoritaire, l’exactitude correspond exactement à la proportion d’exemples de la classe majoritaire dans les données, système de référence dit de majorité. Même si cette valeur peut être élevée, un classifieur ayant ce comportement n’est généralement pas souhaitable. Nous verrons dans la section suivante que cette mesure est pourtant souvent rapportée. En général, elle n’est cependant pas la seule mesure donnée. Dans le cas de classifieurs binaires, la F1, généralement rapportée,

est déjà une meilleure métrique puisqu’elle correspond aux performances sur la classe positive, donc minoritaire, et fournit de plus un score global en combinant précision et rappel. Pour le cas multiclasse, les mesures macro-moyennées (macro-F1 macro-précision et macro-rappel), définies

comme la somme des mesures (respectivement F1, précision et rappel) pour chaque classe pondérée

par le nombre de classes, fournissent une alternative convenable à l’exactitude. 3.2.4.3 Éparpillement des données

L’éparpillement des données est un problème connu en TAL qui correspond à deux problèmes liés : on ne dispose que d’un nombre limité de données pour un problème complexe et les données sont représentées dans un espace de large dimensionnalité. La représentation des données dans un espace de grande dimensionnalité pose problème dans le sens où le nombre de données nécessaire

augmente avec le nombre de paramètres, on doit pouvoir observer chaque dimension suffisamment souvent, avoir suffisamment d’exemples avec les différentes combinaisons de dimensions possibles pour construire une bonne estimation des paramètres. Ce problème est connu sous le nom de « malédiction de la dimensionnalité ». Plus le nombre de dimensions est important, plus il y a d’associations possibles à prendre en compte, donc une plus grande combinatoire de variables, et plus il faudra d’exemples pour les rencontrer suffisamment souvent. Elle pose aussi bien sûr problème au niveau computationnel puisque l’entraînement d’un modèle complexe est plus coûteux. Le fait d’avoir des données de grande dimensionnalité, pour un nombre fini d’exemples, rend la représentation éparpillée au sens où certains phénomènes sont rarement observés mais aussi parce que la représentation vectorielle contient plus de valeurs nulles que de valeurs non nulles. La rareté des données entraîne une difficulté de généralisation, parce que le modèle aura du mal à construire une estimation correcte mais aussi parce qu’il ne pourra pas gérer les dimensions qu’il n’aura pas vues à l’entraînement, et peut mener au sur-apprentissage, le modèle apprenant alors des règles trop spécifiques. Le fait d’avoir une représentation vectorielle contenant plus de valeurs nulles que non nulles rend aussi difficile la généralisation car la distance entre les points est très grande, il est donc difficile de construire une surface de séparation, celle-ci passant normalement entre les zones denses de l’espace. Ce problème apparaît notamment avec les traits fondés sur les mots en TAL comme les n-grammes ou, dans notre cas, les paires de mots. Les solutions proposées pour notre tâche consistent à augmenter le volume des données, afin de combattre la rareté, ou à densifier l’espace vectoriel, ce qui a pour effet de combattre à la fois la rareté et le problème dimensionnel puisque cette transformation aboutit généralement à une représentation dans un espace de dimension réduite.

Dans le document Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes (Page 89-92)