• Aucun résultat trouvé

Pré-traitement des caractéristiques numériques

5.4 Récapitulatif

6.1.3 Pré-traitement des caractéristiques numériques

Les pré-traitements numériques consistent à modifier les données afin de les rendre plus simples à exploiter par la suite. Il existe différents pré-traitements, pouvant servir à norma- liser, lisser, filtrer ou encore classer des données. Comme le fait remarquer Niemann (1990, p. 26), il est en général très difficile de juger du succès des pré-traitements selon des critères objectifs. Une méthode efficace, mais coûteuse, pourrait consister à évaluer les performances des algorithmes en aval avec ou sans pré-traitements pour déterminer quelle option mène aux meilleurs résultats. Les coûts computationnels liés à ce type d’évaluation seraient néanmoins élevés. C’est pourquoi nous nous contenterons de juger subjectivement les différentes options de pré-traitement qui s’offrent à nous à l’aide de courbes de densité.

Les courbes de densité présentées en annexe à la figure A.1 (p. 244), calculées à partir des corpus de spécialité tokenisés, témoignent de l’hétérogénéité des données numériques à traiter, aussi bien quant au domaine de définition des différents scores qu’à l’allure de leurs courbes de densité. Six de ces courbes, représentant six mesures d’association présentées dans le tableau 6.1 (ZS, ODR, FAG, MD, CP et USUB) sont envisagées au sein d’une même langue, ici l’arabe. Elles ont été choisies pour leur diversité : toutes ont des distributions logarithmiques, la plupart sont asymétriques, certaines sont multimodales. Les deux dernières courbes repré- sentent deux mesures d’association (CP et USUB) pour l’allemand. Elles permettent de com- parer les distributions de ces deux mesures d’association entre l’allemand et l’arabe. Outre le fait que la langue diffère, les tailles de corpus diffèrent significativement.Il convient donc de transformer ces scores afin de les rendre comparables et utilisables en aval de la chaîne de trai- tement.

6.1.3.1 Normalisation

La normalisation des données consiste à ramener l’ensemble des valeurs numériques d’une variable donnée dans un même domaine, généralement petit (par exemple l’intervalle [0, 1]). Ainsi, des différences énormes entre les maximums et les minimums d’une mesure d’associa- tion (par exemple ODR, allant de 0 à 2, 5.106 pour l’arabe) sont ramenées à des intervalles de valeurs plus modestes. Les fonctions de normalisation doivent répondre aussi bien à des critères de robustesse (insensibilité aux valeurs extrêmes) qu’à des critères d’efficacité (proxi- mité entre l’estimation obtenue et l’estimation optimale de la distribution des données). Or cet équilibre est difficile à trouver, d’autant plus lorsque les données à normaliser ne suivent pas une distribution gaussienne (Jainet al., 2005).

Il existe de nombreuses techniques de normalisation. Les plus connues sont lez-score, la nor-

malisationmin-max, ou la normalisation par mise à l’échelle décimale (decimal scaling) (Han

104 CHAPITRE 6. EXTRACTION DE TERMES

autres, la normalisation par fonction double sigmoïde, une fonction combinant médiane et écart absolu médian ou la normalisation tanh (Jainet al., 2005 ; Naït-ali & Fournier, 2012).

Nous nous focaliserons sur les trois méthodes les plus populaires.

L’application du z-score pour la normalisation est basée sur la moyenne et l’écart type de la variable. Cette méthode est sensible aux valeurs extrêmes, surtout si elles sont très nom- breuses. La distribution des données initiale n’est conservée que si elle est gaussienne. Dans le cas contraire, la moyenne et l’écart type ne sont pas des estimateurs optimaux.

Sachant la moyenne arithmétique µ et l’écart type σ d’une mesure d’association pour des n- grammes de taille donnée, la normalisation par z-score est effectuée par la fonction :

fz−score(x) =

x− µ σ

La figure A.1 reprend les courbes de densité de 6 mesures d’association (ZS, CP, FAG, MD, ODR, USUB) présentées en annexe A. La figure A.2 présente les courbes de densité des me- sures d’association présentées figure A.1 après normalisation par z-score. On constate que les scores normalisés ont des domaines de définition variés et parfois peu comparables. Qui plus est, la distribution n’est pas conservée.

La normalisation min-max consiste à appliquer une transformation linéaire aux données originales, dont les extrémums sont min et max, et dont on souhaite désormais ramener les valeurs sur l’intervalle [binf, bsup], avec une fonction de type :

fmin−max(x) =

x− min

max− min(bsup− binf) + binf

Elle est appropriée dans les cas où les limites minimum et maximum des valeurs à normaliser sont connues et peuvent être conservées. Cette normalisation préserve, en théorie, la distri- bution originale des scores, à l’exception d’un facteur d’échelle (Jainet al., 2005). Dans la fi-

gure A.3, nous avons utilisé les extrémums locaux pour chaque mesure d’association, chaque longueur de n-gramme pour une langue donnée. On constate que la normalisation ainsi ob- tenue manque de consistance. Or, pour bien faire, quels extremums conserver ? Faut-il les rechercher, pour une mesure d’association, au sein de chaque longueur de n-gramme ou pour toutes les longueurs ? Faut-il prendre les extremums au sein d’une même langue ou à travers les langues ? Que faire si la taille des corpus varie ? L’impact de ces facteurs sur la robustesse de la normalisation par min-max rend son utilisation impossible sur nos données.

La normalisation par mise à l’échelle décimale (Decimal Scaling) peut être appliquée no-

6.1. APPRENTISSAGE AVEC DES CHAMPS MARKOVIENS

CONDITIONNELS 105

(Jainet al., 2005), ce qui est le cas de nos données. Cette méthode de normalisation conserve

les unités de base en leur appliquant une transformation logarithmique. Sachant le maximum

abs_max des valeurs absolues des extremums d’un score d’association pour une longueur de

n-gramme donnée dans une langue, pour un corpus, la normalisation consiste à appliquer la fonction fdecimalScalingà toutes les valeurs de la série :

fdecimal_scaling(x) =

x

10log10(abs_max)

Bien que cette approche soit réputée manquer de robustesse, c’est elle qui normalise le plus fidèlement les mesures d’association calculées. L’inconvénient de cette technique réside dans le domaine de définition des valeurs normalisées, qui peuvent aller jusqu’aux environs de 0 et−1 et ne pas occuper tout cet intervalle. C’est néanmoins la méthode que nous avons sélectionnée pour la normalisation de nos données.

6.1.3.2 Discrétisation

Les Champs Markoviens Conditionnels nécessitent en entrée des caractéristiques discrètes. Il faut donc, pour chaque variable continue correspondant à une caractéristique, trouver un ensemble de points de découpages cohérents qui minimise la perte d’information tout en réduisant au maximum le nombre de découpages (Kotsiantis & Kanellopoulos, 2006). S’il est bien mené, ce découpage d’une variable continue en un nombre fini de partitions per- met d’accélérer l’apprentissage automatique, mais également d’éviter le phénomène de sur- apprentissage en réduisant l’espace d’hypothèses et de produire ainsi de meilleurs modèles. Il existe un grand nombre d’approches pour la discrétisation de données : supervisées ou non supervisées, univariées ou multivariées, paramétriques ou non-paramétriques, hiérarchique ou non-hiérarchique, locales ou globales, « avides » (eager) ou « paresseuses » (lazy), dyna-

miques ou statiques (Doughertyet al., 1995 ; Kotsiantis & Kanellopoulos, 2006 ; Yang, 2003).

Les techniques de discrétisation supervisées nécessitent de disposer des étiquettesgold uti-

lisées pour la classification afin de sélectionner les meilleurs points de découpages. Or, une fois nos modèles entraînés avec leurs caractéristiques discrétisées, il faudra appliquer ce même pré-traitement aux caractéristiques calculées pour des données pour lesquelles nous ne dis- posons d’aucune étiquettegold, afin de pouvoir leur appliquer un modèle. C’est pourquoi

nous n’avons pas retenu ces approches. Yang (2003) propose une revue de différentes tech- niques, partiellement reproduite dans la tableau 6.2 pour ne conserver que les méthodes non- supervisées. Il n’y en a pas une qui soit immuablement supérieure aux autres car l’efficacité de la discrétisation varie significativement en fonction de la distribution de la variable considérée, notamment si cette dernière est fortement asymétrique ou contient des pics (Ismail, 2003).

106 CHAPITRE 6. EXTRACTION DE TERMES

Table 6.2 – Méthodes de discrétisation non-supervisées (Yang, 2003, p. 90). (Abré- viations : Uni.=univarié, Mul.=multivarié, P=paramétrique, Np=non-paramétrique, H=hiérarchique, Nh=non-hiérarchique, Glo.=global, Loc.=local, avi.=avide, Par=paresseuse, D=disjoint, Nd=non-disjoint)

Méthode Uni. Mul. P Np H Nh Glo. Loc. Avi. Par. D. Nd.

EW 6 ✓ ✓ ✓ ✓ ✓ ✓ EF 7 ✓ ✓ ✓ ✓ ✓ ✓ k-Means 8 ✓ ✓ ✓ ✓ ✓ ✓ Dyn. qualit. 9 ✓ ✓ ✓ ✓ ✓ ✓ Rel. unsup. 10 ✓ ✓ ✓ ✓ ✓ ✓ Multi. 11 ✓ ✓ ✓ ✓ ✓ ✓

Afin d’élaguer les méthodes qui ne conviendraient pas à nos expériences, nous allons passer en revue les modalités des différentes approches détaillées par Yang (2003).

— Le choix entre une approche multivariée ou univariée dépend de l’envergure des don- nées que l’on souhaite considérer. Les approches univariées ne prennent en compte qu’une variable à la fois. À l’inverse, les démarches multivariées vont considérer un en- semble de variables afin de pouvoir y détecter des motifs récurrents et discrétiser en fonction. Étant donné que l’ensemble des caractéristiques qui seront utilisées pour en- traîner le modèle pourra varier d’une expérience à l’autre, nous préférons ne pas utiliser d’approches multivariées.

— Les approches paramétriques nécessitent de renseigner des paramètres tels que le nombre maximal d’intervalles. Les approches non-paramétriques déterminent elles-mêmes leurs paramètres.

— Concernant les approches hiérarchiques, elles vont sélectionner incrémentalement (avec des procédures de découpage et/ou de regroupement) les intervalles à découper en for- mant une hiérarchie implicite. Les approches non-hiérarchiques ne passent en revue les données qu’une fois pour y appliquer le processus de découpe.

— La différence entre approches globales et approches locales réside dans le traitement d’une même caractéristique dans différents contextes d’entraînement. Les méthodes globales vont lui assigner le même ensemble d’intervalles, alors que les approches lo- 3. EW (pourEqual Width) : discrétisation à intervalles d’amplitude égales.

4. EF (pourEqual Frequency) : discrétisation à intervalles de fréquences égales.

5. k-Means : discrétisation par clustering des k-moyennes (Torgo & Gama, 1997), cité par Yang (2003, p. 65).

6. Dyn. qualit. (pourdynamic qualitative) López et al. (2000), cité par Yang (2003, p. 82).

7. Rel. unsup. (pourrelative unsupervised) Lud & Widmer (2000) , cité par Yang (2003, p. 84).

6.1. APPRENTISSAGE AVEC DES CHAMPS MARKOVIENS

CONDITIONNELS 107

cales vont discrétiser sans considération pour l’espace de données global. En ce qui nous concerne, nous ne favoriserons pas une approche sur une autre suivant leur clas- sification dans les groupes paramétrique/non-paramétrique, hiérarchique/non-hié- rarchique et global/local.

— En revanche, étant donné la dimensionnalité des données à discrétiser pour chaque langue, nous préférons favoriser les approches « avides », qui s’appliquent comme un pré-traitement, plutôt que des approches « paresseuses », qui ont lieu à la volée lors de la phase de classification.

— Enfin, ce qui sépare les approches disjointes des méthodes non-disjointes est la pos- sibilité, comme leur nom l’indique, d’obtenir des intervalles disjoints. Dans le cadre de méthodes non-disjointes, les intervalles peuvent se chevaucher. Les méthodes dis- jointes paraissent mieux adaptées à l’apprentissage avec des CRF.

Étant données nos conditions préalables, ne restent du tableau 6.2 que les méthodes EW, EF et k-means. Nous allons déterminer, parmi elles, quelle méthode est la mieux adaptée à nos données.

— La plus simple est ladiscrétisation à intervall d’amplitude égal (Equal Width ou

EW). Cette dernière consiste à diviser l’étendue de la variable à discrétiser en k classes contenant le même nombre de valeurs. Cette opération a une complexité algorith- mique deO(n log2n)pour une distribution comportant n valeurs Fanget al. (2013).

Cette méthode est particulièrement adaptée dans le cas où les observations sont distri- buées uniformément, ce qui n’est pas le cas dans nos données.

— La seconde méthode est ladiscrétisation à effectifs égaux (Equal Frequency ou EF), qui

divise la variable continue en k intervalles où, sachant m instances, chaque intervalle contientmk valeurs adjacentes, éventuellement dupliquées. Les blocs issus des décou- pages peuvent donc avoir des tailles différentes. Sa complexité algorithmique est la même que celle de l’approche à intervalles d’amplitude égales (Fanget al., 2013).

— Enfin, la méthode de discrétisation par clustering des k-moyennes (K-Means Cluste- ring Discretisation ou k-means) consiste à déterminer les intervalles à donner aux va-

riables discrètes en utilisant l’algorithme des k-moyennes (Hartigan & Wong, 1979). Ce dernier cherche à minimiser le carré de la distance euclidienne entre les valeurs à regrouper dans un cluster et leur centroïde correspondant (dont les valeurs sont itéra- tivement affinées). La complexité, dans le pire des cas, de cette approche est supérieure aux deux précédentes :O(nk+1log

2n)pour k clusters. Il est possible de décider soi-

même du nombre d’intervalles k voulus pour la discrétisation. Dans ce cas, la com- plexité varie en fonction ; par exemple, pour k = 10, la complexité de cette approche

108 CHAPITRE 6. EXTRACTION DE TERMES

seraO(n10+1log 2n).

En ce qui concerne la sélection du nombre d’intervalles k (nécessaire dans les approches para- métriques), déterminer leur nombre optimal nécessiterait de mener des tests pour plusieurs valeurs de k dans chaque langue. Qui plus est, si les résultats des tests diffèrent, un modèle n’est plus portable d’une langue à une autre. Ahmadet al. (2012) indiquent que peu d’inter-

valles, même s’ils représentent moins bien les valeurs qu’ils contiennent, donnent de meilleurs résultats pour résoudre des problèmes de classification. Traditionnellement, lorsqu’on ne peut pas déterminer cette valeur avec des tests, la valeur k = 10 est utilisée. La figure 6.2 présente le tracé des complexités algorithmiques pour la plage de données n (entre le plus petit et le plus gros corpus, en terme de tokens, présenté figure 5.1), et en ce qui concerne l’algorithme

k-means, différents k.

Le coût computationnel de la méthode k-means étant significativement supérieur à celui des méthodes par EW et EF, d’autant plus lorsque k augmente, cela risque de poser problème sur de gros volumes de données. Par ailleurs, on remarque que la différence de complexité entre les méthodes EW et EF et la méthode k-means (k = 5) est du même ordre de grandeur que l’écart entre les complexités de k-means avec k = 5 et k = 10. Diminuer la taille de k présente donc un double avantage, au moins en ce qui concerne l’algorithme k-means.

Afin de déterminer laquelle de ces approches est la meilleure étant donné la variété de nos données, nous avons utilisé la fonction discretize du paquet Rarul 12 pour visualiser les dé-

coupages rendus par ces trois méthodes sur les mesures d’association ZS, ODR, FAG, MD, CP et USUB (en arabe) normalisées avec la méthode de mise à l’échelle décimale. Pour nos test, nous avons choisi d’utiliser le paramètre k = 5. Les figures A.5, A.6 et A.7 fournies dans l’annexe A (p.243) présentent respectivement les points de découpages proposés par les mé- thodes EW, EF et k-means. On constate que globalement, la méthode EW discrétise mal nos données, d’autant plus lorsque ces dernières sont fortement asymétriques et contiennent des pics. La discrétisation EF propose des partitions tenant mieux compte de l’asymétrie. Toute- fois, le découpage des pics reste relativement peu équilibré. La meilleure méthode, au vu des figures A.7, est la méthode k-means, qui semble retrouver le plus clairement des « paliers de valeurs ». C’est donc celle que nous avons retenue.