• Aucun résultat trouvé

La r´eduction de dimension a ´et´e largement ´etudi´ee et un panorama des approches existantes peut ˆetre trouv´e dans [Carreira-Perpi˜n´an 97] et [Cunningham 08]. Ces m´ethodes sont g´en´erale-ment utilis´ees pour :

– d´ebruiter les donn´ees, c’est-`a-dire ´eliminer les donn´ees non significatives qui pourraient avoir un impact n´egatif sur les performances des classifieurs,

– affranchir les phases d’apprentissage des probl`emes rencontr´es lorsque le nombre de para-m`etres devient trop important par rapport au nombre d’observations (connu sous le nom de « fl´eau de la dimension » [Bellman 61]),

– r´ealiser une meilleure analyse des donn´ees, en ne conservant que les param`etres les plus discriminants,

– r´eduire, sans perte d’information, le coˆut calculatoire du traitement des donn´ees.

Les 36 param`etres, qui caract´erisent chaque locuteur d´etect´e, sont d’une part, tr`es corr´el´es et d’autre part, ont ´et´e d´efinis intuitivement. Afin de limiter l’influence sur la reconnaissance des rˆoles des param`etres corr´el´es ou porteurs de peu d’information, nous ´etudions donc la possibilit´e d’appliquer une r´eduction de dimension aux vecteurs de donn´ees. Cette ´etude s’impose d’autant plus que le nombre de param`etres est effectivement assez ´elev´e et, comme cela sera pr´ecis´e dans la section 3.4, le volume du corpus d’apprentissage reste modeste.

Les m´ethodes de r´eduction de dimension peuvent ˆetre de deux types : les approches par transformation de param`etres (pr´esent´ees dans la section 3.2.1) et les approches par s´election de param`etres (section 3.2.2). Chaque type d’approche peut ˆetre envisag´e en mode supervis´e ou non supervis´e, selon que l’on dispose ou non d’une information sur la classe des donn´ees d’apprentissage. Ceci est illustr´e par la figure3.2. Au cours des deux paragraphes suivants, nous limitons la pr´esentation aux seules m´ethodes utilis´ees dans notre syst`eme.

supervisée non supervisée tr a n s fo rm a ti o n d e s p a ra m è tr e s s é le c ti o n d e s p a ra m è tr e s Analyse Linéaire Discriminante ALD Analyse en Composantes Principales ACP

Sélection de paramètres Factorisation en matrices non négatives

Figure 3.2 – Tableau r´ecapitulatif des principales m´ethodes de r´eduction de dimension en fonction du type de transformation et du mode d’apprentissage.

Afin de faciliter la compr´ehension, nous utilisons les notations suivantes. L’ensemble des donn´ees d’apprentissage A est compos´e de n observations, chacune est de dimension p. Une m´ethode de r´eduction de dimension a pour objectif de fournir une application qui transforme l’ensemble initial des donn´ees en un nouvel ensemble A compos´e de n observations, chacune ´etant de dimension k avec (k < p), en conservant la plus grande part de l’information initiale contenue dans A, sous contrˆole d’un crit`ere.

3.2.1 R´eduction de dimension par transformation des param`etres

Dans cette cat´egorie de m´ethodes, les donn´ees de l’ensemble A sont projet´ees dans un nouvel espace de repr´esentation (de dimension inf´erieure) par l’application d’une transformation lin´eaire telle que :

A = MA

La matrice de transformation M peut ˆetre calcul´ee par une m´ethode non supervis´ee comme l’Analyse en Composantes Principales (ACP) ou supervis´ee comme l’Analyse Factorielle Discri-minante (AFD). Nous d´etaillons ces deux m´ethodes que nous utiliserons lors des exp´erimenta-tions.

L’Analyse en Composantes Principales (ACP) est une m´ethode d’analyse de donn´ees qui r´ealise une projection d’un ensemble de donn´ees de dimension ´elev´ee dans un nouvel espace de dimension plus r´eduite dont les axes sont appel´es les axes principaux [Duda 00]. Les coor-donn´ees d’une donn´ee projet´ee sont des combinaisons lin´eaires des coorcoor-donn´ees initiales et sont appel´ees les composantes principales de cette donn´ee. La transformation lin´eaire est obtenue par maximisation de l’inertie du nuage des donn´ees projet´ees. Le nombre de composantes principales retenues est calcul´e de mani`ere `a repr´esenter une proportion maximale de la variance des don-n´ees. Le processus est it´eratif : le premier axe correspond `a la direction qui maximise la variance des donn´ees projet´ees, le second est un axe orthogonal au premier qui maximise la variance restante et ainsi de suite. La matrice de transformation lin´eaire est la matrice de passage entre

la base canonique et les vecteurs propres de la matrice de covariance de l’ensemble de donn´ees initial. La r´eduction de dimension est r´ealis´ee en conservant seulement les k axes principaux les plus importants, repr´esentant une large proportion de la variance des donn´ees. Dans la pratique, nous conservons les axes principaux contenant 99% de cette variance.

L’Analyse Factorielle Discriminante (AFD) est une m´ethode de r´eduction de dimension qui pr´eserve les classes auxquelles appartiennent les donn´ees [Fisher 36]. C’est pourquoi cette m´ethode s’effectue en mode supervis´e car l’appartenance des donn´ees `a un ensemble de classes est connue. La matrice M projette les donn´ees de A dans un espace tout en maximisant l’inertie inter-classe et minimisant l’inertie intra-classe. Comme pour l’ACP, il s’agit d’une projection et les coordonn´ees dans le nouvel espace de repr´esentation sont des combinaisons lin´eaires des coordonn´ees initiales. Les propri´et´es math´ematiques des matrices d’inertie intra-classe et inter-classe obligent `a conserver au plus (C− 1) axes discriminants, o`u C correspond au nombre de classes initiales.

3.2.2 R´eduction de dimension par s´election de param`etres

Ces m´ethodes visent `a isoler le sous-ensemble de param`etres le plus discriminant dans une tˆache particuli`ere de classification. Les donn´ees ne sont pas transform´ees, au contraire des m´e-thodes pr´ec´edentes, elles sont conserv´ees dans leur espace initial, permettant ainsi une interpr´e-tation directe des r´esultats. Nous n’envisagerons que les m´ethodes supervis´ees pour lesquelles la classe de chacune des donn´ees d’apprentissage est connue, comme cela sera notre cas.

Plusieurs strat´egies sont alors possibles :

– certaines sont bas´ees sur un calcul de crit`eres objectifs (test du χ2, gain en information), ´evalu´es sur l’ensemble de donn´ees A [Wu 02]. Les param`etres les moins discriminants au sens de ces crit`eres sont ´ecart´es.

– d’autres font appel aux m´ethodes de classification par arbres de d´ecision [Quinlan 93]. Chaque noeud de l’arbre conduit `a une r`egle et `a la s´election d’un param`etre. Ces m´ethodes m`enent `a un ensemble de r`egles qui peuvent ˆetre utilis´ees pour classer de nouvelles donn´ees. – enfin, une troisi`eme cat´egorie de m´ethodes s´electionne les param`etres pertinents en cou-plant s´election et classification. Nous d´etaillons plus particuli`erement cette cat´egorie dans la suite.

La s´election de param`etres par validation en classification vise `a rechercher le jeu de param`etres permettant d’atteindre la meilleure performance en terme de taux de reconnais-sance pour une m´ethode de classification donn´ee [Cunningham 08]. Chaque sous-ensemble de param`etres est ´evalu´e par validation crois´ee sur l’ensemble des donn´ees d’apprentissage A. En faisant varier ´egalement la m´ethode de classification, cette approche permet de s´electionner le couple (jeu de param`etres/m´ethode de classification) qui obtient les meilleures performances, couple qui sera par la suite utilis´e pour classer de nouvelles donn´ees.

Cette approche implique une combinatoire de jeu-test ´elev´ee. Le seul nombre de combinaisons de param`etres `a examiner pour une m´ethode de classification croˆıt en 2p, avec p le nombre de param`etres. Pour cette raison, une recherche exhaustive n’est souvent pas envisageable. Plusieurs strat´egies sont possibles et nous avons retenu la m´ethode de s´election par ´elimination, nomm´ee

Recherche S´equentielle par ´Elimination (RSE)[Guyon 03]. Il s’agit d’une proc´edure de recherche par retrait successif d’un param`etre `a partir de l’ensemble complet des param`etres. La variable ˆot´ee est celle dont le retrait d´egrade le moins les performances de classification. Le proc´ed´e est arrˆet´e soit quand il ne reste qu’un seul param`etre dans l’ensemble des variables de d´epart, soit lorsque que le taux de reconnaissance est trop fortement d´egrad´e.

Documents relatifs