• Aucun résultat trouvé

2.4 Classification des données de grande dimension

2.4.3 Méthodes de régularisation

Comme nous l’avons dit, l’analyse discriminante linéaire peut être considérée comme une mé-thode de référence du fait de sa robustesse. Toutefois, cette propriété de robustesse n’est plus vérifiée quand la taille de l’échantillon devient trop faible devant la dimension de l’espace. Cette remarque est encore plus vraie en ce qui concerne l’analyse discriminante quadratique. Au début des années 1990, des méthodes dites d’analyse discriminante régularisée ont vues le jour, ayant comme but de stabiliser les résultats de l’Analyse Discriminante dans ce cas limite. On pourra consulter [62] pour une synthèse sur le sujet. Nous avons vu au paragraphe2.4.1que dans le cas de petits échantillons les matrices de covariance sur lesquelles se basent les méthodes classiques d’analyse discriminante sont mal conditionnées voir non inversibles. Cela entraîne évidemment une détérioration de la perfor-mance du classifieur. Nous allons présenter dans ce paragraphe les principales méthodes existantes de régularisation dans le cadre de la classification. Une récente étude [53] a évalué les performances de ces méthodes de régularisation ainsi que des méthodes basées sur des modèles de mélange gaussien parcimonieux dans le cadre de la classification de puces ADN.

Régularisation simple

Pour pallier les problèmes liés au mauvais conditionnement ou à la singularité des estimations des matrices de covariance des classes, il est tout d’abord possible d’utiliser le pseudo-inverse à la place de l’inverse classique. On peut également ajouter une constanteσ2positive à la diagonale des matrices de covariance estimées :

˜

Σi = ˆΣi2iIp.

Cette régularisation numérique simple est du même type que la régularisation ridge utilisée en ré-gression. Zhong et al. [95] ont également proposé d’utiliser cette régularisation simple en régression inverse pour la détection de motifs en génétique. Enfin, il est important de noter que ce type de régu-larisation est généralement effectué dans les logiciels de statistique (c’est notamment le cas pour la fonction LDA de Matlab) sans que cela soit notifié à l’utilisateur.

Analyse discriminante régularisée (RDA)

Historiquement, on doit à Friedman [38] la première méthode régularisée d’analyse discrimi-nante qu’il baptisa d’ailleurs Regularized Discriminant Analysis (RDA). Friedman propose de faire dépendre l’estimation des matrices de covariance des groupes de deux paramètres de régularisation, λetγ, et ce de la façon suivante : ˆ Σi(λ, γ) = (1−γ) ˆΣi(λ) +γ tr( ˆΣi(λ)) p ! Ip,

−3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3 4 γ= 0, λ= 0 γ= 0, λ= 0.5 γ= 0, λ= 1 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3 4 γ= 0.5, λ= 0 γ= 0.5, λ= 0.5 γ= 0.5, λ= 1 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 −4 −3 −2 −1 0 1 2 3 4 γ= 1, λ= 0 γ= 1, λ= 0.5 γ= 1, λ= 1

FIG. 2.17 – Analyse discriminante régularisée (RDA) : le paramètreλpermet de faire varier le clas-sifieur entre QDA et LDA tandis que le paramètreγ contrôle l’estimation des valeurs propres des matrices de covariance.

où :

ˆ

Σi(λ) = (1−λ)(ni−1) ˆΣi+λ(n−k) ˆΣ (1−λ)(ni−1) +λ(n−k) .

Le paramètre de complexité λ ∈ [0,1] contrôle la contribution des estimateurs Σˆi et Σˆ, qui sont

donnés respectivement par les équations (2.5) et (2.6). Ainsi, l’Analyse Discriminante Régularisée engendre une règle de décision qui « varie » entre l’Analyse Discriminante Linéaire et l’Analyse Dis-criminante Quadratique. D’autre part, le paramètreγ ∈[0,1]contrôle l’estimation des valeurs propres des matrices de covariance. En effet, siγ = 0alors les valeurs propres deΣipeuvent être différentes les unes des autres tandis que si γ = 1 alors les valeurs propres sont supposées être toutes égales. Dans ce dernier cas, cela revient à supposer que les densités des classes sont de forme sphérique. La figure2.17montre l’influence des deux paramètres de régularisation de RDA. On observe que, fixant γ à 0 et faisant varierλ, on obtient une méthode qui va de QDA (λ= 0) à LDA (λ= 1). A l’inverse, en fixantλ, la variation deγ conduit à des estimations plus ou moins biaisées des valeurs propres des matrices de covariances des classes. En particulier, siλ = 0, la régularisation grâce au paramètre γ est du même type que la régularisation simple présentée au paragraphe précédent. Enfin, pourλ= 1

etγ = 1, on obtient la méthode simpliste qui consiste à affecter tout nouveau point à la classe dont il est le plus proche de la moyenne au sens de la distance usuelle. Cette méthode donne généralement des résultats un peu meilleurs que QDA et LDA quand la taille de l’échantillon d’apprentissage est petite comme le fait remarquer Celeux dans [42, chap. 7]. En revanche, nous avons remarqué en ex-périmentant RDA que sa paramétrisation était rendue difficile par le peu de sensibilité des résultats de classification par rapport aux paramètres de régularisation. Une application de cette méthode à la reconnaissance de visage est proposée dans [73].

Régularisation de LDA par augmentation de la matrice intra-classe

Krzanowski et al. [52] ont proposé différentes techniques pour pallier les problèmes posés par le mauvais conditionnement des matrices de covariance dans le cadre de la discrimination de don-nées spectroscopiques. Ce travail est tout à fait en lien avec le sujet qui nous intéresse ici puisque les données spectroscopiques sont des données de grande dimension et que la méthode de discrimination considérée est LDA. Les auteurs partent de l’hypothèse que la matrice de covariance intra-classe em-piriqueW est singulière et que son rang estd < p. Leur idée est de construire un nouvelle matriceW˜ de rangp, et donc non-singulière, qui soit une bonne approximation deW au sens de la préservation de l’information originale. C’est l’idée inverse de l’ACP qui au contraire cherche le sous-espace de dimensiondqui permet la meilleure approximation des données de dimensionp. Pour construire cette nouvelle matrice, il nous faut tout d’abord considérer la décomposition spectrale deW :

W =LDLt,

oùDest la matrice diagonale composée de valeurs propres ordonnées deW,λ1≥...≥λd> λd+1=

appelleD1 la matrice diagonale composée desdpremières colonnes deD, on peut alors écrire :

W = (L1L2) D1 0 0 0

!

(L1L2)t,

où L1 contient également les d premières colonnes de L et où L2 contient les (p −d) dernières colonnes. Les auteurs proposent alors comme matriceW˜ la matrice suivante :

˜ W = 1 c(L1L2) D1+αI 0 0 (α+β)I ! (L1L2)t,

oùαetβ satisfont les conditions suivantes :

α ≥0, β < λd, α+β >0.

Enfin,c est une constante de normalisation telle quetr( ˜W) = tr(W). Les paramètres de régulari-sationα etβ, par analogie avec RDA, sont à estimer sur le jeu d’apprentissage et Krzanowski et al. recommandent de les estimer par validation croisée. Les expérimentations sur données simulées que nous avons mené ont montré que cette méthode devait être réservée à des cas où les autres méthodes de régularisation échouent tant la paramétrisation est difficile et la différence avec LDA est petite dans le cas standard.

Analyse discriminante pénalisée (PDA)

L’Analyse Discriminante Pénalisée (PDA) [45] a été proposée pour traiter des données dont les variables sont très corrélées ou dont la taille est petite devant le nombre de variables. PDA est au même titre que RDA une méthode de régularisation de LDA. La pénalisation introduite dans PDA est du même type que la régularisation simple présentée précédemment, à la différence que PDA pénalise également les corrélations entre les prédicteurs. L’estimateur pénalisé deΣutilisé dans PDA est :

˜

Σ = ˆΣ +σ2Ω,

où la matriceΩ, de taillep×p, permet de pénaliser les corrélations entre les prédicteurs. Les auteurs recommandent d’utiliser une matrice « lisse », i.e. deux coefficients voisins doivent avoir une valeur proche. L’ensemble des paramètres de pénalisation,σ2et les coefficients deΩ, peuvent être appris sur le jeu d’apprentissage par validation croisée. Ils peuvent aussi traduire des a priori de l’expérimenta-teur. Hastie et al. proposent également de coupler cette pénalisation à la projection des données sur les axes discriminants de Fisher (voir paragraphe 2.4.2) avant d’appliquer la règle de décision. Les auteurs proposent également d’effectuer une transformation préalable des données par l’application d’un opérateur de type noyau puis d’appliquer PDA.

Modèle Nombre de paramètres Ordre asymptotique Nb de prms pour k= 4etp= 100 Full-GMM ρ+kp(p+ 1)/2 kp2/2 20603 Com-GMM ρ+p(p+ 1)/2 p2/2 5453 Diag-GMM ρ+kp 2kp 803 Com-diag-GMM ρ+p p 503 Sphe-GMM ρ+k kp 407 Com-sphe-GMM ρ+ 1 p 404

TAB. 2.1 – Propriétés des modèles gaussiens :ρ=kp+k−1est le nombre de paramètres nécessaires à l’estimation des moyennes et proportions. Pour le calcul des ordres asymptotiques, nous supposons quek≪p.