Deux méthodes statistiques pour la classification et la régression en grande dimension

(1)

HAL Id: hal-02156948

https://hal.archives-ouvertes.fr/hal-02156948

Preprint submitted on 14 Jun 2019

HAL

is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire

HAL, est

destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Deux méthodes statistiques pour la classification et la régression en grande dimension

Stéphane Girard

To cite this version:

Stéphane Girard. Deux méthodes statistiques pour la classification et la régression en grande dimen-

sion. 2019. �hal-02156948�

(2)

Deux méthodes statistiques pour la classication et la régression en grande dimension

Stéphane Girard

Univ. Grenoble Alpes, Inria, CNRS, Grenoble INP, LJK, 38000 Grenoble, France

1 Classication en grande dimension (HDDA & HDDC)

Introduction

La classication estun problème récurrent:

• qui intervient généralement dans les applications nécessitant une prise de décision,

• les données modernes sont souvent de grande dimension.

Exemple 1: reconnaissance optique de caractères (USPS)

Exemple 2: reconnaissance d'objets à partir d'images

Le problème de la classication

Leproblème de la classicationest d'organiser des données en classes :

• observations quantitativesx1, ..., xn∈R^p,

• labelsz1, ..., zn ∈ {1, ..., k}.

(3)

Approche supervisée : jeu de données complètes (x1, z1), ..., (xn, zn) disponible pour l'apprentissage (discriminant analysis)

−4 −3 −2 −1 0 1 2 3 4

−4

−3

−2

−1 0 1 2 3 4 5

−3 −2 −1 0 1 2 3

−4

−3

−2

−1 0 1 2 3 4

−3 −2 −1 0 1 2 3

−4

−3

−2

−1 0 1 2 3 4

Approche non-supervisée: uniquement les observationsx1, ..., xn (clustering)

−3 −2 −1 0 1 2 3 4

−4

−3

−2

−1 0 1 2 3

−2 −1 0 1 2 3 4

−3

−2

−1 0 1 2

Le modèle de mélange

On suppose classiquement que

• les observationsx1, ..., xn sont des réalisations indépendantes d'un vecteur aléatoireX∈R^p,

• les labelsz1, ..., zn sont issus d'une variable aléatoireZ, où :

• Z suit uneloi multinomialede paramètresπ1, ..., πkappelés proportions du mélange ou probabilités a priori, i.e. P(Z=i) =πi,i= 1, ..., k.

• sachantZ =i, X suit uneloi multidimensionnellede densitéfi(x).

En résumé, la densité deX s'écrit :

f(x) =

k

X

i=1

πifi(x).

Mdèles de mélange

Exemples de densités obtenues aveck= 3composantes gaussiennes en dimensionp= 1(gauche) etp= 2 (droite).

(4)

Règle de Bayes et modèle de mélange

La classication vise donc construire unerègle de décisionδ : δ : R^p → {1, ..., k},

x → z.

La règle optimaleδ^∗ (pour un coût 0-1), diterègle de Bayes ou du MAP (Maximum A Posteriori), est : δ^∗(x) = argmax

i=1,...,k

P(Z =i|X=x)

= argmax

i=1,...,k

P(X =x|Z =i)P(Z =i)

= argmin

i=1,...,k

Ki(x),

où lafonction de coûtKi est telle queKi(x) =−2 log(πifi(x)).

Modèles gaussiens

Modèle gaussienFull-GMM(QDA en supervisé):

Ki(x) = (x−µi)^tΣ⁻¹_i (x−µi) + log(det Σi)−2 log(πi) +C^te. Modèle gaussienCom-GMMquisuppose que∀i,Σi= Σ(LDA en supervisé):

Ki(x) =µ^t_iΣ⁻¹µi−2µ^t_iΣ⁻¹x−2 log(πi) +C^te.

−3 −2 −1 0 1 2 3

−4

−3

−2

−1 0 1 2 3 4

−3 −2 −1 0 1 2 3

−4

−3

−2

−1 0 1 2 3 4

Fig. 1. Règles de décision de Full-GMM (gauche) et Com-GMM (droite).

Problème : il est nécessaire d'inverserΣi ouΣ.

Fléau de la dimension en classication

Fléau de la dimensiondans le cas du mélange gaussien :

• le nombre de paramètrescroît avec le carré de la dimension,

• sinest faible, les estimations des matrices de covariance sontmal conditionnées ou singulières,

• il est alors dicile ou impossible de les inverseret la règle de décision en est d'autant perturbée.

(5)

0 10 20 30 40 50 60 70 80 90 100 0

5000 10000 15000 20000 25000

Dimension

Nb de paramètres

Full−GMM Com−GMM

Fig. 2. Nombre de paramètres à estimer des modèles Full-GMM et Com-GMM en fonction de la dimension et ce pour 4 classes.

Les bienfaits de la dimension

Lephénomène de l'espace vide[Scot83] met en évidence que :

• les espaces de grande dimension sont quasiment vides,

• les données vivent dans des sous-espaces de dimensions intrinsèques inférieures à la dimension de l'espacep.

1 5 10 15 20 25 30 35 40 45 50

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Dimension P(x∈C0.9)

Fig. 5. Probabilité queX∼U_Bp(0,1) soit dans la coquille comprise entre les boules de rayon0.9et1, en fonction de la dimension : P(X∈C[0.9,1]) = 1−0.9^p.

Les bienfaits de la dimension

Un autre phénomène intervient en grande dimension :

• les espaces de grande dimension étant quasiment vides,

• il est plus facile de séparer les classes en grande dimension avec une méthode adaptée.

(6)

20 50 100 150 200 250 0.94

0.95 0.96 0.97 0.98 0.99 1

Dimension

Taux de classification correcte

Classifieur optimal de Bayes

Fig. 6. Taux de classication correcte du classieur optimal de Bayes en fonction de la dimension (données simulées).

Idée de modélisation

Il est possible d'adapter ces idées aucadre de la classication:

• les données de chaque classe vivent dans des sous-espaces diérents de dimensions intrinsèques diérentes,

• le fait de conserver toutes les dimensions permet de discriminer plus facilement les données.

Introduction d'uneparamétrisation du modèle gaussien:

• qui exploite ces caractéristiques des données de grande dimension,

• au lieu de pallier les problèmes dus à la grande dimension des données.

Modélisation

On se place dans le cadre dumodèle de mélange gaussien:

f(x) =

k

X

i=1

πif(x, θi), avecf(x, θi)∼ N(µi,Σi).

En se basant sur ladécomposition spectrale deΣi, on peut écrire : Σi=Qi∆iQ^t_i,

où :

• Qi est la matrice orthogonale des vecteurs propres deΣi,

• ∆i est la matrice diagonale des valeurs propres deΣi.

(7)

Modélisation

Il est possible deparamétrer la matrice∆i de la façon suivante :

∆i=







ai1 0

...

0 aidi

0

bi 0

...

0 bi











 di











(p−di)

oùaij ≥bi, pourj= 1, ...,di, ladimension intrinsèquede la classe.

Remarque : cette paramétrisation est toujours possible car si on prend di = p−1, pour i = 1, ..., k, alors on a le modèle Full-GMM.

Modélisation

Fig. 7. Paramétrisation du modèle de mélange gaussien.

On dénit également :

• Ei l'espace intrinsèqueengendré par les vect. prop. associés auxaij,

• E^⊥i son supplémentaire dansR^p,

• dont la complexité est contrôlée par les dimensionsdi des sous-espaces,

• noté[aijbiQidi]dans la suite.

(8)

En forçantcertains paramètres à être communsdans une même classe ou entre les classes :

• on obtient des modèles de plus en plus régularisés,

• qui vont du modèle général au modèle le plus parcimonieux.

Cette famille contient28 modèlesrépartis de la façon suivante :

• 14 modèles à orientations libres,

• 12 modèles à orientation commune,

[ajbQd] 1360 Linéaire

Full-GMM 20603 Quadratique

Com-GMM 5453 Linéaire

Table 1. Propriétés des modèles de la famille de[aijbiQidi]

Remarque : le modèle[aijbiQidi]qui engendre un classieur quadratique requiert l'estimation de moins de paramètres que le modèle Com-GMM qui engendre un classieur linéaire.

(9)

Expression de la fonction de coût K

_i

Dans lecas du modèle[aibiQidi]:

Ki(x) = 1 ai

kµ_i−Pi(x)k²+ 1 bi

kx−Pi(x)k²+dilog(ai) + (p−di) log(bi)−2 log(πi).

Points forts :

• pas besoin d'inverser numériquement la matrice de covariance,

• ni d'estimer les dernières colonnes de la matrice Qi.

Fig. 9. Les sous-espacesEi etE^⊥i de laième composante.

Construction du classieur HDDA

Ensupervisé, l'estimation des paramètres par MV est directe :

ˆ πi= ni

n, µˆi= 1 ni

n

X

j=1

sijxj,

Σˆi=Wi= 1 ni

n

X

j=1

sij(xj−µˆi)(xj−µˆi)^t,

oùni =Pn

j=1sij avecsij = 1{zj=i}. Calcul desprobabilités conditionnelles:

P(Z=i|X=x, θ) = 1 , _k

X

`=1

exp 1

2(Ki(x)−K`(x))

,

où la fonction de coûtKi est telle queKi(x) =−2 log(πif(x, θi)).

Construction du classieur HDDC

Ennon supervisé, les paramètres sont estimés par l'algorithme EM:

• Étape E: cette étape calcule à l'itérationqles probabilités conditionnelles

t^(q)_ij =P(Z=i|X =xj, θ^(q)) = 1/

k

X

`=1

exp 1

2(K_i^(q−1)(xj)−K_`^(q−1)(xj))

.

(10)

• Étape M: cette étape calcule les estimateurs desθien maximisant la vraisemblance conditionnellement aux t^(q)_ij :

ˆ

π_i^(q)= n^(q)_i

n , µˆ^(q)_i = 1 n^(q)_i

n

X

j=1

t^(q)_ij xj,

Σˆ^(q)_i =W_i^(q)= 1 n^(q)_i

n

X

j=1

t^(q)_ij (xj−µˆ^(q)_i )(xj−µˆ^(q)_i )^t,

oùn^(q)_i =Pn j=1t^(q)_ij .

Estimations des a

_ij

, b

_i

et Q

_i

Les estimateurs du MV des paramètres du modèle[aijbiQidi]sontexplicites :

• Sous-espaceEi : lesdi premières colonnes deQisont estimées par les vecteurs propres associés aux di plus grandes valeurs propresλij deWi.

• Estimateur de aij : les paramètres aij sont estimés par les di plus grandes valeurs propresλij de Wi.

• Estimateur de bi : le paramètrebi est estimé par : ˆbi = 1

(p−di)



trace(Wi)−

di

X

j=1

λij



.

Remarque : 16 modèles ont des estimateurs du MV explicites. Les 12 autres requièrent une méthode itérative.

Estimation des paramètres discrets

0 1 2 3 4 5 6 7 8 9 10 11 12

0 0.02 0.04 0.06 0.08 0.1

1 2 3 4 5 6 7 8 9

0 0.01 0.02 0.03 0.04 0.05

Fig. 10. Le scree-test de Cattell : éboulis des valeurs propres (gauche) et diérences entre valeurs propres consécutives (droite).

Estimation desdimensions intrinsèquesdi :

• On utilise la méthode du scree-test de Cattell[Catt66],

• cela permet d'estimer de façon commune leskparamètresdi,

• en supervisé, le seuilsest choisi par validation croisée,

• en non supervisé,sest choisi grâce au critère BIC[Schw78].

Estimation dunombre de classesk:

(11)

Considérations numériques

• Stabilité numérique : la règle de décision des classieurs HDDA et HDDC ne dépend pas des vecteurs propres associés aux plus petites valeurs propres deWidont la détermination est instable.

• Réduction de la durée de calcul : pas besoin de déterminer les derniers vecteurs propres deWi → réduction des temps de calcul avec une procédure adaptée (×60pourp= 1000).

• Cas particulier où n < p : il est alors préférable, d'un point de vue numérique, de calculer les vecteurs propres de UiU_i^t au lieu deWi =U_i^tUi oùUi contient les données centrées de Ci (×500 pourn= 13et p= 1000).

HDDA : inuence de la taille du jeu d'apprentissage

1000 2000 3000 4000 5000 6000 7000

0.4 0.5 0.6 0.7 0.8 0.9 1

Taille du jeu d’apprentissage

Taux de classification correcte sur le jeu de validation

HDDA QDA LDA PCA+LDA EDDA

Fig. 12. Taux de classication correcte en fonction de la taille du jeu d'apprentissage (données réelles USPS∈R²⁵⁶).

Il apparaît que HDDA est peu sensible à la taille du jeu d'apprentissage,

HDDA : comparaison avec les méthodes classiques

Méthode Taux de classif. correcte Temps d'app. (sec.)

HDDA[aijbQid] 0.948 ∼1

RDA (γ= 0.3, λ= 0) 0.935 ∼1

QDA (full-GMM) 0.846 ∼1

LDA (com-GMM) 0.757 ∼1

EDDA[λ_kB_k] 0.696 ∼1

SVM (linéaire) 0.926 ∼12

Table 2. Résultats de classication obtenus sur les données USPS (p= 256,napp= 7250).

Il apparaît que :

• HDDA est plus performante que les autres méthodes sur ce jeu de données réelles,

• HDDA est aussi rapide que les autres méthodes basées sur le modèle de mélange (hors choix de modèles).

(12)

HDDC : sélection de modèles

⁴⁵⁶ ⁴⁵¹ ⁴²⁸ ⁴²⁷ ⁴³⁴ ⁴³³

^0.712 ^0.752 ^0.797 ^0.793 ^0.711 ^0.707

Table 3. Taux de classication correcte (en %) obtenus par les modèles de l'HDDC sur diérents jeux de données simulées.

Le modèle choisi par le critère BIC est noté d'une étoile.

Il apparaît que :

• le modèle[aibiQidi]semble être particulièrement ecace,

• l'hypothèse que∆i n'a que deux valeurs propres diérentes semble être un moyen ecace de régu- lariser son estimation.

HDDC : les étapes de l'algorithme

−100 −90 −80 −70 −60 −50 −40 −30 −20 −10

−6

−5

−4

−3

−2

−1 0 1 2 3

Fig. 13. Projection des données Crabes sur les axes principaux.

Données Crabe :

• 200 individus en dimensionp= 5(5 caractéristiques morphologiques des crabes),

• répartis en 4 classes (MB, FB, MO et FO).

11

(13)

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 1

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 2

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 3

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 4

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 5

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 6

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 7

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 8

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 9

−100 −80 −60 −40 −20

−6

−4

−2 0 2

−100 −80 −60 −40 −20

−6

−4

−2 0 2

−100 −80 −60 −40 −20

−6

−4

−2 0 2

Fig. 14. Itération 1 de HDDC sur les données Crabes.

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 1

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 2

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 3

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 4

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 5

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 6

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 7

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 8

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 9

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 10

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 11

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 12

12

(14)

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 1

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 2

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 3

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 4

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 5

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 6

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 7

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 8

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 9

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 10

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 11

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 12

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 1

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 2

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 3

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 4

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 5

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 6

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 7

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 8

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 9

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 10

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 11

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 12

(15)

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 1

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 2

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 3

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 4

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 5

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 6

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 7

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 8

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 9

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 10

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 11

−100 −80 −60 −40 −20

−6

−4

−2 0 2

HDDC step 12

2 Régression en grande dimension (SIR)

Régression multivariée

SoientY ∈RetX ∈R^p. Let but est d'estimerG:R^p→Rtelle que Y =G(X) +ξ oùξest indépendant deX.

• Irréaliste quandpest grand (curse of dimensionality).

• Réduction de dimension supervisée : Remplacer X par sa projection sur un sous-espace de dimension inférieure sans perte d'information sur la loi deY sachantX.

• Central subspace : plus petit sous-espaceStel que, conditionnellement à la projection deX sur S,Y et X sont indépendants. Analogue desespaces intrinsèquesen HDDA.

Réduction de dimension

• Supposons (pour simplier) que dim(S) = 1 i.e. S =span(b), avec b ∈ R^p =⇒ Single index model:

Y =g(b^tX) +ξ oùξest indépendant deX.

• L'estimation de la fonction p-variéeGest remplacée par l'estimation de la fonction univariée g et de la directionb.

• But de SIR = Sliced Inverse Regression[Li, 1991]: Estimer une base du central subspace (i.e. b dans ce cas particulier.)

Idée de la méthode SIR

• Trouver la directionbtelle que b^tX explique au mieuxY.

• Inversement, quandY est xé,b^tX ne doit pas varier.

• Trouver la directionbminimisant les variations deb^tX sachantY.

(16)

En pratique :

• Le support deY est divisé en htranches Sj.

• Minimisation de la variance intra-tranchesb^tX sous la contrainte var(b^tX) = 1.

• Equivalent àmaximiser la variance inter-tranchessous la même contrainte.

Illustration

Procédure d'estimation

Etant donné un échantillon{(X1, Y1), . . . ,(Xn, Yn)}, la directionb est estimée par ˆb= argmax

b

b^tΓbˆ sous la contrainte b^tΣbˆ = 1. (1) oùΣˆ est la matrice de covariance empirique etΓˆ est la matrice de covariance inter-tranches dénie par

Γ =ˆ

h

X

j=1

nj

n( ¯Xj−X¯)( ¯Xj−X¯)^t, X¯j = 1 nj

X

Y_i∈S_j

Xi,

oùnj est le nombre d'observations dans la trancheSj.

Le problème d'optimisation (1) a une solution explicite : ˆb est solution du problème de diagonalisation (généralisé)ˆΓb=λΣb.ˆ

Procédure d'estimation

• Pour estimer un Central subspace de dimension d=dim(S)>1, il sut de considérer les plus d vecteurs propres associés auxdplus grandes valeurs propres.

• SIR est une méthode de réduction de dimension plus ecace que l'ACP en régression car elle est supervisée: elle utilise à la foisX etY.

(17)

Exemple en dimension p = 10 avec n = 100 données simulées

Bleu : Yi versus projections b^tXi sur la vraie directionb,

Rouge : Yi versus projectionsˆb^tXi sur la di- rection estiméeˆb,

Vert : ˆb^tXi versusb^tXi.

Estimation de propriétés physiques de la planète Mars à partir d'images hy- perspectrales

Contexte :

• Observation du pôle sud de Mars par le spectromètre OMEGA à bord de la mission Mars Express.

• Image 3D : En chaque pixel, un spectre dep= 184 longueurs d'onde est enregistré.

• Cette partie de Mars est composée principalement de glace (d'eau et de CO2) et de poussière.

But : Pour chaque spectreX∈R^p, estimer le paramètre physique associéY ∈R(ici la taille des grains de glace de CO2).

(18)

Images hyperspectrales

Un problème inverse

Problème direct.

• Modélisation physique d'un spectre à partir d'un modèle de réectance surfacique.

• A partir d'un paramètre physiqueY, simulation deX =F(Y).

• Génération den= 12.000spectres synthétiques (accompagnés de leurs paramètres physiques asso- ciés).

=⇒Base d'apprentissage.

Problème inverse.

• Estimation de la relation fonctionnelle inverseY =G(X).

• Hypothèse de réduction de dimension G(X) =g(b^tX).

• best estimé par SIR, gest estimé par régression nonparamétrique unidimensionnelle.

Carte de CO

2

estimée

Taille des grains de glace de CO estimée par SIR à partir d'une image hyperspectrale de la planète Mars.

(19)

Extensions de SIR

• Régularisation (pour desX de très grande dimension),

• Adaptation à des sortiesY multivariées,

• Version séquentielle (pour des ux de données),

• Version robuste (aux outliers surX), ...

References

[1] R. Cattell. The scree test for the number of factors. Multivariate Behavioral Research, 1(2):245276, 1966.

[2] K. Li. Sliced inverse regression for dimension reduction. Journal of the American Statistical Asso- ciation, 316327, 1991.

[3] D. Scott and J. Thompson. Probability density estimation in higher dimensions. In Fifteenth Symposium in the Interface, pages 173179, 1983.

[4] G. Schwarz. Estimating the dimension of a model. The Annals of Statistics, 6:461464, 1978.

[5] C. Bouveyron, S. Girard, and C. Schmid. High dimensional data clustering. Computational Statistics and Data Analysis, 52:502519, 2007.

[6] C. Bouveyron, S. Girard, and C. Schmid. High dimensional discriminant analysis. Communication in Statistics - Theory and Methods, 36(14):26072623, 2007.

[7] J. Jacques, C. Bouveyron, S. Girard, O. Devos, L. Duponchel, and C. Ruckebusch. Gaussian mixture models for the classication of high-dimensional vibrational spectroscopy data. Journal of Chemo- metrics, 24:719727, 2010.

[8] C. Bouveyron, G. Celeux, and S. Girard. Intrinsic dimension estimation by maximum likelihood in isotropic probabilistic PCA. Pattern Recognition Letters, 32(14):17061713, 2011.

[9] C. Bouveyron, M. Fauvel, and S. Girard. Kernel discriminant analysis and clustering with parsimo- nious Gaussian process models. Statistics and Computing, 25:11431162, 2015.

[10] C. Bernard-Michel, L. Gardes, and S. Girard. Gaussian regularized sliced inverse regression. Statistics and Computing, 19:8598, 2009.

[11] C. Bernard-Michel, L. Gardes, and S. Girard. A note on sliced inverse regression with regularizations.

Biometrics, 64:982986, 2008.

[12] C. Bernard-Michel, S. Douté, M. Fauvel, L. Gardes, and S. Girard. Retrieval of Mars surface physical properties from Omega hyperspectral images using regularized sliced inverse regression. Journal of Geophysical Research - Planets, 114, 2009.

[13] M. Chavent, S. Girard, V. Kuentz, B. Liquet, T.M.N. Nguyen, and J. Saracco. A sliced inverse regression approach for data stream. Computational Statistics, 29:11291152, 2014.

[14] R. Coudret, S. Girard, and J. Saracco. A new sliced inverse regression method for multivariate response. Computational Statistics and Data Analysis, 77:285299, 2014.

[15] A. Chiancone, F. Forbes, and S. Girard. Student sliced inverse regression. Computational Statistics and Data Analysis, 113:441456, 2017.