• Aucun résultat trouvé

4.2.1 Schéma d'analyse général

L'analyse inter-groupes1 et l'analyse discriminante ont le même objectif : trouver un sous-espace des variables (ici les gènes) dans lequel la variance entre les groupes est maximale. La théorie de ces méthodes a été abordée ici d'un point de vue géométrique dans le cadre de l'analyse multidimensionnelle [107]. Nous avons choisi cette approche géométrique pour mettre en évidence la relation entre ces méthodes et montrer comment elles prennent en compte la structure des données.

Soit un triplet déni par Z,Q et D :

Z est une matrice(n, p)qui contientpvariables pourn individus. Les colonnes deZ sont des vecteurs de Rn; les lignes sont des vecteurs de Rp.

Qest une matrice dénie positive(p, p)qui dénit le produit scalaire dans Rp, c'est à dire les distances entre les individus.

D est une matrice (n, n)qui dénit le produit scalaire dans Rn, c'est à dire les distances entre les variables.

Le triplet (Z, Q, D)peut être disposé dans un schéma de dualité [108, 109] :

R

p

De ce schéma découle un processus unique de "diagonalisation d'un schéma de dualité", qui aboutit à des combinaisons linéaires des variables, Zα, qui maximisent kZαkD. Ces combinai-sons linéaires dénissent un espace dans lequel la variance de Z est maximale. La solution est unique et donnée par la décomposition en valeurs singulières de la matriceQZtDZ. Cette ma-trice est diagonalisable et a p valeurs propres λi, i= 1..p, parmi lesquelles r sont non nulles, r étant le rang de la matriceZ. Cesrvaleurs propres sont positives et telles queλ1 ≥λ2 ≥...≥λr.

1Par la suite nous utiliserons l'abréviation BGA, pour Between-Group Analysis

Elles maximisent kZαkD sous la contrainte deQ−1-orthonormalité. Le premier vecteur propre α1, associé àλ1 maximisekZαkD. Le maximum correspondant estλ1. Le second vecteur propre α2 maximisekZαkD, et est Q−1-orthogonal àα1, et ainsi de suite.αest la matrice(p, r)dénie par les vecteurs propres en colonne. Ils forment une nouvelle base dans laquelle la variance du nuage de points des individus est maximale.

L'application la plus simple de ce schéma est l'Analyse en Composantes Principales (ACP) [28], dont l'objectif est de dénir un sous-espace des variables qui rende maximale la variance totale des données. Dans cette méthode, les individus et les variables ont respectivement le même poids. Cela revient à dénir un triplet(Z, Q, D) = (Z, Ip,n1(In)), qui conduit au schéma général de la gure 4.2 :

R

p

Ip

//

R

p

Z

R

n

Zt

OO

R

n

1n(In)

oo

Fig. 4.2: Schéma de dualité de l'analyse en composantes principales.

Dans ce cas le plus simple, il n'y a aucune notion sur l'appartenance des individus à des groupes prédénis ; c'est la variance totale qui est maximisée. L'objectif de l'AD et de la BGA est de maximiser la variance inter-groupes. Il est donc nécessaire d'introduire de l'information sur les groupes, ce qui conduit à une nouvelle dénition du triplet (Z, Q, D).

4.2.2 Choix de Z

SoitXla matrice des données d'expression, avec autant de lignesnque d'individus, et autant de colonnes p que de gènes. Soit Y la matrice (n, k) qui dénit la partition des individus en k groupes. Enn, soit PY le projecteur déni parPY =Y(YtDY)−1(YtD). Projeter une variable quelconque sur un vecteur d'indicatrices de classes revient à calculer les moyennes de cette variable dans chacune des classes. Z = PYX est une matrice de dimension (n, p) où la valeur de chacune des variables d'un individu est remplacée par la moyenne de cette variable pour le groupe auquel il appartient. Avec ce choix, maximiser la variance de Z revient à maximiser la

variance inter-groupes deX. Les vecteurs αi,i= 1, ..., k−1, correspondant à la décomposition en valeurs singulières deQZtDZ sont les axes discriminants ; ils dénissent un sous-espace dans lequel les individus sont séparés selon les groupes auxquels ils appartiennent.

4.2.3 Choix de D

Rappelons queDdénit le poids des individus pour le calcul des distances entre les variables.

Dans le cas des biopuces, la même importance est donnée à tous les individus, ce qui conduit à choisir D= n1In.

4.2.4 Choix de Q

Du choix de Qvont résulter deux méthodes diérentes : l'analyse discriminante et l'analyse inter-groupes.

4.2.4.1 Analyse inter-groupes

C'est le cas le plus simple,Qétant déni comme la matrice identité(p, p):Q=Ip. Le triplet correspondant est(Z, Ip,n1In) = (PYX, Ip,1nIn), ce qui correspond aux schémas de la gure 4.3.

Cette analyse correspond à une ACP sur le tableau des moyennes. Dans leur article, Culhane et al. [39] proposent une deuxième utilisation de l'analyse inter-groupes, basée sur une Analyse des Correspondances inter-groupes. Dans ce cas, les données d'expression sont vues comme une table de contingence où les gènes et les individus deviennent deux variables qualitatives.

Jugeant que les individus ne sont pas réellement des variables qualitatives, nous avons préféré nous concentrer sur la version ACP. Dans leur article, les auteurs ne font pas de préconisation précise quant à l'utilisation privilégiée de l'une ou l'autre forme d'analyse.

4.2.4.2 Analyse discriminante

Cette fois, Q= n1(XtX)−1, ce qui conduit au schéma de dualité de la gure 4.4.

Les distances entre les individus font intervenir la matrice de variance-covariance deX. Plus concrètement, cela signie que la structure de variance à l'intérieur de chacun des groupes est prise en compte pour la détermination des axes discriminants, alors qu'elle ne l'est pas dans l'analyse inter-groupes. On peut aussi choisir pour Q la moyenne des variances intra-groupes plutôt que la variance totale. La variance totale se décomposant en variance intra- et

inter-R

p

Fig. 4.3: Schéma de dualité de l'analyse inter-groupes.

R

p

Fig. 4.4: Schéma de dualité de l'analyse discriminante.

groupes, les deux formes pour Q conduisent aux mêmes valeurs propores à une constante près.

Le choix de la variance totale est fait dans l'approche dite "géométrique", tandis que le choix de la variance intra-groupes est fait dans l'approche dite "probabiliste". Dans les deux cas, on fait l'hypothèse que les variances sont les mêmes dans chacun des groupes. Ce choix de Q fait intervenir le calcul de l'inverse de X, qui pose problème dans le cas où p >> n, la matrice X étant singulière. Ceci implique pour l'AD une première étape de réduction de la dimension, que nous avons eectuée soit par une ACP (méthode ACP+AD), soit par une approche PLS (méthode PLS+AD).

La diérence majeure entre la BGA et l'AD se résume au choix de la métrique Q, qui fait intervenir ou non la structure de variance dans chacun des groupes. C'est donc la structure du jeu de données qui doit être au coeur de la comparaison des performances prédictives de ces méthodes.

4.2.5 Critère de comparaison des méthodes

Nous nous sommes placés dans le cas particulier de deux groupes, qu'un seul axe discriminant sut à séparer. Sur cet axe est déni le seuil suivant, proposé par Culhane et al. [39] :

G1SDG2+ ¯XG2SDG1

SDG1+SDG2

où X¯G1, X¯G2, SDG1, et SDG2 sont respectivement les moyennes et écarts-types des coor-données des individus dans chacun des deux groupes. Ce seuil permet de tenir compte de la variance dans chacun des groupes. Cette pondération n'est pas classique, la pondération la plus usuelle étant l'inverse de la variance.

Pour comparer les performances prédictives des méthodes, nous avons choisi la proportion d'individus bien classés obtenue par validation croisée. A chaque étape de validation croisée, deux tiers des patients sont sélectionnés aléatoirement pour la constitution du jeu de travail, et le tiers restant constitue le jeu test ; ce processus est répété 50 fois. Dans le cas de l'AD, la sélection du nombre optimal de composantes pour l'ACP et la PLS est incluse dans le processus de validation croisée. Celui-ci est répété pour chaque nombre potentiel de composantes et c'est le nombre de composantes qui maximise la proportion de bien classés qui est retenu. Ce même processus avait été employé par Bouleistex [46]. Nous avons contraint le nombre optimal de

composantes retenues à ne pas dépasser 13, après avoir observé que davantage de composantes ne permettait pas d'améliorer les prédictions.