• Aucun résultat trouvé

Analyse canonique régularisée pour des données fortement multidimensionnelles

N/A
N/A
Protected

Academic year: 2021

Partager "Analyse canonique régularisée pour des données fortement multidimensionnelles"

Copied!
134
0
0

Texte intégral

(1)

THÈSE

présentée en vue de l'obtention du

DOCTORAT DE L'UNIVERSITÉ PAUL SABATIER

TOULOUSE III

Discipline : Mathématiques

Spécialité : Statistique

par

Ignacio González

Analyse Canonique Régularisée pour des

données fortement multidimensionnelles

Soutenue le 30 novembre 2007 devant le jury composé de Messieurs :

Alain Baccini Université Paul Sabatier Codirecteur Philippe Besse Université Paul Sabatier Président

David Causeur Agrocampus Rennes Rapporteur

JeanJacques Daudin INA ParisGrignon Rapporteur

José León Université Central de Venezuela Codirecteur

Thierry Pineau INRA Toulouse Examinateur

Institut de Mathématiques de Toulouse

(2)
(3)
(4)
(5)

Remerciements

Je tiens tout d'abord à remercier Monsieur Le Professeur Alain Baccini qui m'a guidé tout au long de ce passionnant travail de recherche. Je le remercie très sincèrement de son aide, de ses remarques et suggestions, et de ses nombreux encouragements.

Ma plus sincère gratitude va également à mon Professeur José León qui m'a fait m'in-téresser à la Statistique et aux Probabilités dès mes études de Licence en Mathématiques. Qu'il sache l'amitié et l'admiration que je lui porte.

Je remercie Messieurs Les Professeurs David Causeur et JeanJacques Daudin qui ont accepté d'être les rapporteurs de ce travail et qui m'ont fait de nombreuses remarques et suggestions pertinentes.

Je remercie aussi Messieurs Les Professeurs Philippe Besse et Thierry Pineau de leur participation, en tant que président et examinateur, à ce jury.

Je tiens à remercier les diérents coauteurs des travaux conjoints que nous avons dé-veloppés pendant cette recherche pour tout ce qu'ils m'auront appris et apporté, à savoir A. Baccini, S. Déjean, P. Besse, P. Martin, O. Gonçalves et S. Combes.

Je tiens à remercier l'Université de Carabobo pour son soutien et pour m'avoir permis de réaliser ce travail de recherche au sein du Laboratoire de Statistique et Probabilités de l'Université Paul Sabatier.

J'en prote aussi pour remercier tous les membres du Laboratoire de Statistique et Probabilités qui m'ont accueillis chaleureusement. J'ai notamment particulièrement ap-précié l'accueil que m'ont réservé A. Baccini, S. Déjean, P. Besse, F. Gamboa et J.M. Azaïs.

J'exprime aussi toute ma gratitude à Françoise Michel et à Agnès Requis pour leur dévouement et leurs compétences.

Mes remerciements vont aussi aux doctorants qui ont partagé avec moi un bureau, une soirée de foot, une pause de café. . . , merci pour leur accueil.

Merci à ma famille et à mes amis pour leurs nombreux encouragements. Enn, pour tout ce qu'elle m'apporte, son aide, son soutien, sa présence,. . . je remercie Alicia.

(6)
(7)

i

Table des matières

Table des matières i

1 Introduction 1

2 Analyse Canonique : principes généraux 9

2.1 Introduction . . . 9

2.2 Notations . . . 10

2.3 Principe de la méthode . . . 11

2.4 Formulation de l'analyse canonique . . . 12

2.4.1 Formulation algébrique . . . 12

2.4.2 Formulation géométrique . . . 16

2.5 Une importante propriété d'invariance de l'AC . . . 18

2.6 Aspects algorithmiques . . . 19

2.6.1 Algorithme basé sur la formulation algébrique . . . 20

2.6.2 Algorithme basé sur la formulation géométrique . . . 21

3 Analyse Canonique : représentations graphiques 23 3.1 Introduction . . . 23

3.2 Représentations graphiques usuelles . . . 24

3.2.1 Représentation des variables . . . 25

3.2.2 Représentation des individus . . . 27

3.2.3 Choix de la dimension . . . 28

3.3 Les données nutrigénomiques : mise en ÷uvre de l'AC . . . 29

3.3.1 Les données . . . 29

3.3.2 Mise en ÷uvre de l'Analyse Canonique . . . 30

3.4 Représentations graphiques alternatives . . . 33

3.4.1 Identication des couples de variables avec une forte corrélation . . . 33

3.4.2 Application aux graphiques de variables . . . 34

3.4.3 Graphiques de réseaux . . . 34

3.4.4 Cartes de double classication . . . 36

4 Analyse Canonique Régularisée 39 4.1 Introduction . . . 39

(8)

4.2.1 Pourquoi il est essentiel de régulariser ? . . . 40

4.2.2 Le problème de multicolinéarité . . . 41

4.2.3 Régularisation ridge en AC . . . 43

4.2.4 Régularisation par shrinkage des matrices de covariances . . . 44

4.3 Choix des paramètres λ1 et λ2 . . . 47

4.4 Exemple . . . 49 5 Le package CCA 51 5.1 Introduction . . . 51 5.2 Preliminary . . . 51 5.3 Performing CCA . . . 52 5.3.1 Classical CCA . . . 52 5.3.2 Regularized CCA . . . 54 5.4 Conclusion . . . 57

6 Analyse Canonique Régularisée : applications 59 6.1 Introduction . . . 59

6.2 Example 1 : Nutrigenomic data . . . 60

6.2.1 Statistical data analysis . . . 60

6.2.2 Biological considerations . . . 60

6.2.3 Conclusion . . . 63

6.3 Example 2 : Multidrug resistance data . . . 64

6.3.1 Data set . . . 64

6.3.2 Statistical data analysis . . . 65

6.3.3 Biological and chemical considerations . . . 67

6.3.4 Conclusion . . . 72

6.4 Example 3 : Rabbit meat quality data . . . 74

6.4.1 Data set . . . 74

6.4.2 Statistical data analysis . . . 75

6.4.3 Conclusion . . . 77

7 Analyse Canonique sous la contrainte LASSO : la méthode CCALAS 79 7.1 Introduction . . . 79

7.2 La méthode LASSO . . . 80

7.3 La méthode CCALAS : l'AC sous la contrainte LASSO . . . 81

7.3.1 Principe . . . 81

7.3.2 Les paramètres de réglage . . . 85

7.3.3 Implémentation . . . 86 7.4 Exemple . . . 87 7.5 Commentaires et perspectives . . . 87 8 Conclusions et perspectives 89 Annexe 93 Bibliographie 117

(9)

1

Chapitre 1

Introduction

Au cours de la dernière décennie, les progrès biotechnologiques et le développement de la bioinformatique ont révolutionné l'étude de la biologie moléculaire. En particulier, les techniques de puces à ADN (ou biopuces, ou microarray en anglais) sont devenues un outil standard dans la recherche génomique. Cette technologie permet aux scientiques d'étudier simultanément l'expression de centaines, voire de milliers, de gènes d'un échan-tillon expérimental. Plus récemment encore, les développements des technologies à haut débit ont permis d'obtenir des données biologiques encore plus complexes, comme par exemple l'expression des gènes conjointement observée avec d'autres variables biologiques (mesures de phénotypes, d'activités pharmacologiques. . .). Dans le contexte des systèmes biologiques, le but de telles expériences est de mettre en évidence les relations entre l'ex-pression des gènes et d'autres variables biologiques an de mieux comprendre certaines interactions complexes.

La spécicité majeure de toutes ces données est la très haute dimensionnalité du nombre de gènes dont l'expression est observée sur un nombre comparativement très restreint d'échantillons biologiques. De façon formelle, le problème se pose comme l'obser-vation d'une variable, l'expression (ou quantité d'acide ribonucléique messager ARNm produite), dans des situations expérimentales croisant au moins deux facteurs : le gène et le type d'échantillon biologique (tissu sain ou pathologique, cellule sauvage ou modiée. . .). Le premier facteur peut présenter de quelques centaines à quelques dizaines de milliers de niveaux, tandis que le second, pour des raisons évidentes de coûts, ne présente en général que quelques dizaines de niveaux au maximum. De même, dans le contexte de données à haut débit, on peut obtenir une haute dimensionalité sur l'ensemble des autres variables biologiques. En conséquence, nous sommes face au paradigme d'un nombre de variables plus grand que la taille de l'échantillon (West et al., 2000 ; Kosorok et Ma, 2005). Dans ce contexte, l'étude des relations entre les expressions des gènes et d'autres variables biologiques a suscité une demande croissante d'outils statistiques appropries. L'idée ayant motivé de telles études est que la mise en évidence de ces relations doit permettre d'appréhender les phénomènes biologiques sousjacents. Sans être totalement exhaustif, nous citons cidessous les outils statistiques les plus fréquemment rencontrés pour répondre à ce problème.

(10)

Une première approche pour la mise en relation de deux ensemble de variables est la régression PLS. La régression PLS est une technique récente qui généralise et com-bine des caractéristiques de l'Analyse en Composants Principales (ACP) et de la régression linéaire multiple. C'est une méthode permettant la prédiction d'un en-semble de variables dites dépendantes à partir d'un autre enen-semble de variables dites indépendantes, ou prédicteurs (en général assez nombreux et fortement colinéaires). Remarquons que l'accent est mis sur la prédiction des réponses et non sur la mise en évidence des relations entre les deux ensemble des variables.

La régression PLS a été initialement introduite en sciences sociales (plus précisé-ment en économie : Wold, 1966) mais s'est ensuite répandue d'abord en chimiometrie (Geladi et Kowalski, 1986) puis en évaluation sensorielle (Martens et Naes, 1989). Plus récemment, la régression PLS à aussi été utilisée pour analyser des données de biopuces (Nguyen and Rocke, 2002 ; Bouslesteix, 2004 ; Brilli et al., 2007). Une bibliothèque de programmes réalisés avec le logiciel statistique R (Comprehensive R Archive Network), permettant de réaliser la régression PLS, est décrite dans Mevik and Wehrems (2007).

Une autre approche est l'analyse de coinertie (ACI) introduite par Dolédec et Chessel (1994). L'analyse de coinertie est couramment utilisée pour analyser les relations entre une liste d'espèces et les propriétés physicochimiques environnementales. Ce-pendant, elle a aussi été utilisée dans le cadre de la bioinformatique pour analyser les propriétés d'aminoacides (Thioulouse et Lobry, 1995) et pour comparer diérentes plateformes de données d'expression de gènes (Culhane et al., 2003). L'analyse de coinertie est une méthode itérative dans laquelle, à chaque étape, on cherche un couple de vecteurs (correspondant à chacun des ensembles de données) vériant cer-taines contraintes d'orthogonalité et maximisant un critère de covariance. En fait, l'ACI est très proche de la régression PLS. La mise en ÷uvre de l'ACI peut être réalisée en utilisant la bibliothèque MADE4 de R (Comprehensive R Archive Net-work), disponible dans bioconductor.org.

Deux autres approches simples pour étudier des structures de dépendance (linéaires) entre deux ensembles de variables sont la méthode appelée relevance network et les cartes de double classication (heatmaps ou clustering image maps), nécessitant en entrée une matrice de corrélations.

La première approche est conceptuellement plus simple, a été introduite par Butte et al. (2000) et se développe de la façon suivante. D'abord, la matrice de corrélations est estimée à partir des données. Ensuite, un graphe est généré, dans lequel chaque variable correspond à un sommet, les arêtes représentés indiquant que la corrélation entre deux variables est supérieure à un certain seuil choisi a priori (0.8 par exemple). Dans la terminologie statistique on connaît aussi ce type de modèles de réseau comme covariance graph (Cox et Wermuth, 1993). On trouvera des applications de cette méthode, dans le contexte des données génomiques, dans Butte et al. (2000) et Moriyama et al. (2003) qui l'ont utilisé pour identier des associations importantes

(11)

1. Introduction 3

entre les expressions de gènes et les activités des drogues anticancéreuses.

La deuxième approche, introduite par Weinstein et al. (1997), consiste en une repré-sentation de la matrice de corrélations comme une image en couleurs articielles où chaque entrée de la matrice est colorée sur la base de sa mesure et où les lignes et les colonnes sont arrangées selon une double classication hiérarchique. Des groupes de variables, avec des fortes corrélations, sont représentées sur l'image comme des taches de couleurs très semblables. Cette méthode a été appliquée dans des études pharmacogénomiques par Weinstein et al. (1997), Scherf et al. (2000) et Szakács et al. (2004) pour la mise en relation entre les expressions des gènes et les activités des drogues anticancéreuses.

Enn, une dernière approche consiste en la Décomposition en Valeurs Singulières Géné-ralisée (DVSG) de deux matrices (Golub et Van Loan, 1996). La DVSG diagonalise simultanément deux matrices avec le même nombre de colonnes (lignes). La DVSG permet de dénir des angles entre deux sousespaces tels que le plus grand angle s'ap-proche de zéro lorsque les sousespaces s'aps'ap-prochent l'un de l'autre. La DVSG a été utilisée récemment, dans l'analyse de puces à ADN, pour comparer deux ensembles de données de biopuces provenant d'organismes diérents (Alter et al., 2003).

Dans tous les cas décrits cidessus, lorsque l'objectif est d'étudier les relations entre deux ensembles de variables observés sur les mêmes unités expérimentales, et non néces-sairement d'expliquer un ensemble de variables à partir de l'autre, l'Analyse Canonique nous semble la méthode statistique la plus appropriée pour analyser les données.

L'Analyse Canonique (AC) est une ancienne méthode statistique qui a été introduite initialement par Hotelling (1936). Elle présente des analogies à la fois avec l'Analyse en Composantes Principales (ACP), pour la construction et l'interprétation des graphiques, et avec la régression PLS, pour la nature des données. Cependant, la principale particula-rité de l'AC par rapport à l'ACP, est l'étude des relations entre deux groupes de variables. Par ailleurs, la plus grande distinction entre l'AC et la régression PLS, est que, tandis qu'en AC les deux groupes de variables sont traitées de manière symétrique, ce n'est pas le cas en la régression PLS où il s'agit d'expliquer l'un par l'autre.

L'AC est, sur le plan théorique, la méthode centrale de la statistique descriptive mul-tidimensionnelle, dans la mesure où elle généralise diverses autres méthodes. De ce point de vue, on retrouve la régression linéaire multiple lorsqu'un des deux groupes de variables ne comporte qu'une seule variable. L'AC redonne l'Analyse Factorielle Discriminante lors-qu'un des deux groupes de variables est remplacé par les indicatrices d'une variable qua-litative. Elle redonne également l'Analyse Factorielle de Correspondances lorsque chacun des deux groupes est remplacé par les indicatrices d'une variable qualitative. Signalons également qu'il existe certaines généralisations de l'AC à plus de deux groupes de va-riables quantitatives qui permettent de retrouver l'Analyse de Correspondances Multiples en remplaçant chaque groupe par les indicatrices d'une variable qualitative, ainsi que l'ACP, en ne considérant qu'une seule variable dans chaque groupe.

(12)

Les tout premiers travaux relatifs à l'AC sont relativement anciens. On trouve en pre-mier lieu le travail précurseur de Hotelling (1936), introduisant l'AC comme une approche itérative. Anderson (1958), puis Cohen et BenIsrael (1969), ont traduit l'approche clas-sique de Hotelling comme un problème d'analyse spectrale. Une autre formulation a été donnée par Dempster (1969) et reprise par Björch et Golub (1973), en termes d'angles entre sousespaces. D'importants développements se trouvent dans les ouvrages d'Ander-son (1958), de Caillez et Pagès (1976), de Mardia, Kent et Bibby (1979), de Muirhead (1982) et de Saporta (2006) entre autres. Signalons par ailleurs que la monographie de Gittins (1985) est la référence, tant sur le plan théorique que sur le plan appliqué, dans le domaine de l'écologie.

En dépit de sa place centrale au sein des méthodes de statistique multidimensionnelle, pendant longtemps, l'AC n'a pas eu le succès des autres techniques de même nature, notamment compte tenu du petit nombre d'applications auxquelles elle donnait lieu. Ce-pendant, l'AC est de plus en plus utilisée ces dernières années du fait de la production croissante de données relevant typiquement de l'AC quant à leur traitement. En particu-lier, tout récemment, cela a été le cas avec l'apparition des données de biopuces.

Un premier exemple d'application de l'AC sur des données génomiques se trouve dans Baccini et al. (2005), dont un des objectifs, à travers l'expérimentation biologique mise en ÷uvre, était de mettre en relation l'expression de certains gènes avec les quantités d'acides gras hépatiques chez la souris. Cet exemple présente un intérêt particulier, puisque l'étude de ces données a motivé la réalisation de ce travail. Il sera donc notre exemple guide pour illustrer les approches proposées ultérieurement.

Sans entrer pour le moment dans les détails (les données seront présentées au chapitre 3), ces données nous on été fournies par l'Unité de Recherche 66 de l'INRA de Toulouse. Elles proviennent d'une étude de nutrition chez la souris. Il s'agit d'une population de 40 souris sur lesquelles, entre autres choses, on a observé deux groupes de variables. Un premier groupe est constitué par l'expression de 120 gènes spéciques de la nutrition chez la souris. Chaque variable est en fait la mesure (quantitative) de l'expression du gène correspondant, réalisée par macroarrays sur membranes de nylon avec marquage radioac-tif. Un deuxième groupe de variables est constitué par les pourcentages de 21 acides gras hépatiques ; il s'agit de variables quantitatives, avec la particularité que, tous les acides gras hépatiques ayant été pris en compte, la somme de ces variables vaut 100 pour tout individu.

De façon simpliée, la question qu'on se pose est de savoir s'il existe des liens entre les variations de certains acides gras et les variations de l'expression de certains gènes. Comme les acides gras peuvent avoir un eet sur l'expression des gènes et que par ailleurs plusieurs gènes auxquels nous nous sommes intéressés peuvent modier le métabolisme et l'abondance des acides gras, nous nous sommes orientés en priorité vers l'analyse cano-nique pour laquelle les deux ensembles de variables jouent des rôles symétriques.

(13)

1. Introduction 5

Cependant, lors d'études préliminaires, nous avons constaté que le nombre de variables devait être sensiblement inférieur au nombre d'individus. En eet, lorsque le nombre de variables est relativement important par rapport au nombre d'individus, on se retrouve avec plusieurs corrélations canoniques égales à 1, l'AC étant alors mise en défaut. Devant ce constat, diverses solutions ont été envisagées. Dans un premier temps, une sélection des gènes et des acides gras a été indispensable avant de pouvoir mettre en ÷uvre l'AC (Baccini et al., 2005). Dans un deuxième temps, qui est l'objet de ce travail, nous avons proposé des méthodes spéciques permettant de conserver l'ensemble des variables de chaque groupe ou du moins la plupart d'entre elles. Nous présentons brièvement cette démarche cidessous.

Considérons les données sous la forme de deux matrices X et Y , de tailles n × p et n × q respectivement, croisant les individus en lignes et les variables en colonnes. Dans des situations comme décrites cidessus, où le nombre de variables est relativement important par rapport au nombre d'individus, l'AC peut donner de très mauvais résultats, puisque cette méthode nécessite l'inversion des matrices X0X et Y0Y (A0 désigne la transposée de

la matrice A) qui peut se révéler dicile, voire impossible, pour deux raisons. La première est qu'on peut avoir p > n et/ou q > n, de sorte que les matrices X0X et/ou Y0Y sont

non inversibles. La seconde raison est qu'il y a de fortes chance d'avoir une colinéarité im-portante entre les variables dans chaque groupe, même si p ≤ n et q ≤ n. Pour contourner ce problème, les solutions suivantes ont été envisagées.

• Cohen et BenIsrael (1969) ont proposé d'identier les variables linéairement dé-pendantes en X et/ou en Y , au moyen de la décomposition de Cholesky de leurs matrices de covariances respectives, puis de les supprimer.

• Björck et Golub (1973) ont pallié ce problème en considérant des approximations des matrices X et Y respectivement par des matrices ˜X et ˜Y de rangs inférieurs. • Vinod (1976) a étendu le principe de la ridge regression (Hoerl et Kennard, 1970)

à l'AC. Ce principe consiste tout d'abord en la régularisation des matrices X0X et

Y0Y en leur ajoutant un multiple de la matrice identité X0X + λ1Ip, Y0Y + λ2Iq,

avec λ1 et λ2 réels positifs. Ensuite on applique l'AC ordinaire en utilisant ces

ma-trices en lieu de X0X et de Y0Y respectivement.

Dans ce travail, on se propose d'apporter une contribution à l'étude des relations entre deux ensembles de variables dans le contexte de l'AC. Le problème qui va nous intéresser est celui de l'Analyse Canonique Régularisée (ACR) et son application à des données de grandes dimensions.

Les techniques de régularisation, introduites initialement par Tikhonov (1963) dans le contexte des problèmes inverses, ont été assez utilisées pour résoudre des problèmes mal conditionnés. Cependant, le premier article en statistique incluant l'idée de régularisation

(14)

est le travail bien connu de Hoerl et Kennard (1970) dénissant la régression ridge. Pro-bablement, le premier travail de statistique utilisant les méthodes appelées régularisées est l'article de Friedman (1989) dénissant l'Analyse Discriminante Régularisée, méthode récemment appliquée par Guo et al. (2007) dans le contexte de données de biopuces. De façon plus générale, des travaux concernant des méthodes de régularisation peuvent être trouvés dans Hastie et al. (1995) et dans Bickel et Li (2006). Néanmoins, l'AC régularisée n'est pas mentionnée par ces derniers. Dans le contexte de l'AC, l'idée de régularisation a été initialement proposée par Vinod (1976), puis développée par Leurgans et al. (1993) pour son application au cas de données fonctionnelles. Enn, dans le même cadre des données fonctionnelles, l'AC régularisée a aussi été considérée par Ramsay et Silverman (2005).

Un autre aspect de ce travail, dans le cadre des méthodes appelées de rétrécissement (shrinkage), est l'étude de l'AC sous la contrainte LASSO. La méthode appelée LASSO (Least Absolute Shrinkage and Selection Operator) a été introduite initialement par Tib-shirani (1996) dans le contexte de la régression linéaire multiple. Elle impose une borne supérieure pour la somme des valeurs absolues des coecients de régression et possède l'intéressante propriété de rétrécir quelquesuns de ces coecients vers zéro. La méthode LASSO a été récemment étendue à l'ACP et à l'Analyse Discriminante par Trendalov et Jollie (2006, 2007). Nous adaptons la procédure appliquée par ces auteurs pour résoudre notre problème : l'AC sous la contrainte LASSO. La méthode ainsi proposée sera appelée CCALAS (Canonical Correlation Analysis by Least Absolute Shrinkage).

Enn, pour exploiter les résultats issues d'une AC, on est, avant tout, intéressé par la mise en évidence des phénomènes les plus marquants. Pour cela, on recherche une visua-lisation des données aidant à l'interprétation des résultats obtenus. Pour répondre à cet objectif, on propose un certain nombre de méthodes graphiques dans ce travail. Quelques unes sont inspirées, de manière plus ou moins directe, de techniques relativement connues ; d'autres sont de développement plus récent.

Une représentation classique en AC, permettant de visualiser les relations existant entre deux ensembles de variables, est le graphique appelé graphique des structures de corrélation proposé par Caillez et Pagès (1976), van der Burg et de Leeuw (1983) et ter Braak (1990). Ce type de graphique ressemble au cercle des corrélations, bien connu en ACP, tant par son principe que par son interprétation. Comme en ACP, il est aussi pos-sible de faire une représentation graphique des individus. Si les individus comportent un intérêt en euxmêmes (notamment s'ils caractérisent un plan factoriel) leur représentation peut être utile pour compléter l'interprétation du graphique des variables.

Lorsque le nombre de variables est trop important, nous proposons une méthode pour réaliser des graphiques de lecture plus facile. Cette méthode consiste à dénir un indica-teur permettant de sélectionner les variables dont les associations sont les plus importantes et de les identier sur les graphiques de la structure de corrélation. Cet indicateur permet aussi la construction des représentations graphiques appelées relevance networks (Butte et al., 2000) et des cartes de double classication (clustered image maps ou heatmaps ;

(15)

1. Introduction 7

Weinstein et al., 1997) fréquemment utilisées depuis quelques temps pour visualiser des données fortement multidimensionnelles (par exemple des données génomiques à haut débit).

Pour terminer ce chapitre, nous détaillons le plan de ce travail.

Le second chapitre présente les principes généraux de l'AC. L'AC pouvant être formulée de plusieurs manières, deux formulations seront décrites : la première, de nature algébrique, comme un problème d'optimisation sous contraintes ; la deuxième, de nature géométrique, en termes d'angles entre sousespaces. Les aspects algorith-miques associés à ces formulations seront aussi précisés.

Le troisième chapitre est consacré aux représentations graphiques en AC. D'abord, deux sortes de graphiques sont considérés : le graphique des variables (connus dans la littérature comme graphiques de la structure de corrélation) et le graphique des individus. L'intérêt de ces représentations graphiques étant d'obtenir des résultats pertinents dans une dimension réduite, nous donnerons des critères empiriques pour aider au choix de la dimension. Nous proposons aussi dans ce chapitre une méthode pour réaliser des graphiques de lecture plus facile lorsque le nombre de variables est trop important. Cette méthode permet de réaliser des représentations alternatives : les graphiques de réseaux (relevance networks) et des cartes de double classica-tion (Clustered Image Maps ou heatmaps). An d'illustrer les diérentes approche proposées, nous présentons dans ce chapitre les données nutrigénomiques qui ont motivé la réalisation de ce travail.

Dans le quatrième chapitre, nous présentons l'Analyse Canonique Régularisée. Cette mé-thode correspond en fait à une extension à l'AC du principe de la régression ridge. La mise en ÷uvre de l'AC régularisée nécessitant le choix de deux paramètres de réglage, nous proposons une méthode de validation croisée pour traiter ce problème. Deux autres méthodes de régularisation sont également évoquées : par transforma-tions orthogonales des matrices et par shrinkage des matrices des covariances. Enn, pour illustrer l'eet de la régularisation, nous appliquons l'AC régularisée à un jeu de données simulées.

Le chapitre 5 a pour but d'illustrer les possibilités oertes par la bibliothèque (package) CCA que nous avons développée pour la mise en ÷uvre de l'AC et de sa version régularisée. Nous présenterons le package au moyen d'une suite d'exemple. La des-cription des fonctions associées à l'AC ordinaire et régularisée est accompagnée d'illustrations graphiques ainsi que des séquences de commandes nécessaires à sa mise en ÷uvre.

Le chapitre 6 est consacré à la présentation de trois exemples où l'AC régularisée est appliquée. Le premier exemple est celui des données nutrigénomiques présenté au chapitre 3. Il est repris dans ce chapitre pour étendre l'analyse à l'ensemble de toutes

(16)

les variables et pour la compléter avec des considérations biologiques. Le deuxième exemple est un jeu de données public, provenant d'une étude pharmacogénomique, déjà analysé par Szakács et al. (2004). Nous le reprenons pour mettre en évidence l'intérêt de la méthode proposée. Des considérations externes sont utilisées pour la mise en relief de la pertinence des résultats obtenus. Le dernier exemple concerne des données provenant d'une étude de qualité de la viande de lapin. Nous appliquons l'AC régularisée pour étudier les relations entre, d'une part, un ensemble de mesures physicochimiques et, d'autre part, une évaluation sensorielle réalisée par un jury sur cette viande.

Dans le chapitre 7, nous proposons une autre formulation de l'AC. Elle consiste à im-poser une contrainte supplémentaire de type LASSO dans la formulation standard de l'AC. Cette méthode sera appelée CCALAS. Les paramètres intervenant dans sa mise en ÷uvre, ainsi que certains aspects de son implémentation seront décrits. Nous illustrerons la méthode proposée au moyen de l'exemple simulé au chapitre 4. Des perspectives de développement, ainsi que quelques comparaisons avec l'AC régularisée, seront données.

(17)

9

Chapitre 2

Analyse Canonique : principes généraux

2.1 Introduction

L'Analyse Canonique (AC) est une méthode de statistique descriptive multidimen-sionnelle qui présente des analogies à la fois avec l'Analyse en Composantes Principales (ACP), pour la construction et l'interprétation des graphiques, et avec la régression li-néaire, pour la nature des données. L'objectif général de l'AC est d'explorer les relations pouvant exister entre deux ensembles de variables quantitatives observées sur les mêmes individus. L'étude des relations entre deux groupes de variables constitue la principale particularité de l'AC par rapport à l'ACP. De ce point de vue, l'AC est davantage proche de la régression linéaire multiple (explication d'une variable quantitative par un ensemble d'autres variables quantitatives), méthode dont elle constitue, d'ailleurs, une généralisa-tion. On retrouve la régression linéaire multiple lorsqu'un des deux groupes de variables dans l'AC ne comporte qu'une seule variable.

Le principe de l'AC est analogue à celui de l'ACP. Dans les deux cas, l'analyse consiste à chercher une base privilégiée dans l'espace des variables. En ACP, le critère utilisé pour rechercher cette base est la maximisation de la variance des variables principales suc-cessives ; en AC c'est la maximisation de la corrélation entre les couples de variables canoniques successives. En AC, si n est le nombre d'individus observés, on peut considé-rer deux sousespaces vectoriels de IRnengendrés par chaque ensemble de variables, disons

de dimension p et q correspondant aux variables X (n × p) et Y (n × q) respectivement. Cependant, il est possible de faire un changement de base dans chaque sousespace de telle sorte que la structure de corrélation des données soit clairement révélée. De plus, les nouveaux systèmes de coordonnées facilitent une réduction de dimension (comme en ACP). Algébriquement, le problème est de trouver des transformations linéaires de chaque ensemble de variables, Us = Xas et Vs = Y bs, telles que le coecient de corrélation entre

les variables Us et Vs soit maximum. Les variables Us et Vs, dénissant les axes du

nouveau système de coordonnées, sont appelées variables canoniques et le coecient de corrélation ρs entre les variables canoniques Us et Vs est appelé corrélation canonique.

En tout il y aura s = min(p, q) couples de telles variables. Comme en ACP, les couples de variables canoniques sont non corrélés avec les précédents.

(18)

Une autre méthode assez voisine de l'AC est la régression PLS (Wold, 1966). La régres-sion PLS, comme l'AC, est une méthode pour analyser les relations entre deux ensembles de variables. Les deux méthodes déterminent des combinaisons linéaires des variables X et Y respectivement, en maximisant un critère qui mesure la liaison. Bien que les deux méthodes semblent voisines, elles dièrent fondamentalement, tant dans leurs propriétés numériques que dans l'interprétation de leurs résultats. Contrairement à ce qu'il se passe en AC, les deux ensembles de variables X et Y ne sont pas symétriques en régression, puisqu'il s'agit de prévoir un ensemble de variables dépendantes Y à partir d'un autre ensemble (en général assez grand ou fortement colinéaires) de variables indépendantes X. Lorsque X est de rang plein, la modélisation de Y au moyen de X est généralement faite en utilisant la Régression Linéaire Multivariée. Mais, dans cette dernière, on suppose la normalité des variables réponse Y , alors qu'aucune hypothèse de cette nature n'est faite en AC. L'avantage de cette hypothèse (lorsqu'elle est raisonnable) est de permettre de réaliser des tests dans le modèle de régression.

Dans ce chapitre nous donnerons les éléments essentiels de la théorie de l'AC. Nous commencerons par exposer le principe de la méthode, puis la formulation du problème. L'AC pouvant être formulée de plusieurs façons, deux formulations seront décrites : en termes algébriques, comme un problème d'optimisation sous contraintes, et en termes géométriques, comme la recherche d'angles entre sousespaces dans un espace euclidien. Finalement, les aspects algorithmiques associés à ces formulations seront précisés. Notons que les principes des représentations graphiques en AC seront exposés au chapitre suivant.

2.2 Notations

En AC on considère deux groupes de variables observées sur les mêmes individus. Dans tout la suite, on notera n le nombre d'individus considérés (autrement dit, la taille de l'échantillon observé), p le nombre de variables (quantitatives) du premier groupe et q le nombre de variables (également quantitatives) du second groupe. On désignera par X la matrice, de dimension n × p, contenant les observations relatives au premier groupe de variables et par Y la matrice, de dimension n × q, contenant celles relatives au second groupe. La jième colonne de X, notée Xj (j = 1, . . . , p), contient les observations xj i

(i = 1, . . . , n)de la jième variable du premier groupe. De même, la kième colonne de Y , notée Yk (k = 1, . . . , q), contient les observations yk

i (i = 1, . . . , n) de la kième variable

du second groupe. Nous notons SXX et SYY les matrices des covariances empiriques des

variables X et Y respectivement et par SXY = S

0

YX la matrice des covariances croisées

empiriques entre X et Y . La notation A0 désigne la transposée d'un vecteur ou d'une

matrice A tandis que Ir désigne la matrice identité d'ordre r.

Généralement, en AC, on suppose n ≥ p, n ≥ q, X de rang p et Y de rang q. De plus, sans perte de généralité, on suppose p ≤ q (on désigne donc par premier groupe celui qui comporte le moins de variables).

(19)

2.3. Principe de la méthode 11

Pour les représentations vectorielles des données, on va considérer plusieurs espaces vectoriels réels. Tout d'abord, l'espace des variables : c'est E = IRn, muni de la base

cano-nique et de la métrique associée à D = 1

nIn. À chaque variable X

j est associé un vecteur

unique xj de E dont les coordonnées sur la base canonique sont les xj

i (i = 1, . . . , n).

De même, à chaque variable Yk est associé un vecteur unique yk de E de coordonnées

les yk

i. On peut ainsi dénir dans E deux sousespaces vectoriels : EX, engendré par les

vecteurs xj (j = 1, . . . , p), supposé de dimension p, et E

Y, engendré par les vecteurs y

k

(k = 1, . . . , q), supposé de dimension q.

Le produit scalaire de deux variables Xj et Xk qui vaut

(Xj)0DXk= 1 n n X i=1 xjixki, (2.1)

n'est autre que cov(Xj, Xk) si les deux variables sont centrées. La norme d'une variable

kXjk

2 est alors son écarttype. Le cosinus de l'angle entre deux variables centrées est

donné par

cos θ = hX

j, Xki

kXjk

2kXkk2

qui n'est autre que leur coecient de corrélation linéaire. Ces dénitions restent valables pour les variables Y et entre X et Y .

On peut ensuite considérer deux espaces vectoriels pour les individus, FX = IR

p et

FY = IR

q, eux aussi munis de leur base canonique et de la métrique identité. Dans F

X,

chaque individu i est représenté par le vecteur xi, de coordonnées xji (j = 1, . . . , p) sur

la base canonique. De même, dans FY, l'individu i est représenté par le vecteur yi, de

coordonnées yk

i (k = 1, . . . , q).

2.3 Principe de la méthode

L'AC est dénie de façon itérative. Dans un premier temps, on cherche un couple de variables (U1, V1), U1 étant une combinaison linéaire des variables Xj (donc un élément

de EX), normée, et V

1 une combinaison linéaire des variables Yk (donc un élément de

EY), normée, telles que U1 et V1 soient le plus corrélées possible.

Ensuite, on cherche le couple de variables normées (U2, V2), U2 combinaison linéaire

des Xj non corrélée à U1 et V2 combinaison linéaire des Yk non corrélée à V1, telles que

U2 et V2 soient le plus corrélées possible. Et ainsi de suite. . .

Dénition 2.1. L'AC ainsi dénie génère une suite de p couples de variables (Us, Vs),

s = 1, . . . , p. Les variables Us et Vs sont appelées les variables canoniques ; leurs

(20)

Toute variable canonique Us est, par construction, non corrélée avec les autres

va-riables canoniques Ut, t 6= s. On peut également montrer que Vs est non corrélée avec Vt,

si t 6= s (la même propriété est vraie pour toute variable Vs avec les variables Ut, t 6= s

et réciproquement).

2.4 Formulation de l'analyse canonique

L'AC peut être formulée de plusieurs manières. La formulation classique, de na-ture algébrique (Hotelling, 1936 ; Anderson, 1958), est un problème d'optimisation sous contrainte. Une autre formulation peut être faite en termes d'angles entre sousespaces d'un espace Euclidien (Dempster, 1969 ; Björch et Golub, 1973). Les deux formulations sont décrites cidessous.

Il existe un certain nombre d'autres formulations basées sur le principe des moindres carrés, James (1979), van der Burg et de Leeuw (1983) et ter Braak (1990). Ces formula-tions ne seront pas considérées dans ce travail.

2.4.1 Formulation algébrique

Celleci consiste à considérer une démarche itérative dont chaque étape résout un problème d'optimisation. Considérons U1 et V1 combinaisons linéaires des colonnes de X

et de Y respectivement :

U1 = Xa1 = a11X1+ a12X2+ · · · + a1pXp et

V1 = Y b1 = b11Y1+ b12Y2 + · · · + b1qYq.

Dans la première étape, le problème algébrique consiste à rechercher a1 et b1 tels que la

corrélation entre U1 et V1 soit maximale, en supposant les vecteurs a1 et b1 normés (de

telle manière que var(U1) = var(V1) = 1). Autrement dit, le problème consiste à résoudre

le problème d'optimisation suivant : ρ1 =cor(U1, V1) = max

a,b cor(Xa, Y b) = maxa,b a 0S

XYb ,

sous la contrainte

var(U) = var(Xa) = a0

SXXa = 1 et var(V ) = var(Y b) = b0SYYb = 1 . Le Lagrangien associé est

L(a, b, λx, λy) = a0SXYb − λx 2 (a 0 SXXa − 1) − λy 2 (b 0 SYYb − 1) ,

(21)

2.4. Formulation de l'analyse canonique 13

où λx et λy sont les multiplicateurs de Lagrange. L'annulation des dérivées partielles de

L par rapport à a et b donne : ∂L

∂a = SXYb − λxSXXa = 0 , (2.2)

∂L

∂b = SYXa − λySYYb = 0 . (2.3)

La multiplication à gauche de (2.2) par a0 et de (2.3) par b0 nous donne :

a0SXYb − λxa0SXXa = 0 , b0SYXa − λyb0SYYb = 0 . Puisque a0S XXa = 1, b 0S YYb = 1et a 0S XYb = b 0S YXa, on en déduit : a0SXYb = λx = λy. (2.4)

Soit λ = λx= λy; alors (2.2) et (2.3) se réécrivent comme :

−λSXXa + SXYb = 0 , (2.5)

SYXa − λSYYb = 0 . (2.6)

Si a1, b1, λ

1 sont une solution du système d'équations (2.5) et (2.6), alors U1 = Xa1

et V1 = Y b1 sont le premier couple de variables canoniques et, puisque (a1)0S

XYb

1 =

cor(U1, V1), de (2.4) on déduit que la première corrélation canonique est ρ

1 = λ1.

An de déterminer les variables canoniques suivantes, on résout successivement les problèmes d'optimisation, pour s = 2, . . . , p :

ρs=cor(Us, Vs) = max

a,b cor(Xa, Y b),

sous les contraintes

var(U) = var(Xa) = a0 SXXa = 1 , var(V ) = var(Y b) = b0SYYb = 1 et cor(U, Ut ) = a0SXXa t = 0 , cor(V, Vt) = b0SYYb t = 0 , 1 ≤ t < s ≤ p . Alors, à l'étape s le Lagrangien associé est

L(a, b, λx, λy, α, γ) = a0SXYb − λx 2 (a 0 SXXa − 1) −λy 2 (b 0 SYYb − 1) +1 2 X t<s αta0SXXa t+1 2 X t<s γtb0SYYb t,

(22)

où λx, λy, α1, . . . , αt, γ1, . . . , γt sont les multiplicateurs de Lagrange. L'annulation des

vecteurs de dérivées partielles donne : ∂L ∂a = SXYb − λxSXXa + X t<s αtSXXa t = 0 , (2.7) ∂L ∂b = SYXa − λySYYb + X t<s γtSYYb t= 0 . (2.8)

La multiplication à gauche de (2.7) par a0 et de (2.8) par b0 donne :

a0SXYb = λx, (2.9) b0SYXa = λy. (2.10) Donc λx = λy = λ. De (2.7) on déduit : SXXa = 1 λ SXYb + X t<s αtSXXa t ! . Multipliant à gauche l'expression cidessus par a0, puisque P

t<sαta0SXXa t= 0, on obtient 0 = a0SXXat= 1 λa 0 SXYbt, d'où a0S XYb

t= 0. De la même façon on obtient que b0S

YXa

t= 0.

La multiplication à gauche de (2.7) par (ar)0 et de (2.8) par (br)0 donne, pour 1 ≤ r < s,

0 = (ar)0SXYb + αr

et

0 = (br)0SYXa + γr,

d'où αr = γr= 0. Donc les équations (2.7) et (2.8) sont identiques aux équations (2.5) et

(2.6).

En multipliant (2.5) à gauche par SYXS

−1

XX, il vient :

SYXS−1

XXSXYb − λSYXa = 0.

Substituant SYXa = λSYYb (2.6) dans l'équation précédente, on obtient l'équation en b

SYXSXX−1SXYb − λ2SYYb = 0 , d'où l'on déduit :

(23)

2.4. Formulation de l'analyse canonique 15

Après des calculs similaires on obtient l'équation en a : S−1

XXSXYS

−1

YYSYXa = λ

2a . (2.12)

Ce qui établit que les vecteurs a1, . . . , ap et les vecteurs b1, . . . , bp sont les vecteurs

propres associés aux valeurs propres non nulles λ2

1, . . . , λ2p de (2.12) et (2.11)

respective-ment.

Dénition 2.2. Les vecteurs as et bs correspondant aux valeurs propres rangées par

ordre décroissant λ2

1 ≥ · · · ≥ λ2p, sont appelés facteurs canoniques. Nous notons

A = [a1 a2· · · ap] et B = [b1 b2· · · bp] les matrices constituées en colonnes des facteurs

canoniques.

En tenant compte (2.9) et (2.10), on déduit que la corrélation canonique entre Us =

Xas et Vs = Y bs est la racine carrée de la sième valeur propre de (2.11) ou (2.12) :

ρs =pλ2s, pour s = 1, . . . , p.

Ainsi l'AC se ramène à la solution d'un problème de valeurs propres. Dans l'espace vectoriel E muni de la métrique D, notons PX et PY les matrices associées aux projecteurs

orthogonaux sur les sousespaces EX et EY. Les expressions matricielles de PX et PY sont :

PX = X(X0DX)−1X0D et PY = Y (Y0DY )−1Y0D. (2.13) En multipliant à gauche les équations en (2.12) et (2.11) par X et Y respectivement, on obtient

PXPYUs = λ2sUs et PYPXVs = λ2sVs. (2.14)

Remarque 2.1. Soient PX et PY les matrices associées aux projecteurs orthogonaux sur

les sousespaces EX et EY respectivement, alors :

• les correlations canoniques ρs sont les racines carrées positives des valeurs propres

λ2

s de PXPY (lesquelles sont les mêmes que celles de PYPX) : ρs =pλ

2 s;

• les vecteurs U1, . . . , Up sont les vecteurs propres normés associés aux valeurs propres

λ2

1 ≥ · · · ≥ λ2p de PXPY ;

• les vecteurs V1, . . . , Vp sont les vecteurs propres normés associés aux mêmes

(24)

U1∈ EX V1∈ E Y PXV1 PXPYU1 PYU1 PYPXV1 λ1 λ2 1 θ1

Fig. 2.1 Illustration géométrique de la solution de l'AC. Les variables canoniques U1et V1sont

les éléments en EX et EY respectivement minimisant l'angle entre eux : cos(θ1) =cor(U1, V1).

2.4.2 Formulation géométrique

Le problème de valeurs propres (2.14) donne une interprétation géométrique à la solu-tion de l'AC. La gure 2.1 illustre la solusolu-tion de l'AC pour le premier couple de variables canoniques. La projection orthogonale de U1 sur E

Y est λ1V

1 et, de même, P

XV

1 = λ 1U1.

En projetant de nouveau sur les espaces respectifs, on obtient les équations (2.14). L'AC peut être formulée en termes géométriques comme la recherche d'angles entre sousespaces dans un espace Euclidien (Dempster, 1969 ; Björck et Golub, 1973).

Soit G et H deux sousespaces de IRn et supposons :

1 ≤ p =dim(G) ≤ dim(H) = q. (2.15)

Le plus petit angle θ1 = θ1(G, H), θ1 ∈ [0, π/2]entre G et H est déni par :

cos θ1 = max u∈G maxv∈H u

0

v, kuk2 = 1, kvk2 = 1.

Supposons que le maximum soit obtenu en u = u1 et v = v1. Alors, θ2(G, H) est déni

comme le plus petit angle entre le sousespace vectoriel supplémentaire orthogonal à u1

dans G et le sousespace vectoriel supplémentaire orthogonal à v1 dans H. En continuant

de cette façon jusqu'à ce qu'un des sousespaces soit vide, on arrive à la dénition suivante.

Dénition 2.3. Les angles principaux θs ∈ [0, π/2] entre G et H sont dénies

itérati-vement, pour s = 1, . . . , p, par

cos θs = max u∈G maxv∈H u

0

(25)

2.4. Formulation de l'analyse canonique 17

sous les contraintes

kuk2 = 1, kvk2 = 1, u0tu = 0, v0tv = 0, t = 1, . . . , s − 1.

Les vecteurs {u1, . . . up} et {v1, . . . vp} sont appelés les vecteurs principaux du couple

de sousespaces (G, H).

Les vecteurs {u1, . . . up}forment une base orthonormée de G et les vecteurs {v1, . . . vp}

peuvent être complétés avec (p−q) vecteurs orthonormés de telle sort que {v1, . . . vq}forme

une base orthonormée de H. Ils vérient également

u0svt= 0, s 6= t, s = 1, . . . , p, t = 1, . . . , q.

Habituellement, les sousespaces G et H sont dénis par les images des matrices X ∈ IRn×p

et Y ∈ IRn×q. Lorsque c'est le cas, la base orthonormée associée peut être obtenue en

cal-culant la décomposition QR de ces deux matrices.

Pour une matrice A, n × p, n ≥ p, cette méthode donne la décomposition suivante

A = [Q1 Q2]

 R 0

} r × p } (n − r) × p

où le rang de R est égal à r et Q = [Q1 Q2] est orthonormée. Alors Q1 donne une base

orthonormée pour l'image de A, Im(A), et Q2 une base orthonormée pour le

supplémen-taire orthogonal de A, Ker(A). La relation entre les valeurs propres et angles principaux découle de la suivante proposition.

Proposition 2.1. Considérons deux matrices QX, n × p et QY, n × q. Supposons que les

colonnes de QX et celles de QY forment deux bases orthonormées pour deux sousespaces

de IRn. Posons

M = Q0XQY, et considérons

M = W ∆Z0, ∆ =diag(σ1, . . . , σp) (2.16)

la décomposition en valeurs singulières de la matrice M (p × q), où W0W = Z0Z = I p.

Si on suppose que σ1 ≥ · · · ≥ σp, alors les angles principaux et les vecteurs principaux

associés à ce couple de sousespaces sont

cos θs = σs, U = QXW, V = QYZ . (2.17)

Preuve : Il est bien connu (Golub et van Loan, 1983) que les valeurs singulières et les vecteurs singuliers d'une matrice M peuvent être caractérisés par

σs = max kwk2=kzk2=1w

0

(26)

sous la contrainte

w0wt = z0zt= 0, t = 1, . . . , s − 1.

Si nous considérons

u = QXw ∈Im(QX), v = QYz ∈Im(QY),

puisque QX et QY sont des matrices orthonormées, on a kuk2 = kwk2, kvk2 = kzk2 et

donc : w0wt= u0ut, z0zt = v0vt. Comme w0M z = w0Q0 XQYz = u 0v, (2.18) est equivalent à σs = max kuk2=kvk2=1u 0 v = u0svs, sous la contrainte u0ut = v0vt= 0, t = 1, . . . , s − 1.

D'où (2.17) découle directement de la Dénition 2.3, ainsi que le resultat annoncé. 2

En AC, on pose G = EX et H = EY, QX et QZ désignant les bases orthonormées de ces

deux sousespaces respectivement. D'un autre côté, [U1, . . . , Up] et [V1, . . . , Vq] forment

également des bases orthonormées pour les sousespaces EX et EY respectivement.

Par commodité, nous changerons la notation introduite en (2.16) et (2.17) en écrivant M = ZX∆ZY0 U = QXZX V = QYZY.

En considérant l'espace E = IRn muni de la métrique dénie par le produit scalaire

en (2.1), on voit que les angles principaux θ1 ≤ · · · ≤ θp et les corrélations canoniques ρs

sont liés par la relation ρs =cor(Us, Vs) = cos θs. Donc variables canoniques et vecteurs

principaux coïncident.

2.5 Une importante propriété d'invariance de l'AC

La proposition 2.2 cidessous montre que l'AC a l'importante propriété d'être inva-riante par transformations linéaires.

Proposition 2.2. Si ˜X = XP +1nφ0 et ˜Y = Y Q + 1nϕ0, où P (p × p) et Q (q × q) sont

deux matrices non singulières, 1n désigne le vecteur de IRn constitué de 1 et φ (p × 1) et

(27)

2.6. Aspects algorithmiques 19

• les corrélations canoniques entre ˜X et ˜Y sont les mêmes que celles entre X et Y ; • les vecteurs ˜as et ˜bs dénissant les variables canoniques ˜Us et ˜Vs respectivement,

sont donnés par ˜as = P as et ˜bs = Qbs, où as et bs sont les facteurs canoniques

associés à Us et Vs respectivement.

Preuve : Soient ˜SXX, ˜SYY et ˜SXY = ˜S0

YX les matrices de covariances empiriques de ˜X de

˜

Y et entre ˜X et ˜Y respectivement. Alors la matrice ˜ SXX−1S˜XYYY−1S˜YX = (P0SXXP )−1P0SXYQ(Q0SYYQ)−1Q0SYXP = P−1S−1 XXSXYS −1 YYSYXP

a les mêmes valeurs propres que la matrice S−1

XXSXYS

−1

YYSYX. De la même façon, on obtient

le résultat pour ˜Y en considérant la matrice ˜S−1

YY ˜ SYXS˜−1 XX ˜ SXY.

La relation entre les vecteurs propres provient du fait que, si w est un vecteur propre de AB associé à une valeur propre λ 6= 0, alors z = Bw est un vecteur propre de BA

associé à la même valeur propre. 2

Remarque 2.2. En vertu de la proposition précédente, on peut centrer et réduire les variables Xj et Yk sans modier les résultats de l'analyse canonique. Pour des raisons

de commodité, on le fera systématiquement. Par conséquent, les matrices X et Y seront désormais supposées centrées et réduites (en colonnes).

2.6 Aspects algorithmiques

Au paragraphe 2.4, on a vu que l'AC peut être formulée de plusieurs façons. La procé-dure habituelle pour calculer corrélations et variables canoniques est basée sur la formu-lation algébrique décrite au paragraphe 2.4.1. Cette procédure transforme les équations (2.11) et (2.12) en un problème d'analyse spectrale symétrique au moyen de la décomposi-tion de Cholesky des matrices des covariances empiriques SXX et SYY (Cohen et BenIsrael,

1969). Une autre procédure est basée sur la formulation géométrique vue au paragraphe 2.4.2. La proposition 2.1 donne un algorithme pour résoudre l'AC en termes des décom-positions QR des matrices X et Y (Björck et Golub, 1973).

Remarquons que les deux procédures cidessus utilisent des algorithmes de calcul ma-triciel ayant des propriétés de stabilité numérique bien établies.

(28)

2.6.1 Algorithme basé sur la formulation algébrique

De façon classique, l'AC est solution du problème de valeurs propres (Hotelling, 1936 ; Anderson, 1958) : S−1 XXSXYS −1 YYSYXa = λ 2a , (2.19) S−1 YYSYXS −1 XXSXYb = λ 2b . (2.20)

Il s'agit de calculer la décomposition de Cholesky SXX = LXL0

X, SYY = LYL

0

Y,

où LX et LY sont des matrices inversibles, triangulaires supérieures d'ordre p et q

respec-tivement, puis de réaliser la décomposition en valeurs singulières de la matrices M (ou M) avec M = L−1

Y SYX(L

0

X)

−1.

Proposition 2.3. Soient LX et LY deux matrices inversibles vériant

SXX = LXL0 X et SYY = LYL 0 Y, (2.21) et soit M = L−1 Y SYX(L 0 X)

−1. Alors le problème de valeurs propres

S−1

XXSXYS

−1

YYSYXa = λ

2a (2.22)

est équivalent à la décomposition en valeurs singulières de la matrice M. Preuve : En portant les expressions (2.21) dans (2.22), il vient

LXL0X−1SXY LYL0Y−1SYXa = λ2a , que l'on reécrit :

L−1X SXY L0Y−1L−1Y SYX L0X−1L0Xa = λ2L0Xa . En utilisant la dénition de M, on a :

(M0M − λ2Ip)L0Xa = 0 . (2.23)

Soit la décomposition en valeurs singulières de M = UMDMV

0

M. Alors, substituant

cette expression en (2.23), après des calculs on obtient (D2

M − λ

2I

(29)

2.6. Aspects algorithmiques 21

d'où on déduit que les valeurs propres de la matrice en (2.22) sont données par la diago-nale de D2

M. Les vecteurs propres sont obtenus des colonnes de (L

0

X)

−1V

M. 2

En tenant en compte les équations en (2.19) et (2.20) on déduit que les corrélations canoniques sont données par les éléments sur la diagonale de la matrice DM, tandis que

les facteurs canoniques associés à X sont liés aux vecteurs singuliers de M par la relation A = (L0

X)

−1V

M. De façon similaire on obtient ainsi que les facteurs canoniques associés à

Y sont données par B = (L0

Y)

−1U

M.

La proposition 2.3 donne un algorithme pour résoudre l'AC.

Algorithme 2.1. Algorithme basé sur la formulation algébrique • Soient SXX, SYY et SXY.

• Calculer matrices triangulaires supérieures LX et LY vériant SXX = LXL0

X, SYY = LYL

0

Y

par la décomposition de Cholesky ; • Calculer M = L−1

Y SYX(L

0

X)

−1;

• Calculer la décomposition en valeurs singulières de M : M = UMDMV0

M .

• Les corrélations canoniques sont : ρj = [DM]jj, j = 1, . . . , p.

Les variables canoniques sont : U = X(L0

X) −1V M et V = Y (L 0 Y) −1U M.

2.6.2 Algorithme basé sur la formulation géométrique

La solution de l'AC selon de la formulation géométrique a été décrite par Björck et Golug (1973). La proposition 2.1 suggère un algorithme pour résoudre l'AC via la décom-position QR des matrices X et Y .

(30)

Algorithme 2.2. Algorithme basé sur la formulation géométrique • Soit X ∈ IRn×p et Y ∈ IRn×q deux matrices de rangs respectifs p et q

(p ≤ q ≤ n). • Calculer la décomposition QR de X et Y : X = QXRX, Q0 XQX = Ip, RX ∈ IR p×p ; Y = QYRY, Q0 YQY = Iq, RY ∈ IR q×q. • Calculer M = Q0 XQY.

• Calculer la décomposition en valeurs singulières de M : ZX0 M ZY = ∆.

• Les corrélations canoniques sont : ρj = ∆jj, j = 1, . . . , p.

Les variables canoniques sont : U = QXZX et V = QYZX.

Les deux algorithmes précédents conduisent aux mêmes résultats. Cependant, ils orent des alternatives diérentes pour contourner le problème des matrices mal conditionnées en AC que nous étudierons au chapitre 4.

(31)

23

Chapitre 3

Analyse Canonique : représentations

graphiques

3.1 Introduction

L'importance théorique de l'AC est largement reconnue. Cependant, en dépit de sa place centrale au sein des méthodes de statistique multidimensionnelle, l'AC n'a pas eu le succès d'autres techniques de même nature comme l'ACP, l'analyse factorielle des cor-respondances ou la classication. La cause de ce manque de succès est due probablement à deux raisons : premièrement au petit nombre d'exemples relevant du contexte de l'AC ; ensuite aux dicultés de mise en ÷uvre de la méthode et d'interprétation de ses résultats pour des utilisateurs non experts. Dans ce chapitre, nous proposons certaines représenta-tions graphiques aidant à l'interprétation des résultats issues d'une AC.

Au chapitre 2 on a montré que la solution d'une AC est donnée en termes de coef-cients de corrélation canonique et de variables et facteurs canoniques. Les corrélations canoniques, décroissantes, permettent d'une part de quantier les relations entre les deux ensembles de variables considérés, d'autre part de choisir la dimension des sousespaces dans lesquels seront réalisés les graphiques. Les corrélations entre variables initiales et va-riables canoniques permettent de réaliser des graphiques visualisant les relations existant entre les deux ensembles de variables. Ces graphiques sont un important outil exploratoire qui aide à l'interprétation des résultats. Ce type de représentations graphiques, appelées graphiques de la structure de corrélation, ont été proposés par Caillez et Pagès (1976), van der Burg et de Leeuw (1983), ter Braak (1990) et sont maintenant couramment utili-sés. Il est possible aussi de faire une représentation graphique des individus. Si les individus ne sont pas anonymes, cette représentation peut être utile pour compléter l'interprétation des relations entre les variables.

Comme en ACP, les représentations graphiques des résultats d'une AC se font en di-mension réduite (souvent 2, 3 ou 4). Sous l'hypothèse de normalité d'un des ensembles de variables, il existe des tests d'hypothèse pour tester la signicativité des dimensions choisies. Cependant, en l'absence de normalité, ou encore lorsque le nombre de variables est important par rapport au nombre d'individus, le choix de la dimension n'a pas

(32)

vrai-ment de solution rigoureuse. À cet eet, nous proposons une approche empirique basée sur l'étude conjointe de deux représentations graphiques : le graphique éboulis des cor-rélations canoniques et le graphique des variables.

L'objectif de l'AC étant de mettre en évidence les relations pouvant exister entre deux ensembles de variables, les représentations graphiques usuelles orent un outil indispen-sable pour interpréter ces relations. Cependant, lorsque le nombre de variables est trop important pour permettre de percevoir directement, au niveau de ces représentations gra-phiques, des éventuelles relations entre les variables obtenues à l'issue d'une AC, nous proposons une méthode pour réaliser des graphiques de lecture plus facile. Pour cela, on dénit un indicateur permettant de sélectionner les variables dont les associations sont les plus importantes et de les identier sur les graphiques en conservant une meilleure lecture. Cet indicateur permet aussi la construction des représentations graphiques ap-pelées relevance networks et des cartes de double classication (clustered image maps, ou heatmaps) fréquemment utilisées depuis quelques temps pour visualiser des données fortement multidimensionnelles (par exemple des données génomiques à haut débit).

An d'illustrer la mise en ÷uvre des représentations graphiques, dans ce chapitre, nous présentons le jeu de données nutrigénomiques qui a motivé ce travail. L'un des objectifs étant de mettre en relation l'expression de certains gènes avec les quantités d'acides gras hépatiques chez la souris, l'AC a permis de répondre à cette question (Baccini et al., 2005). Au paragraphe 3.2 deux sortes de graphiques sont considérés : d'abord les graphiques de variables, puis les graphiques d'individus ; en 3.2.3 nous donnons des critères aidant au choix de la dimension. Ensuite, les données nutrigénomiques sont présentées au paragraphe 3.3 an de donner un exemple de la mise en ÷uvre de l'AC. Enn, au paragraphe 3.4, des représentations graphiques alternatives sont présentées.

3.2 Représentations graphiques usuelles

En dépit de sa place centrale au sein des méthodes de statistique multidimension-nelle, l'AC était, jusqu'à une période récente, peu utilisée. Une des raisons majeures à cela est la diculté d'interprétation des résultats : l'interprétation doitelle être basée sur les facteurs canoniques ou sur les variables canoniques, ou encore sur les corrélations canoniques ? Nous nous abstenons d'interpréter les facteurs canoniques et les variables canoniques en tant que tels. Au lieu de cela, nous utilisons les corrélations entre les va-riables initiales et les vava-riables canoniques comme un moyen de produire des graphiques permettant de visualiser les relations de proximité, d'opposition ou d'éloignement entre les variables Xj et Yk, ainsi que l'existence éventuelle de groupes de variables.

Il est encore possible de faire une représentation graphique des individus. Si les indivi-dus comportent un intérêt en euxmêmes (notamment s'ils caractérisent un plan factoriel) leur représentation peut être utile pour compléter l'interprétation des graphiques des va-riables.

(33)

3.2. Représentations graphiques usuelles 25

L'intérêt des représentation graphiques en AC, comme en ACP, est de produire des graphiques en dimension réduite (souvent 2, 3 ou 4) pour l'interprétation des résultats. Nous noterons d cette dimension, avec : 1 ≤ d ≤ p.

La réalisation des graphiques est une phase importante pour l'interprétation des ré-sultats d'une AC qui doit se faire en respectant une démarche dont les bases sont décrites cidessous.

3.2.1 Représentation des variables

Désignons par us et vs les vecteurs de E

X et EY respectivement associés aux variables

canoniques Us et Vs. Dans E

X et EY, on considère les bases orthonormées {u

1, . . . , up}

et {v1, . . . , vq} respectivement, que l'on restreint à {u1, . . . , ud} et {v1, . . . , vd} pour les

représentations graphiques.

Comme en ACP, on peut préciser les liaisons entre les variables initiales dans chaque sousespace EX ou EY en calculant les coecients de corrélation linéaire entre variables

initiales et chaque variable canonique, et en s'intéressant aux plus forts coecients en valeur absolue. Ces coecients sont dénis par :

cor(Xj, Us) = hxj, usi

kxjk 2kusk2

=xj, us ,

puisque les variables Xj étant centrées et réduites, les vecteurs xj sont centrés et normés

(et il en va de même pour les vecteurs us), de sorte que la corrélation entre Xj et Us est

simplement la coordonnée de la variable Xj sur l'axe déni par Us.

Pour un couple de variables canoniques, par exemple U1 et U2, on synthétise

fré-quemment les corrélations sur un graphique appelé graphique des corrélations (Caillez et Pagès, 1976) où chaque variable Xj est représentée par un point d'abscisse cor(Xj, U1)

et d'ordonnée cor(Xj, U2).

Des graphiques similaires sont aussi obtenus pour les variables Yk avec les variables

canoniques Vs sur l'espace E

Y muni de la base orthonormée {v

1, . . . , vd}.

Mais, pour mettre en évidence les relations entre les variables initiales Xj et Yk, il est

possible de représenter ces variables simultanément sur un même graphique. Pour cela, on doit considérer un sousespace commun pour la représentation. Plusieurs sousespaces sont envisageables. Si on fait le choix de EX, on peut représenter les variables de l'autre

groupe, les Yk, en projetant tout d'abord les vecteurs yk dans E

X, au moyen de PX, puis

en prenant le produit scalaire de ces projections avec les vecteurs us. On doit donc calculer

pour cela les produits scalaires

(34)

encore égaux aux corrélations entre les variables initiales Yket les variables canoniques Us.

Cependant, le choix de EX favorisera un ensemble de variables au détriment de l'autre,

en ce sens que les vecteurs de la base {u1, . . . , ud} sont plus liés à l'ensemble de variables

X qu'à celui des variables Y . Ainsi, les variables Xj auront tendance à être plus proches de la circonférence unité que les variables Yk. De façon symétrique on a le même argument

si on choisit EY comme sousespace de représentation.

Pour ces raisons il est préférable de choisir un sousespace intermédiaire entre EX et

EY pour les représentations graphiques. Saporta (2006) montre que la variable Z

s dénie

par Zs= (Us+ Vs)/kUs+ Vsk, possède la propriété d'être la plus liée à X et à Y en ce

sens qu'elle a une somme des carrés des coecients de corrélation multiple maximale avec X et Y . Il suggère donc de choisir comme sousespace de représentation des variables X et Y le sousespace engendré par les vecteurs zs = (us+ vs)/ kus+ vsk, s = 1, . . . , d.

Dénition 3.1. Par analogie avec l'ACP, nous appellerons les vecteurs z1, . . . , zd dénis

par zs = (us+ vs)/ kus+ vsk, s = 1, . . . , d, vecteurs principaux. Le sousespace

engen-dré par les vecteurs principaux est appelé sousespace canonique et est noté EZ.

Le graphique des corrélations n'est pas seulement une représentation symbolique com-mode ; c'est la projection de l'ensemble des variables centréesréduites sur le sousespace de dimension deux engendré par zs et zt (s 6= t). En eet, les variables Xj et Yk étant

centrées et réduites, elles sont situées sur la surface de l'hypersphère unité de l'espace des variables centrées à l'origine. Les projections des variables sur le plan engendré par zset zt

sont donc situées à l'intérieur du cercle de rayon unitaire centré à l'origine, intersection de l'hypersphère avec le plan (zs, zt). La projection se faisant avec la métrique D de l'espace

des variables, Xj (resp. Yk) se projette sur l'axe engendré par zs en un point d'abscisse

cos θ(xj, zs) (resp. cos θ(yk, zs)) qui n'est autre que la corrélation entre Xj et Zs (resp.

entre Yk et Zs) (Fig. 3.1 (a)).

Sur le graphique des corrélations (Fig. 3.1 (b)), nous avons ajouté deux cercles corres-pondant aux rayons 0.5 et 1 (cet dernier étant appelé cercle de corrélations). Cela facilite la lecture en mettant en évidence les phénomènes les plus marquants dans la couronne ainsi dénie . Les variables avec une forte relation sont projetées dans la même direction par rapport à l'origine. Plus la distance à l'origine est grande, plus la relation entre les variables correspondantes est forte. Les variables qui sont localisées près du cercle unitaire peuvent être interprétées directement, puisque les proximités dans le plan correspondent alors aux proximités dans l'espace ddimensionnel. Pour les variables situées plus loin du cercle unitaire, il est nécessaire de vérier sur les autres dimensions si les proximités sur le graphique correspondent vraiment aux proximités sur la surface de l'hypersphère. En eet, deux variables proches l'une de l'autre sur le plan de projection mais en retrait du cercle des corrélations peuvent avoir été projetées, l'une depuis l'hémisphère supérieur, l'autre depuis l'hémisphère inférieur.

Figure

Fig. 2.1  Illustration géométrique de la solution de l'AC. Les variables canoniques U 1 et V 1 sont
Fig. 3.1  (a) Coordonnées de la variable X j sur le plan engendré par les axes principaux z 1 et
Fig. 3.2  Plan d'expérience.
Fig. 3.3  (a) Eboulis des corrélations canoniques. (b) Représentation des variables dans le plan canonique 45 : gènes représentés par des gros points et acides gras représentés par des triangles.
+7

Références

Documents relatifs

Dans de tels cas les facteurs sont souvent répar- tis en deux groupes : d'une part des couples de facteurs dont chacun est constant sur toute classe de la partition dont l'ensemble

Si f ' j est la mesure produit fyfifj» alors fj=fj et fj=fj- Si de plus, on pose g =f et gj=fj/ le nuage N(l) est exactement celui qui est considéré dans l'analyse des

Le-6 doitftée.ô VJ6&amp;&amp;6 : Voici d'abord quelques exemples de données (proposés par des chercheurs avec lesquels nous travaillons), qui requiè- rent la comparaison de

Même dans une population où le schéma classique des corrélations n'est pas valable, c'est-à-dire où la fonction de régression n'est pas linéaire, on peut considérer qu'il

Pour cela, on définit une analyse factorielle qui décrit la «forme de l’association», mesurée par un coefficient choisi dans une famille infinie de

diverses variables intervenant dans cette analyse; les variables mesurées xi à XIO, les codages CS 1 et CS2 spécifiques des stations, les indicatrices des stations SI

Cet ouvrage est destiné aux étudiants en Licence 3 ou Master I de Sciences de la Matière, Sciences de la Terre et Sciences de la Vie et de la Santé. Son objectif

[r]