Traitement du jeu de données de Boer(2009)

Texte intégral

(1) . Traitement du jeu de données de Boer(2009) . La leucémie lymphoblastique aigue (ALL) est caractérisée par une prolifération clonale anormale de progéniteurs lymphoides à l’intérieur de la moelle osseuse bloqués à un stade précis de leur différentiation. On veut classifier des échantillons de différents types de Leucémie lymphoblastique aigue (ALL). Obtention et modification des données Obtention des données ## Définir l’URL des données url.course <-‐ "http://pedagogix-‐tagc.univ-‐mrs.fr/courses/ASG1" url.base <-‐ file.path(url.course, "data/marrays/") ## Charger les valeurs d’expression sous R expr.file <-‐ file.path(url.base, "GSE13425_Norm_Whole.txt") expr.matrix <-‐ read.table(expr.file,sep="\t", head=T, row=1) dim(expr.matrix) [1] 22283 190 ## Charger les données phénotypiques pheno <-‐ read.table(file.path(url.base, 'phenoData_GSE13425.tab'), sep='\t', head=TRUE, row=1) dim(pheno) [1] 190 4 names(pheno) [1] "Sample.title" "Sample.source.name.ch1" "Sample.characteristics.ch1" "Sample.description" On dispose de deux fichiers. • Le fichier « expr.matrix » est un tableau de dimension 22283*190 avec en lignes les gènes impliqués et en colonnes les échantillons. • Le fichier « pheno » contient des caractéristiques des échantillons .

(2) ## Edition du nombre d’échantillons par type de cancers print(data.frame("n"=sort(table(pheno$Sample.title),decreasing=T))) n hyperdiploid 44 pre-B ALL 44 TEL-AML1 43 T-ALL 36 E2A-rearranged (EP) 8 BCR-ABL 4 E2A-rearranged (E-sub) 4 MLL 4 BCR-ABL + hyperdiploidy 1 E2A-rearranged (E) 1 TEL-AML1 + hyperdiploidy 1 Rajout d’attributs Afin d’améliorer la lisibilité des analyses futures, on rajoute deux attributs : sample.colors et sample.labels ## sample.colors : définition de couleurs spécifiques selon le type de cancers group.colors <-‐ c( 'BCR-‐ABL + hyperdiploidy'='cyan', 'BCR-‐ABL'='black', 'E2A-‐rearranged (E)'='darkgray', 'E2A-‐rearranged (E-‐sub)'='green', 'E2A-‐rearranged (EP)'='orange', 'MLL'='#444400', 'T-‐ALL'='violet', 'TEL-‐AML1 + hyperdiploidy'='#000066', 'TEL-‐AML1'='darkgreen', 'hyperdiploid'='red', 'pre-‐B ALL'='blue' ) sample.colors <-‐ group.colors[as.vector(pheno$Sample.title)] names(sample.colors) <-‐ names(expr.matrix) table(sample.colors) . sample.colors #000066 #444400 black blue cyan darkgray darkgreen green orange red violet 1 4 4 44 1 1 43 4 8 44 36 . .

(3) ## sample.labels : Définition d’un nom abrégé pour chaque sous-‐type de cancer group.abbrev <-‐ c('BCR-‐ABL + hyperdiploidy'='Bch', 'BCR-‐ABL'='Bc', 'E2A-‐rearranged (E)'='BE', 'E2A-‐rearranged (E-‐sub)'='BEs', 'E2A-‐rearranged (EP)'='BEp', 'MLL'='BM', 'T-‐ALL'='T', 'TEL-‐AML1 + hyperdiploidy'='Bth', 'TEL-‐AML1'='Bt', 'hyperdiploid'='Bh', 'pre-‐B ALL'='Bo' ) sample.subtypes <-‐ as.vector(pheno$Sample.title) sample.labels <-‐ group.abbrev[sample.subtypes] names(sample.labels) <-‐ names(expr.matrix) table(sample.labels) sample.labels Bc Bch BE BEp BEs Bh BM Bo Bt Bth T 4 1 1 8 4 44 4 44 43 1 36 Choix d’une méthodologie pour les analyses Deux possibilités se présentent pour les ACP et classifications : • travailler sur le fichier des gènes en ligne. On s’intéresse alors à caractériser les gènes du point de vue de leur expression dans les échantillons. On utilisera en entrée des analyses le fichier « expr.matrix ». • Si l’on veut caractériser les échantillons du point de vue de l’expression relative des différents gènes, ce qui paraît plus naturel, on sera par contre amenés à travailler sur le fichier transposé (échantillons=individus): exp=t(expr.matrix) dim(exp) [1] 190 22283 Dans « exp », les individus sont les échantillons et les variables sont les gènes. Le nombre de variables (gènes) excède donc le nombre d’individus (échantillons). Cette situation est communément appelée sur-‐dimensionnalité et pose des problèmes dans les analyses. En analyse des données, il sera difficile de lire les graphiques et d’interpréter les axes (resp. classes) de l’ACP (resp. de la classification) .

(4) Analyses en composantes principales (ACP) . Plusieurs solutions pour faire une ACP simple sous R • Fonction princomp() du package stats : Travaille sur le tableau centré par défaut mais non réduit (pour faire une ACP normée, utiliser l’option cor=T). Utilise la décomposition spectrale de la matrice d’inertie. Le nombre de colonnes p ne doit pas excéder le nombre de lignes n • Fonction prcomp() du package stats : Travaille sur le tableau centré par défaut mais non réduit (pour faire une ACP normée, utiliser l’option scale.=T). Utilise la décomposition en valeurs singulières (SVD) de la matrice d’inertie. Marche quels que soient n et p • Fonction PCA() du package FactoMineR : Normée par défaut. Utilise la décomposition en valeurs singulières (SVD) de la matrice d’inertie. Marche quels que soient n et p • Fonction pca() du package mixOmics : Normée par défaut. Utilise la décomposition en valeurs singulières (SVD) de la matrice d’inertie. Marche quels que soient n et p ACP centrée sur le tableau complet avec échantillons en individus ACP centrée ou normée ? acpc=PCA(exp, scale.unit=F) plot(acpc, choix="ind", col.ind=0, title="Echantillons sur le plan principal") text(acpc$ind$coord[,1],acpc$ind$coord[,2], label=sample.labels, col=sample.colors, cex=0.7) . 0 -20 -40. GSM338695 GSM338682 T GSM338680 T GSM338691 GSM338684 GSM338806 T GSM338693 T T GSM338694 GSM338718 Bc GSM338721 GSM338720 GSM338687 GSM338715 T GSM338674 GSM338837 T GSM338671 GSM338766 Bt GSM338782 GSM338708 Bt GSM338835 T Bt Bt GSM338803 GSM338850 Bo GSM338844 T GSM338673 Bh GSM338777 GSM338791 GSM338855 Bh Bt GSM338688 T Bo GSM338707 Bc GSM338679 GSM338796 Bo GSM338851 Bo T GSM338676 GSM338785 BEp GSM338808 GSM338683 Bo GSM338724 GSM338685 T GSM338727 GSM338686 GSM338790 GSM338699 GSM338701 GSM338834 BtBh GSM338775 T BEp Bo GSM338832 GSM338771 GSM338759 T Bh GSM338786 GSM338730 BM T GSM338848 GSM338839 Bt T T BE GSM338675 GSM338677 T T GSM338681 Bo Bh Bt GSM338729 GSM338831 GSM338733 Bo GSM338852 GSM338692 Bh GSM338845 GSM338781 Bh GSM338735 GSM338810 Bh GSM338798 GSM338762 Bt GSM338696 GSM338776 Bo Bo GSM338722 GSM338753 GSM338719 TT T GSM338792 GSM338758 GSM338773 Bo Bt GSM338780 GSM338789 Bo GSM338666 T GSM338672 Bo BEp Bh Bt Bt GSM338811 BMGSM338842 GSM338778 GSM338846 GSM338742 Bh GSM338815 GSM338783 GSM338740 T GSM338747 GSM338698 GSM338774 Bh Bt GSM338841 Bh GSM338827 GSM338843 GSM338788 GSM338817 Bt BEp GSM338697 GSM338726 GSM338754 GSM338833 Bh GSM338767 Bh BhBh T GSM338805 GSM338748 BM Bh Bo Bt GSM338690 GSM338756 GSM338717 Bo Bh BtBh T T GSM338689 Bh GSM338755 GSM338764 Bo GSM338709 GSM338830 Bo Bo Bh GSM338710 BoGSM338734 Bo GSM338731 GSM338801 GSM338793 GSM338779 T GSM338763 Bt Bh Bo GSM338761 GSM338716 GSM338736 Bc Bh T Bh Bt Bt GSM338838 T BhBh Bh GSM338732 Bt GSM338700 Bo GSM338784 Bt GSM338667 Bt BEsBEp GSM338854 Bh GSM338712 Bh GSM338836 GSM338829 Bh Bt Bt GSM338750 GSM338668 GSM338826 GSM338741 BtBo Bh GSM338678 GSM338814 T T Bo GSM338802 GSM338705 Bt Bo Bo GSM338800 GSM338770 GSM338743 GSM338711 GSM338797 Bh GSM338795 T GSM338849 Bo Bt Bo GSM338669 T GSM338670 GSM338738 BEs GSM338768 BEs GSM338744 Bh BtBt BEp Bt BEp GSM338760 GSM338809 GSM338772 Bo T T Bt Bt GSM338794 GSM338723 Bh GSM338702 GSM338804 GSM338799 GSM338853 Bh GSM338765 BM Bh GSM338816 GSM338714 BEp GSM338840 BtBt Bc GSM338713 BEs Bo Bh GSM338769 Bo Bt GSM338703 GSM338819 GSM338728 Bt GSM338787 Bo GSM338824 GSM338706 Bt Bo GSM338757 BtBh GSM338823 GSM338725 Bh GSM338818 Bo GSM338847 Bt Bh GSM338739 Bo Bo Bo Bt GSM338820 Bt GSM338749 GSM338813 Bo GSM338825 Bh GSM338807 GSM338704 Bo GSM338745 GSM338737 Bo GSM338812 Bt GSM338822 Bth GSM338751 Bch Bt Bo. GSM338821. Bo. Bh. GSM338752 Bh. Bo. GSM338746 GSM338828 Bh Bo. -60. Dim 2 (7.41%). 20. 40. Echantillons sur le plan principal. -80. -60. -40. -20 Dim 1 (17.23%). 0. 20. 40. .

(5) acpn=PCA(exp) plot(acpn, choix="ind", col.ind=0, title="Echantillons sur le plan principal") text(acpn$ind$coord[,1],acpn$ind$coord[,2], label=sample.labels, col=sample.colors, cex=0.7) . 0. GSM338669 GSM338678 T T GSM338667 GSM338690 GSM338809 T GSM338676 T GSM338677 BM T T GSM338696 GSM338672 GSM338700 GSM338668 GSM338670 GSM338749 GSM338666 T T T T T Bh GSM338703 GSM338686 T GSM338699 GSM338787 GSM338675 GSM338739 GSM338697 GSM338698 Bt GSM338823 TT T Bh Bt GSM338759 T GSM338684Bo T GSM338797 GSM338829 GSM338811 GSM338681 Bh GSM338734 GSM338685 GSM338849 GSM338812 GSM338821 GSM338689 GSM338692 T BEp BM GSM338679 GSM338673 GSM338807 GSM338799 GSM338695 GSM338820 Bo T GSM338793 GSM338723 Bt GSM338671 TGSM338694 BoGSM338846 Bo Bo T T GSM338765 T T Bch GSM338822 GSM338794 BEs GSM338745 T Bo GSM338850 GSM338683 GSM338768 GSM338830 BEp T GSM338674 GSM338802 GSM338831 GSM338725 Bt GSM338791 T GSM338854 BEp Bo Bo GSM338853 GSM338706 GSM338757 Bth Bh BhGSM338763 GSM338782 BoBoBEp T GSM338727 GSM338855 GSM338816 BEs GSM338713 GSM338795 GSM338710 Bo Bt GSM338818 Bo GSM338825 GSM338704 GSM338833 T GSM338801 GSM338841 GSM338751 GSM338784 Bo GSM338817 Bt GSM338741 Bh GSM338819 Bh GSM338851 GSM338814 GSM338691 Bh GSM338711 Bt BEp Bo GSM338687 Bo Bt Bo BEs GSM338772 GSM338840 Bo Bt BtBo GSM338760 Bo Bh Bo Bh Bt Bt GSM338828 GSM338728 GSM338693 GSM338758 GSM338701 Bo Bo GSM338789 Bo T GSM338824 GSM338738 GSM338835 T GSM338804 GSM338844 Bh Bo GSM338688 GSM338836 GSM338715 GSM338848 Bh GSM338733 BoGSM338790 Bo GSM338743 Bt GSM338800 T Bc GSM338769 Bh T Bh Bt Bo GSM338792 GSM338752 GSM338834 GSM338813 GSM338780 GSM338709 GSM338798 GSM338731 Bo GSM338722 GSM338718 GSM338839 T GSM338746 GSM338744 GSM338826 Bo GSM338796 GSM338778 GSM338714 Bt Bo GSM338705 Bt GSM338756 Bt BE GSM338808 BEp GSM338724 Bh BEs GSM338810 BEp GSM338815 Bo Bh GSM338732 Bt Bt GSM338852 Bh Bt Bo GSM338737 GSM338837 Bt GSM338748 GSM338764 Bo GSM338770 BEp GSM338702 Bt Bo Bh Bt GSM338838 GSM338762 GSM338805 Bt Bh BM Bh GSM338680 Bt GSM338847 BoGSM338832 GSM338761 BM Bt Bo Bt Bo Bh Bh Bt GSM338843 T GSM338827 Bo Bc Bh GSM338707 GSM338845 GSM338747 GSM338717 Bo GSM338774 Bh GSM338803 GSM338766 GSM338712 GSM338735 Bo GSM338783 Bo GSM338781 GSM338742 GSM338720 GSM338682 Bt BoGSM338806 Bo Bt Bh GSM338786 Bh GSM338740 Bc GSM338842 Bh GSM338729 Bh Bt GSM338776 Bt Bc Bh Bt Bt GSM338750 T Bh GSM338719 GSM338779 BoBtGSM338775 GSM338767 Bt Bh GSM338754 GSM338730 Bh GSM338716 Bh Bh Bh Bt Bh GSM338771 Bt Bt GSM338777 GSM338721 Bh GSM338755 GSM338726 GSM338788 BhBt GSM338753 GSM338708 GSM338773 BtBh GSM338785 Bh Bh Bt Bh Bh. GSM338736. -100. -50. Dim 2 (6.60%). 50. 100. Echantillons sur le plan principal. Bt. -150. -100. -50. 0. 50. 100. Dim 1 (8.37%). Il apparait que l’ACP centrée discrimine mieux les groupes d’échantillons que l’ACP normée. On ne normalisera donc pas le tableau. ACP centrée du tableau complet # ex avec PCA() acpc=PCA(exp, scale.unit=F, graph=F) # ex : avec prcomp() acp3=prcomp(exp) Nombre d’axes à retenir : summary(acp3) Importance of components: PC1 PC2 PC3 PC4 PC5 Standard deviation 25.9421 17.01316 14.9879 13.96746 11.26573 Proportion of Variance 0.1722 0.07408 0.0575 0.04993 0.03248 Cumulative Proportion 0.1722 0.24634 0.3038 0.35377 0.38625. .

(6) PC6 PC7 PC8 PC9 PC10 PC11 Standard deviation 10.63727 9.88588 9.77239 8.93533 7.85222 7.61829 Proportion of Variance 0.02896 0.02501 0.02444 0.02044 0.01578 0.01485 Cumulative Proportion 0.41521 0.44023 0.46467 0.48511 0.50089 0.51574. Le % d’inertie expliqué par chaque axe est ici extrêmement faible. Par le critère de Kaiser, on garde les axes dont l inertie est supérieures à l’inertie moyenne I/p. Ici, I=sum(acp3$sdev^2) [1] 3906.986 Im=I/dim(exp)[2] [1] 0.1753348 D’après ce critère, on ne garderait qu’un seul axe. plot(acp3) . 400 300 0. 100. 200. Variances. 500. 600. acp3. Autre fonction lorsque le nombre de variables est très important : library(mixOmics) tune.pca(exp) .

(7) 0.15 0.10 0.05 0.00. Proportion of Explained Variance. 1. 11. 23. 35. 47. 59. 71. 83. 95. 109. 124. Principal Components. 139. 154. 169. 184. Il semblerait d’après le graphe ci-‐dessus, qui trace toute l’éboulis qu’un coude se produise vers le 4° axe et vers le 11° axe. En réalité, compte tenu du nombre important de variable, l’information du tableau n’est pas structurée : A l’exception du premier, les axes véhiculent tous peu d’information et l’information est répartie sur l’ensemble des axes. On peut choisir 2 axes, ne véhiculant que 17% de l’information totale. On aurait pu aussi en choisir 4 mais cela ne permet d’obtenir que 35%, ce qui n’améliore pas beaucoup. 11 axes donneraient 51%, mais impossible à visualiser. On étudiera tout de même les 4 axes pour voir ce que l’on peut en tirer. Interprétation des axes : Compte tenu du grand nombre de variables, il est impraticable ici d’utiliser les contributions des variables pour donner un sens aux axes. Etant donné que les poids sont égaux, les individus (échantillons) qui contribuent le plus à la formation d’un axe sont aussi ceux qui ont les plus grandes coordonnées en valeur absolue. Il n’est donc pas utile de faire une analyse minutieuse des contributions dès lors que les types d’échantillons se séparent bien sur les axes, on peut simplement se borner à regarder les couleurs qui s’opposent sur le graphique. Axe 1 : Compte tenu des graphiques ci dessous, on observe une discrimination très nette sur le premier axe des échantillons de type ALL_T. L’axe 1 met en évidence une nette différence entre les échantillons de type T-‐all et les autres du point de vue de la sur-‐expression de certains gènes et de la sous-‐expression relative des autres sur ces tissus. Axe 2 : Il n’y a pas de discrimination aussi nette sur l’axe 2. .

(8) Axe 3 : L’axe 3 semble mettre en évidence deux sous groupe de gènes, qui ne serait pas discriminant sur les types T-‐all mais seraient différentiellement exprimés sur certains autres types. Notamment, abstraction faite des types T-‐all, on voit que les types bh (rouge) s’opposent aux autres types (en particulier bt et moins nettement bo) selon ces sous groupes de gènes. Axe4 : On voit une autre opposition de tissus sur l’axe 4, isolant les échantillons bt (verts) des autres. Graphiques des individus (les graphiques des variables sont illisibles ici) : • Graphique sur le premier plan principal (PC1 et PC2) plot(acp3$x[,1:2], col=sample.colors, type='n', panel.first=c(grid(col='black'), abline(a=30,b=1.3, lwd=3, lty="dashed", col="red")), main=paste('PCA; Den Boer (2009); ', nrow(exp), 'samples *', ncol(exp), 'genes', sep=' '), xlab='PC1', ylab='PC2') text(acp3$x[,1:2],labels=sample.labels,col=sample.colors,cex=0.7) legend('topleft',col=group.colors, legend=names(group.colors),pch=1,cex=0.4,bg='white',bty='o') . 20. PCA; Den Boer (2009); 190 samples * 22283 genes BCR-ABL + hyperdiploidy BCR-ABL E2A-rearranged (E) E2A-rearranged (E-sub) E2A-rearranged (EP) MLL T-ALL TEL-AML1 + hyperdiploidy TEL-AML1 hyperdiploid pre-B ALL. T TT T. T. TT T. 0. T. TT. PC2. T. T. T. T. T T T. T T. T. T T T. -40. -20. T. Bc Bt. T T. T T T TT T. T. T. Bt Bt Bt Bh Bt Bo BEpBo Bh Bt BEp Bo Bh BM BE BtBo BtBhBh Bo Bh Bo Bo Bt Bh Bt Bo BM Bt Bo BEp Bo Bh Bt Bh BtBh Bh Bt BEp Bh BhBh BM Bh Bh Bo Bt Bh Bo Bh Bo Bo Bo Bh Bh Bo Bo BtBt Bh Bo Bh Bh Bh Bt Bt Bc Bh Bh Bt Bo Bt Bt BEs BEp Bh Bh Bh Bt Bt Bt Bo Bh Bt Bo BoBo Bh Bo Bt Bo BEs BEs BEp Bh Bt Bt Bt BEp Bo Bt Bh Bh BM Bh Bt BEp BtBt Bc BEs Bo Bh BtBt Bo Bo Bh Bo Bt Bt Bh Bo Bo BtBt Bh Bo Bo Bt Bo Bh Bo Bo Bt Bth Bch Bt Bo Bo Bh Bo Bh Bo Bc Bo. T. Bh. Bo. Bo. -60. -40. -20 PC1. . •. Graphique sur le le plan (1,3) (PC1 et PC3) . Bh. 0. 20. .

(9) plot(acp3$x[,c(1,3)], col=sample.colors, type='n', main=paste('PCA; Den Boer (2009); ', nrow(exp), 'samples *', ncol(exp), 'genes', sep=' '), xlab='PC1', ylab='PC3') text(acp3$x[,c(1,3)],labels=sample.labels,col=sample.colors,cex=0.7) PCA; Den Boer (2009); 190 samples * 22283 genes Bt. 20. Bo Bt. T T T. PC3. 0. T T. T. T. T. T TTTT. TT. T T T T. T T. T. T. T. Bh. -60. -40. Bt. Bt. Bt. Bo Bt Bt Bo Bt BEp BoBo Bt Bt BM Bo Bt BEs BEp Bth Bo Bo BEp Bt Bt Bt Bt Bt BEp Bo Bo Bt Bo Bo Bt Bt Bt BtBo BEs Bt Bh Bt Bo Bt Bt BEp Bt T Bo Bo Bo BEp Bt BhBt BhBt Bt Bo Bt BoBo Bo Bo BMBo Bt BEp BEp BhBt Bh Bo Bo Bh Bc Bo T Bh Bt Bh Bo Bt BoBM BE Bo Bo Bh BM Bh T Bo BhBo Bt Bh Bt BEs BEs Bh Bh Bc Bc Bo Bo Bt BhBt Bh Bh Bh Bh Bt Bo Bo Bt Bo Bo Bch Bo Bh Bo Bc Bo Bh T Bt Bh Bh Bh Bh Bh Bo Bo T Bh Bh Bh T Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh. -40. -20. T T. T TT. Bo Bt. -20. Bh. 0. 20. PC1. . . •. Graphique sur le le plan (2,3) (PC2 et PC3) .

(10) PCA; Den Boer (2009); 190 samples * 22283 genes Bt Bt Bt. 20. Bt. Bo. Bo. 0. Bh Bo. PC3. Bt. -20. Bo Bo BchBo Bo. Bh Bh. Bt Bt. Bt. Bt Bt. Bo. Bt. BEpBt BM BEp Bt Bt Bt. Bth Bt Bt Bt Bh. -40. Bo. Bt. Bo. Bo BEs Bo BEp Bt Bo Bo Bo. Bt Bt. Bt. BoBo. Bt. Bo. Bo BEp Bo. T. Bt T Bt Bt Bt BEp T Bo Bh Bt Bh T Bo Bt Bo T Bt Bo T Bo BoBM BEp Bo TBEp Bt Bh Bt Bo Bo Bh Bc BoT Bh TBt T T TBh T T TT Bh Bo Bo Bh BMT BE Bo BM T Bo Bh T Bo T Bt Bh T Bt BEs BEs Bh Bc Bh Bo Bc Bo Bh T Bt Bt Bh T T BhBt T Bh Bh Bt T T Bc Bo Bh Bo Bo Bh Bo T Bt Bh T Bh T Bh Bh T Bh Bo T Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh BEs Bo BEp. T. Bt. Bo. T Bt. T. T. Bh. Bh. Bh. -40. -20. 0. 20. PC2. . . •. Graphique sur le le plan (2,3) (PC3 et PC4) . 40. PCA; Den Boer (2009); 190 samples * 22283 genes Bh BM. 20 0 PC4. Bh BM Bh Bo BoBo Bh Bh Bh Bh BEs Bh Bo Bo Bh Bo T BhBo Bch Bo Bh Bh Bh T Bo Bo Bh T Bh Bo Bo BEp Bh Bh Bh Bo Bo BEp Bo T Bh Bh Bh Bo T Bh Bo Bo Bc Bh BtBo TBh Bh Bh T Bh Bh T Bo Bh Bo Bh BM Bo BEp BoT Bo TT Bo Bo Bh T T Bc T Bh Bo Bo T T T Bt BhBh Bh Bc Bo BE BoBEp Bo BEp Bo BEp Bt Bo Bo T Bo T Bh BEp Bh BEp Bt T BEs Bt Bt T Bth T BEsT BEs Bo T BoBo T Bh Bt T BM T Bt BoBt Bt BtBo Bc BhBh Bt Bt T Bo TT Bt T Bh Bt Bt Bt T Bt Bt Bo Bt Bt Bt Bt Bt Bt Bt Bt BoT TBt T Bt Bt Bt Bt Bt Bt Bt Bt Bt Bt Bt Bt Bt Bt Bh. Bh. -40. -20. Bh. Bt. -40. -20. 0. 20. PC3. .

(11) L’analyse est forcément limitée par le fait qu’on ne peut pas identifier les gènes responsables des oppositions entre échantillons constatées. Nous proposons dans la suite un certain nombre de méthodes permettant de sélectionner des gènes pertinents. ACP sur un sous-‐ensemble de gènes ACP sur les gènes à plus forte variabilité d’expression (cas traité en TD) Sous sélection d’un ensemble top.nb de gènes en fonction de la variabilité de leur expression sur les échantillons : select_gene=function(top.nb) { var.per.gene <-‐ apply(expr.matrix, 1, var) genes.by.decr.var <-‐ sort(var.per.gene,decreasing=TRUE) genes.selected.by.var <-‐ names(genes.by.decr.var[1:top.nb]) exp.m.red=expr.matrix[which(rownames(expr.matrix) %in% genes.selected.by.var),] t(exp.m.red) } ACP centrée avec les échantillons en individus sur les 10 gènes de plus grande variabilité : top.nb <-‐ 10 s_expr=select_gene(top.nb) dim(s_expr) [1] 190 10 acp1=PCA(s_expr, graph=F, scale.unit=F) Nombre d’axes à retenir acp1$eig comp comp comp comp comp comp comp comp comp comp. . eigenvalue percentage of variance cumulative percentage of variance 1 35.67139279 67.37154466 67.37154 2 5.33930793 10.08419898 77.45574 3 4.75803104 8.98635785 86.44210 4 2.93128016 5.53622543 91.97833 5 1.60787741 3.03675233 95.01508 6 1.31784059 2.48896802 97.50405 7 0.92831333 1.75327897 99.25733 8 0.23636093 0.44640816 99.70373 9 0.13420098 0.25346157 99.95720 10 0.02266356 0.04280402 100.00000.

(12) 0. 5. 10. 15. 20. 25. 30. 35. Selon le critère de Kaiser, on garde les axes dont l’inertie est supérieurs à l’inertie moyenne=I/p (ici I est différent de p car l’ACP n’est pas normée) Ici, I=sum(acp1$eig[,1]) [1] 52.94727 On garde donc les axes correspondant à des valeurs propres à peu près > 5.29. On peut donc garder deux axes (le deuxième ne coute pas cher et représente par ailleurs 10% de l’information totales, ce qui n’est pas négligeable). On retient donc 77% de l’information. Notons que l’inertie portée par le 3° axe, 4.75% est proche de l’inertie moyenne. Il ne serait donc pas idiot de le retenir aussi. L’éboulis des valeurs propres ne montre pas de coupure (coude) très nette. On pourrait aussi bien conserver 1 (donc 2), 3 ou 4 axes. Prendre 3 axes permet de conserver 9% d’inertie supplémentaire, ce qui n’est pas négligeable, ramenant à 86% l’information retenue. On choisit de retenir 3 axes. barplot(acp1$eig[,1]) . Graphiques : • Premier plan principal plot(acp1, choix="ind", col.ind=0, title=paste('PCA; Den Boer (2009); ', nrow(s_expr), 'samples *', ncol(s_expr), 'genes', sep=' ')) text(acp1$ind$coord[,1],acp1$ind$coord[,2], label=sample.labels, col=sample.colors, cex=0.7) . .

(13) legend('topleft',col=group.colors, legend=names(group.colors),pch=1,cex=0.4,bg='white',bty='o') . BCR-ABL + hyperdiploidy BCR-ABL E2A-rearranged (E) E2A-rearranged (E-sub) E2A-rearranged (EP) MLL T-ALL TEL-AML1 + hyperdiploidy TEL-AML1 hyperdiploid pre-B ALL. GSM338703 GSM338812 GSM338704 Bt GSM338821 GSM338819 GSM338749 Bo GSM338814 Bt GSM338815 GSM338752 Bo Bh Bo GSM338817 Bo GSM338820 Bo GSM338823 GSM338748 GSM338757 Bh GSM338816 GSM338756 GSM338745 GSM338818 Bo Bo GSM338750 GSM338775 Bo Bh Bh Bo GSM338828 Bh Bth Bo Bh GSM338795 GSM338813 Bh GSM338849 Bo BEp Bo Bo. 0. Dim 2 (10.08%). 5. 10. PCA; Den Boer (2009); 190 samples * 10 genes. GSM338680 GSM338687 GSM338667 GSM338696 TGSM338699 GSM338678 GSM338688 T T GSM338681 T GSM338691 GSM338666 GSM338685 T TT T GSM338686 GSM338673 T T GSM338675 TGSM338700 T T GSM338682 GSM338669 T T T T GSM338684 GSM338693 GSM338689 GSM338668 GSM338683 T GSM338692 T TT GSM338677 T T GSM338690 GSM338698 GSM338674 GSM338671 T GSM338679 GSM338694 T GSM338670 GSM338701 GSM338672 T TT T GSM338676 GSM338695 T T T T GSM338697 TT. GSM338709 GSM338846 Bt GSM338792 GSM338803 GSM338719 GSM338839 GSM338804 GSM338826 GSM338844 Bo BEp GSM338855 BcBt GSM338854 GSM338835 GSM338793 Bo GSM338720 Bc GSM338797 GSM338829 Bo Bo GSM338765 GSM338805 Bo GSM338801 GSM338706 GSM338771 GSM338822 Bo Bo BEp GSM338744 GSM338730 GSM338833 Bt GSM338790 GSM338767 BEp GSM338714 GSM338827 GSM338725 GSM338746 Bo GSM338705 Bh GSM338743 Bc GSM338851 GSM338836 BEs Bt GSM338718 BhGSM338737 GSM338796 Bo GSM338729 GSM338794 GSM338762 GSM338841 GSM338837 GSM338848 GSM338800 GSM338723 GSM338853 GSM338840 BtBt Bo Bt GSM338791 BE Bh Bt GSM338799 Bo GSM338788 GSM338711 Bt GSM338736 GSM338717 Bh GSM338732 GSM338843 GSM338721 GSM338842 GSM338702 Bt GSM338807 GSM338783 GSM338755 GSM338713 GSM338728 Bo GSM338738 GSM338789 GSM338769 GSM338734 GSM338845 Bo GSM338724 G SM338808 GSM338809 GSM338773 GSM338834 GSM338798 BEp GSM338742 Bt GSM338776 BEp GSM338710 BtBo GSM338740 GSM338830 GSM338727 GSM338785 Bo BhBo Bt GSM338824 Bo GSM338761 BEs GSM338722 Bt BEp GSM338838 GSM338741 Bo GSM338778 GSM338770 GSM338708 GSM338787 GSM338802 GSM338760 BEs GSM338758 GSM338825 Bh GSM338707 Bt GSM338847 BtGSM338715 Bt Bt GSM338832 Bt BM BoBo Bt GSM338782 GSM338712 Bch GSM338733 Bh Bh BtBo BEp Bt GSM338751 Bh Bo Bt Bh Bt BM Bo Bh GSM338739 GSM338810 GSM338772 Bt GSM338763 GSM338726 Bh GSM338786 Bt GSM338766 Bt GSM338735 Bh GSM338716 Bo Bh Bt Bo Bt Bh Bh Bt BEs Bh Bh Bo GSM338747 Bo Bt GSM338754 Bo GSM338768 GSM338831 Bt Bh Bt GSM338780 Bh GSM338806 GSM338753 GSM338764 Bt BM Bh GSM338784 Bh Bt Bh GSM338781 Bh GSM338777 GSM338779 Bt Bt GSM338774 GSM338731 GSM338811 BhBoGSM338852 Bh GSM338759 Bh Bh Bc Bh Bh Bh Bh Bh Bh Bo Bt Bh GSM338850 BM Bo. -5. T. -5. 0. 5. 10. 15. Dim 1 (67.37%). plot(acp1, choix="var", title="Gènes sur le plan principal", col.var=2, cex=0.7) . . 3. Gènes sur le plan principal. 1. Dim 2 (10.08%). 2. S100A8|202917_s_at. NA|216379_x_at. KLF4|221841_s_at IL23A|211796_s_at IL23A|210915_x_at ITM2A|202746_at CD3D|213539_at. CD9|201005_at. -1. 0. HLA-DRA|208894_at HLA-DRA|210982_s_at. -2. -1. 0 Dim 1 (67.37%). . 1. 2. 3. .

(14) • Plan (1,3) plot(acp1, choix="ind", axes=c(1,3),col.ind=0, title=paste('PCA; Den Boer (2009); ', nrow(s_expr), 'samples *', ncol(s_expr), 'genes', sep=' ')) text(acp1$ind$coord[,1],acp1$ind$coord[,3], label=sample.labels, col=sample.colors, cex=0.7) legend('topleft',col=group.colors, legend=names(group.colors),pch=1,cex=0.4,bg='white',bty='o') . 0. BCR-ABL + hyperdiploidy BCR-ABL E2A-rearranged (E) E2A-rearranged (E-sub) E2A-rearranged (EP) MLL T-ALL TEL-AML1 + hyperdiploidy TEL-AML1 hyperdiploid pre-B ALL. GSM338729 GSM338720 GSM338744 Bt GSM338718 GSM338836 Bt Bt GSM338837 GSM338713 GSM338707 GSM338742 GSM338724 Bt GSM338741 GSM338719 GSM338717 Bo GSM338705 GSM338734 GSM338723 Bo GSM338710 Bt Bt Bt Bt Bt Bt Bt GSM338736 GSM338855 GSM338711 GSM338854 BtBt BtBt GSM338841 GSM338725 GSM338743 GSM338726 GSM338704 Bt GSM338735 Bo Bt Bo GSM338808 GSM338702 GSM338708 GSM338722 Bt Bo Bt GSM338829 Bt Bt GSM338709 Bt GSM338721 GSM338745 GSM338827 BM Bt Bt Bt GSM338728 GSM338737 GSM338835 GSM338848 GSM338839 Bo GSM338821 BtBt GSM338810 GSM338851 GSM338809 Bth GSM338712 Bo Bt Bt GSM338749 GSM338738 GSM338733 Bo Bo GSM338714 GSM338801 GSM338706 BM GSM338818 Bo BM Bh Bo GSM338794 GSM338795 Bt Bt GSM338727 GSM338849 GSM338797 GSM338793 Bt GSM338828 GSM338769 Bt GSM338833 GSM338799 GSM338813 GSM338775 GSM338792 BEs Bt GSM338826 BEp BEp GSM338791 GSM338778 GSM338703 GSM338842 GSM338788 GSM338740 GSM338847 GSM338798 GSM338739 GSM338730 GSM338807 GSM338790 Bt GSM338732 GSM338843 BEp BEp GSM338832 GSM338802 GSM338844 Bo Bo Bo GSM338771 Bh BEp Bo BEs Bo Bh GSM338804 GSM338772 GSM338796 Bo GSM338811 BEp GSM338812 Bh GSM338787 Bo BEp Bh BtBE BtBt Bo GSM338840 Bt GSM338761 Bch GSM338762 Bt GSM338715 BoBo GSM338805 Bo BEs GSM338846 GSM338819 GSM338753 GSM338845 GSM338800 GSM338831 GSM338751 Bh GSM338834 GSM338822 GSM338765 GSM338776 GSM338758 Bc GSM338824 GSM338785 BEp Bh GSM338755 GSM338783 GSM338766 BM Bo Bh GSM338803 Bo GSM338760 Bh Bh GSM338757 Bt GSM338731 GSM338853 Bo Bo BhGSM338716 Bo BEs GSM338782 Bo BhBh BoBc Bo Bh Bh Bh GSM338773 GSM338806 Bo Bh GSM338763 GSM338789 Bh GSM338786 GSM338820 Bc Bh Bh Bh Bt GSM338780 Bo BtGSM338823 GSM338825 GSM338774 GSM338830 GSM338746 Bh Bc Bh Bh Bo Bh Bo Bh BoGSM338781 GSM338838 GSM338764 GSM338754 GSM338850 GSM338815 Bh GSM338759 Bo Bh GSM338817 GSM338747 GSM338814 GSM338784 GSM338750 GSM338768 Bo Bh Bh GSM338852 Bh Bo Bo Bo Bh Bh GSM338756 GSM338770 Bh Bo GSM338767 Bh Bh GSM338752 GSM338816 Bo GSM338779 Bh GSM338777 Bh Bh Bh Bo Bh GSM338748 Bh. GSM338688 GSM338687 T T GSM338674 GSM338682 GSM338675 GSM338699 TGSM338685 GSM338680 GSM338673 TGSM338671 T GSM338676 GSM338691 GSM338700 T GSM338684 T GSM338696 GSM338668 GSM338695 GSM338681 T GSM338686 T GSM338694 T T GSM338683 GSM338666 T TTT TTGSM338689 GSM338672 T TT T GSM338693 GSM338697 GSM338690 T GSM338669 T GSM338698 T GSM338667 GSM338701 GSM338692 GSM338677 TT T GSM338678 T T T T T T T GSM338670 T. GSM338679 T. Bh. -10. -5. Dim 3 (8.99%). 5. 10. PCA; Den Boer (2009); 190 samples * 10 genes. -5. 0. 5 Dim 1 (67.37%). 10. 15. plot(acp1, choix="var", axes=c(1,3), title="Gènes sur le plan principal", col.var=2, cex=0.7) .

(15) 2. Gènes sur le plan principal. 1. KLF4|221841_s_at. 0. IL23A|211796_s_at CD3D|213539_at IL23A|210915_x_at S100A8|202917_s_at. -1. Dim 3 (8.99%). ITM2A|202746_at HLA-DRA|210982_s_at HLA-DRA|208894_at NA|216379_x_at. -2. CD9|201005_at. -2. -1. 0. 1. 2. 3. Dim 1 (67.37%). . •. . Plan (2,3) . 0 -4. -2. Dim 3 (8.99%). 2. 4. 6. PCA; Den Boer (2009); 190 samples * 10 genes BCR-ABL + hyperdiploidy BCR-ABL E2A-rearranged (E) E2A-rearranged (E-sub) E2A-rearranged (EP) MLL T-ALL TEL-AML1 + hyperdiploidy TEL-AML1 hyperdiploid pre-B ALL. GSM338729 GSM338720 GSM338744 Bt Bt GSM338718 Bt GSM338836 Bt GSM338837 GSM338713 GSM338707 GSM338742 Bo GSM338724 GSM338741 GSM338719 GSM338717 Bt Bo Bt GSM338705 Bt GSM338734 GSM338723 BtBt Bt GSM338710 Bt Bt Bt Bt Bt GSM338736 GSM338855 GSM338711 GSM338854 Bt GSM338841 GSM338725 Bo Bt Bo GSM338688 GSM338743 GSM338726 GSM338704 GSM338735 Bo Bt GSM338808 GSM338702 GSM338708 GSM338687 T GSM338722 Bt Bt Bt Bt GSM338829 Bt Bt T GSM338709 BtBM GSM338745 GSM338827 Bo GSM338728 GSM338737 GSM338721 GSM338835 Bt GSM338674 GSM338848 GSM338839 Bth Bo GSM338821 GSM338682 Bt Bt BtGSM338675 Bo GSM338810 GSM338851 GSM338809 T Bo GSM338712 Bo Bo T T GSM338699 GSM338749 GSM338738 GSM338733 BM GSM338680 BM Bo GSM338673 Bt GSM338714 GSM338685 Bh GSM338801 GSM338706 GSM338671 GSM338676 T Bt GSM338794 Bt GSM338795 T GSM338691 BtBEs GSM338727 T GSM338818 GSM338849 GSM338700 GSM338797 GSM338793 T Bt GSM338684 TGSM338769 GSM338828 GSM338686 T BEp GSM338696 BEp GSM338668 GSM338833 GSM338799 GSM338695 GSM338813 GSM338775 T GSM338792 GSM338681 Bt Bo GSM338694 GSM338826 BEp BEp Bo T GSM338791 GSM338778 GSM338703 T Bo GSM338842 T GSM338683 GSM338788 GSM338740 T GSM338847 GSM338798 GSM338730 GSM338807 Bh GSM338790 T GSM338732 Bo BEs GSM338843 T GSM338739 Bo Bh GSM338832 T GSM338802 GSM338844 GSM338666 T Bo BEp GSM338771 BEp Bh Bt Bo TBch Bh Bt BEp Bo Bt Bt GSM338804 BE GSM338672 Bt GSM338772 Bo GSM338689 Bo GSM338796 BEs Bo T GSM338811 GSM338812 GSM338787 Bh GSM338693 GSM338840 GSM338761 GSM338697 GSM338762 GSM338715 GSM338805 Bc GSM338690 T GSM338846 GSM338819 GSM338753 GSM338669 Bh GSM338845 BEp GSM338800 T GSM338831 GSM338751 BM Bo GSM338834 Bh GSM338822 GSM338765 T GSM338776 Bo GSM338758 Bh T GSM338824 Bh GSM338785 GSM338698 Bt GSM338755 Bc GSM338783 T Bh BoBEs GSM338766 Bo Bo GSM338667 Bh T GSM338803 GSM338701 Bo GSM338692 GSM338677 Bo GSM338760 Bo BhGSM338678 GSM338757 Bh Bh GSM338731 Bo GSM338853 Bh TBh GSM338716 GSM338782 T T Bh TBh BcT T GSM338806 Bh GSM338763 Bt GSM338773 GSM338789 Bo BtBh GSM338823 GSM338786 GSM338820 Bc Bh Bh GSM338780 Bh GSM338825 GSM338670 GSM338774 BoBo Bh GSM338746 GSM338830 Bo TBhBh Bo Bh GSM338838 GSM338781 GSM338764 GSM338754 GSM338850 GSM338815 GSM338759 Bo GSM338817 Bh Bh GSM338747 GSM338814 GSM338784 GSM338750 Bo Bo GSM338768 Bh Bh GSM338852 Bh Bh Bh Bo Bo GSM338756 Bh GSM338767 BoGSM338770 GSM338679 Bh GSM338752 Bh GSM338816 GSM338779 Bh GSM338777 T Bo. Bh Bh. Bh. GSM338748. -6. Bh. -4. -2. 0. 2 Dim 2 (10.08%). . 4. 6. 8. .

(16) KLF4|221841_s_at. ITM2A|202746_at. NA|216379_x_at IL23A|210915_x_at IL23A|211796_s_at CD3D|213539_at. S100A8|202917_s_at. -0.5. 0.0. HLA-DRA|208894_at HLA-DRA|210982_s_at. -1.5. -1.0. Dim 3 (8.99%). 0.5. 1.0. 1.5. Gènes sur le plan principal. CD9|201005_at. 0. 1 Dim 2 (10.08%). 2. 3. Interprétation des axes: On ce qui concerne les échantillons, on observe des groupes sensiblement identiques à ceux observés sur l’ACP du tableau complet. En particulier, on peut distinguer la distinction du groupe T-‐all sur l’axe 1 et l’opposition des échantillons rouges et verts sur l’axe 2. En revanche, on peut ici caractériser ces sous-‐groupes par l’expression des 10 gènes retenus. Pour cela, on regarde la contribution des variables sur chaque axe (contribution moyenne=1/p=0.1=10%): Axe1 : cbind(C=acp1$var$coord[,1],CTR=acp1$var$contrib[,1]) C CTR CD9|201005_at ITM2A|202746_at S100A8|202917_s_at HLA-DRA|208894_at IL23A|210915_x_at HLA-DRA|210982_s_at IL23A|211796_s_at CD3D|213539_at NA|216379_x_at KLF4|221841_s_at . . -1.623577 1.825577 0.667649 -2.112526 2.089359 -2.039864 2.304737 2.324049 -1.984211 -1.271833. 7.389686 9.342866 1.249615 12.510771 12.237879 11.664941 14.890957 15.141560 11.037114 4.534611.

(17) L’axe 1 met en évidence le comportement particulier des gènes dans les échantillons de type T-‐all : contrairement à ce qui se produit dans les autres échantillons, les gènes en vert (sur le tableau précédents) y sont relativement sous-‐exprimés tandis que les gènes en orange sont sur exprimés. cbind(C=acp1$var$coord[,2],CTR=acp1$var$contrib[,2]) C CTR CD9|201005_at -0.03102927 0.01803259 ITM2A|202746_at 0.10794251 0.21822278 S100A8|202917_s_at 2.18187681 89.16111344 HLA-DRA|208894_at 0.20516294 0.78833870 IL23A|210915_x_at 0.15964521 0.47733890 HLA-DRA|210982_s_at 0.20618072 0.79617976 IL23A|211796_s_at 0.17550974 0.57692251 CD3D|213539_at -0.04958009 0.04603940 NA|216379_x_at 0.42943774 3.45394529 KLF4|221841_s_at 0.48820035 4.46386663. L’axe 2 montre une opposition de deux sous-‐groupes d’échantillons du point de vue de l’expression du gène S100A8|202917_s_at. Cependant, il est difficile de caractériser ces deux groupes avec leurs sous-‐type (les couleurs sont mélangées dans les deux groupes). Donc, l’axe est difficilement interprétable avec les seules informations dont on dispose. En réalité, la contribution de ce gène S100A8|202917_s_at monopolise à lui seul un axe et masque donc probablement d’autres aspects de l’information contenue dans le tableau. On pourrait l’enlever et recommencer l’analyse. On ne détaillera pas ici, mais on peut montrer que dans ce cas, l’information du troisième axe est contenue sur le second et que l’on est amenés à garder seulement 2 axes (on a donc les même conclusions pour les deux analyses). cbind(C=acp1$var$coord[,3],CTR=acp1$var$contrib[,3]) CD9|201005_at ITM2A|202746_at S100A8|202917_s_at HLA-DRA|208894_at IL23A|210915_x_at HLA-DRA|210982_s_at IL23A|211796_s_at CD3D|213539_at NA|216379_x_at KLF4|221841_s_at. C CTR -1.52100002 48.62181538 0.53802092 6.08374583 -0.41525385 3.62409902 0.23472066 1.15791151 -0.04655895 0.04555952 0.23118410 1.12328162 -0.02885203 0.01749546 -0.03281705 0.02263455 0.11802512 0.29276665 1.36240257 39.01069046. L’axe 3 oppose essentiellement les tissus verts et rouges du point de vue de l’expression des gènes CD9|201005_at et KLF4|221841_s_at . Le premier est surexprimé dans les échantillons rouges (bh) et sous-‐exprimé dans les verts (bt) alors que c’est l’inverse pour le second. .

(18) ACP sur des gènes à forte contribution à l’inertie des axes Une autre façon de sélectionner un sous-‐ensemble de gènes consiste à se limiter aux gènes les plus typiques du tableau du point de vue de leurs expressions sur les échantillons. Pour cela, on fait l’ACP du tableau exp.matrix (gènes considérés comme individus et échantillons considérés comme variables), et on sélectionne les « individus » contribuant le plus à la formation des axes (RQ : on pourrait aussi faire une classification de gènes et sélectionner dans chaque classe quelques gènes les plus représentatifs de la classe (parangons) ). acp4=PCA(expr.matrix, scale.unit=FALSE, graph=FALSE) plot(acp4, choix="var", col.var=0, title="Echantillons sur le plan principal") text(acp4$var$coord[,1],acp4$var$coord[,2], label=sample.labels, col=sample.colors, cex=0.7) . 0.0. GSM338689 T TGSM338668 T GSM338678 T GSM338669 GSM338667 TT GSM338700 GSM338698 T GSM338670 GSM338686 T T GSM338675 T T GSM338681 GSM338673 TTGSM338685 GSM338699 TT GSM338688 T GSM338690 GSM338701 GSM338696 T T GSM338666 TGSM338697 TGSM338676 GSM338694 T GSM338692 TT TT T GSM338691 GSM338679 GSM338677 GSM338683 TGSM338684 GSM338687 T GSM338693 T GSM338671 T GSM338672 T T GSM338680 GSM338695 T GSM338674 T GSM338749 Bh GSM338682 T GSM338821 Bo GSM338799 BEs BM GSM338809 GSM338807 Bch BEp GSM338828 Bo GSM338794 GSM338822 Bo GSM338800 BEs GSM338801 BEs GSM338804 Bc GSM338820 Bo BEp GSM338797 GSM338739 Bt GSM338811 BM BEp GSM338802 BEs GSM338823 GSM338813 Bo Bo GSM338793 GSM338737 Bt GSM338847 Bo GSM338746 GSM338704 Bh Bt GSM338840 Bo GSM338812 GSM338819 Bo Bo GSM338817 Bo GSM338831 Bo GSM338825 Bo BEp GSM338795 GSM338824 Bo GSM338703 Bt GSM338849 Bo GSM338725 Bt GSM338787 GSM338810 Bh BM GSM338752 Bh BEp GSM338818 GSM338745 Bo Bth GSM338796 GSM338808 BM GSM338706 Bt GSM338714 Bt GSM338751 Bh GSM338732 Bt GSM338784 Bh GSM338843 Bo GSM338790 BE GSM338728 Bt GSM338760 Bh GSM338741 GSM338850 GSM338713 GSM338829 Bt BEp Bo BEp GSM338841 Bo GSM338838 GSM338768 Bo GSM338738 Bh Bt GSM338757 GSM338827 GSM338792 Bo Bh GSM338711 BEp GSM338816 GSM338853 Bo GSM338839 Bo GSM338743 GSM338769 Bt GSM338798 Bh GSM338765 Bh GSM338846 GSM338772 Bo Bh GSM338712 Bt GSM338815 Bo GSM338702 Bt GSM338854 Bo GSM338734 Bt GSM338731 GSM338791 GSM338705 Bt GSM338744 GSM338761 GSM338845 Bt Bo Bh GSM338716 Bt GSM338814 GSM338805 Bo Bc GSM338842 Bo GSM338826 GSM338833 Bo Bo GSM338717 Bt GSM338723 Bt GSM338736 Bt GSM338848 Bo GSM338855 Bo GSM338709 Bt GSM338750 Bh GSM338774 Bh GSM338852 Bo GSM338762 GSM338742 Bh Bt GSM338776 GSM338710 GSM338851 Bt Bo GSM338740 Bt GSM338779 GSM338830 GSM338836 Bh Bo Bo GSM338763 Bh Bh GSM338759 GSM338803 Bc GSM338837 GSM338733 Bo GSM338726 GSM338730 Bt Bt GSM338844 Bo GSM338806 Bc GSM338727 GSM338755 Bt GSM338764 Bh Bh GSM338747 Bh GSM338722 Bt GSM338834 Bo GSM338782 GSM338788 Bh Bh GSM338754 GSM338789 Bh Bh GSM338835 GSM338719 Bo Bt GSM338781 GSM338753 Bh Bh GSM338767 GSM338735 Bt GSM338770 Bh GSM338748 GSM338786 GSM338718 Bt Bh GSM338758 GSM338707 Bh GSM338780 Bh GSM338756 GSM338778 Bh GSM338729 GSM338783 Bt Bh GSM338708 Bt GSM338832 Bo GSM338715 GSM338777 Bt GSM338773 Bh Bh GSM338724 Bt GSM338775 Bh GSM338785 Bh GSM338721 GSM338771 Bh GSM338720 BtBt Bh GSM338766. -0.5. Dim 2 (1.14%). 0.5. 1.0. Echantillons sur le plan principal. 0.0. 0.5. 1.0. 1.5. 2.0. Dim 1 (93.45%). On observe un très fort effet taille sur le premier axe, opposant les gènes fortement exprimés sur tous les tissus à ceux faiblement exprimés. Cet axe n’apporte pas grand chose. C’est sur les dimensions 2,3 et 4 de l’espace factoriel . .

(19) que l’on retrouve le mieux les groupes d’échantillons vus dans l’ACP avec échantillons-‐individus. Echantillons sur le plan (2,3). 0.0 -0.2. Dim 3 (0.49%). 0.2. GSM338695 GSM338682 T GSM338680 T GSM338806 T T GSM338684 T GSM338691 GSM338718 Bc T GSM338693 GSM338837 T GSM338694 Bt GSM338721 Bt GSM338720 Bt T GSM338687 GSM338715 Bt GSM338803 GSM338850 Bo GSM338674 T GSM338766 Bh GSM338791 GSM338855 GSM338708 Bt GSM338782 BhBc T GSM338671 GSM338835 Bo GSM338796 GSM338844 GSM338673 GSM338808 BEpBo GSM338777 BhBt BoGSM338790 TTGSM338688 Bo GSM338707 GSM338679 T T BEp GSM338851 Bo GSM338785 Bh GSM338676 BM T GSM338683 GSM338685 GSM338839 GSM338686 GSM338727 T Bt BE GSM338701 TTT GSM338699 GSM338834 Bo GSM338775 Bh GSM338724 Bt GSM338831 GSM338832 GSM338771 Bh Bo GSM338759 GSM338786 BhBoGSM338810 Bh Bt GSM338730 GSM338848 Bo GSM338675 T GSM338677 T GSM338681 T T GSM338729 BtBt GSM338733 Bt GSM338852 Bo Bo GSM338692 GSM338845 GSM338781 Bh GSM338735 BEp GSM338811 BMBo GSM338798 GSM338762 Bh T GSM338696 GSM338776 GSM338722 GSM338753 Bt Bh Bh GSM338719 Bt GSM338817 BEp GSM338792 GSM338758 GSM338773 Bh Bh GSM338780 GSM338789 T GSM338666 GSM338742 Bt GSM338778 BM GSM338846 Bh Bh Bo GSM338815 GSM338783 GSM338740 Bh GSM338747 BhBt T GSM338698 GSM338774 Bh T GSM338672 GSM338841 GSM338788 Bo GSM338827 Bh GSM338843 Bo Bo GSM338842 BoBo Bo T GSM338697 GSM338726 Bt Bo GSM338754 Bh GSM338833 GSM338767 Bh GSM338805 Bc GSM338748 Bh GSM338717 T GSM338690 Bt GSM338756 Bh T GSM338689 GSM338734 GSM338755 Bt GSM338764 Bh GSM338709 GSM338830 Bo GSM338710 BtBt BEpBEs GSM338731 GSM338801 Bt GSM338793 GSM338779 Bh GSM338763 Bh GSM338716 GSM338761 Bh GSM338736 BtBt GSM338838 BoBh GSM338732 Bt GSM338700 T T GSM338784 GSM338667 GSM338854 Bo GSM338712 BtBo GSM338836 Bo GSM338829 GSM338750 Bh GSM338668 T GSM338826 Bo GSM338741 Bt T GSM338678 GSM338814 Bo BEs GSM338705 BtBt GSM338770 Bh GSM338743 GSM338711 Bt BEp BEpBEsGSM338800 Bo T GSM338670 T GSM338669 Bt GSM338802 Bh GSM338744 Bt Bh Bh GSM338809 BM GSM338797 GSM338795 GSM338738 GSM338723 BtGSM338849 Bt Bc BEp GSM338768 BEsGSM338799 Bo Bh GSM338760 GSM338772 Bo Bt Bt GSM338794 Bo GSM338702 GSM338853 BhBt GSM338804 GSM338765 Bt GSM338816 GSM338714 Bh GSM338713 BoBo GSM338840 GSM338769 Bt Bh GSM338819 Bo Bt Bo GSM338703 GSM338728 Bo GSM338787 GSM338824 Bt GSM338706 GSM338757 GSM338823 GSM338725 GSM338818 GSM338847 Bo GSM338739 Bh Bo BoBt GSM338820 GSM338749 Bth GSM338813 Bch Bt GSM338825 Bo Bo GSM338704 Bh GSM338745 GSM338807 GSM338737 GSM338812 GSM338822 GSM338751 Bh. Bo. GSM338752 GSM338821 Bh. Bo. -0.4. GSM338746 GSM338828. -0.2. 0.0. 0.2 Dim 2 (1.14%). . 0.4. .

(20) Echantillons sur le plan (2,4). 0.0 -0.2. Dim 4 (0.37%). 0.2. GSM338723 GSM338715 GSM338710 GSM338713 GSM338731 GSM338741 Bt GSM338734 BtBtGSM338849 Bt GSM338739 GSM338829 Bt GSM338841 GSM338722 BtBo Bt GSM338837 GSM338703 Bo GSM338729GSM338851 Bt Bt Bo GSM338797 Bt GSM338709 GSM338744 GSM338801 Bo GSM338738 Bt GSM338711 GSM338706 GSM338705 GSM338793 GSM338745 GSM338827 Bo GSM338724 Bt GSM338855 GSM338846 GSM338795 GSM338854 GSM338728 BEp Bt Bt BEs Bt GSM338743 GSM338725 Bt Bth BEp BtBEp Bt Bo Bo GSM338727 Bt Bo GSM338836 GSM338732 Bo Bo Bt GSM338719 Bt GSM338791 GSM338718 BtBo GSM338717 Bt Bt Bt Bt GSM338835 GSM338742 BEsGSM338799 GSM338844 BoBt BEp GSM338704 BM GSM338809 GSM338848 GSM338720 Bt GSM338830 TTGSM338684 GSM338714 BEpGSM338794 GSM338735 Bt BoBo Bt GSM338676 GSM338853 Bo GSM338831 GSM338787 BEp GSM338798 Bo GSM338820 GSM338737 Bt GSM338690 GSM338733 T GSM338707 GSM338702 Bt Bt Bt GSM338812 GSM338696 GSM338666 TT Bc GSM338804 BhBo GSM338839 Bo BEp Bo GSM338672 T T GSM338826 Bo BEp Bt GSM338792 GSM338669 T GSM338667 GSM338796 GSM338730 Bt BoBo GSM338685 GSM338686 TTGSM338681 T GSM338816 Bo GSM338823 GSM338789 Bh GSM338845 GSM338833 Bo Bo Bo Bo GSM338840 GSM338850 GSM338818 GSM338736 Bt GSM338699 T GSM338698 TGSM338675 GSM338765 Bh T BM GSM338811 T GSM338668 GSM338695 T GSM338679 T GSM338677 GSM338726 Bt GSM338670 T GSM338821 BoBh GSM338749 T BoBo GSM338808 GSM338760 BM T GSM338678 GSM338740 GSM338790 Bh Bt BE GSM338759 Bh GSM338721 Bt GSM338716 Bt GSM338764 Bh BM GSM338763 Bh Bh GSM338782 GSM338708 Bt Bh GSM338761 BEsGSM338800 T GSM338700 GSM338815 T GSM338671 GSM338697 TGSM338694 GSM338852 GSM338817 Bo Bo T TGSM338691 GSM338824 GSM338758 BhBoBc T GSM338689 GSM338762 Bh GSM338838 Bo GSM338803 GSM338834 GSM338805 T GSM338673 Bc T Bo GSM338810 GSM338683 T GSM338687 GSM338768 Bh GSM338778 BEs Bh GSM338822 Bo GSM338842 GSM338712 Bo Bo GSM338688 GSM338814 T GSM338701 GSM338775 BoBt Bo Bh Bh T GSM338692 T GSM338813 GSM338780 Bo Bh Bh GSM338766 Bh GSM338802 GSM338806 Bc Bh Bh GSM338832 Bo GSM338774 GSM338693 T Bch GSM338819 Bo Bo T GSM338674 BhGSM338847 GSM338843 GSM338784 T GSM338680 GSM338769 GSM338772 GSM338776 Bh GSM338781 Bh GSM338807 T GSM338682 GSM338825 GSM338828 GSM338770 Bh GSM338756 Bh GSM338757 GSM338771 Bh GSM338748 Bh GSM338783 GSM338786BhBh Bh Bh Bh Bh GSM338755 GSM338767 Bh GSM338788 GSM338747 GSM338785GSM338754 Bh Bh Bh GSM338750 Bh Bh GSM338777 GSM338779 Bh GSM338773GSM338751 GSM338752 Bh. Bh. -0.4. GSM338753 GSM338746. -0.2. 0.0. 0.2. 0.4. Dim 2 (1.14%). . Nous allons sélectionner les gènes les plus représentatifs sur le sous-‐espace factoriel engendré par les axes (2,3,4), ie, ceux qui contribuent le plus à la formation de ce sous-‐espace. On enlève l’axe 1 car il n’apporte aucune information intéressante. Ainsi, on tombe “naturellement” sur des gènes dont les expressions permettent de discriminer facilement les échantillons. Calcul des contributions sur un sous-‐espace Rappel : •. 1 n 2 Inertie de l’axe k = λk = ∑ cik ; n i=1. •. cik2 Contribution de i à la formation de l’axe k= ctrik = nλ k. . On peut calculer la contribution à un sous-‐espace de manière analogue à la contribution à un axe. Par exemple, pour calculer la contribution d’un individu i au plan factoriel (k,k’): .

(21) ei⊥ = projection orthogonale de ei sur le plan (k,k')= = ei ,uk uk + ei ,uk ' uk ' = (cik uk + cik 'uk ' ) Inertie du nuage projeté sur le plan (k,k') 1 n 2 ⊥ 1 n 2 I kk ' = ∑ d (ei ,G) = ∑ (cik + cik2 ' ) = =λk + λk ' n i=1 n i=1. 2 ik. c + cik2 ' Contribution de i à la formation du plan (k,k’)= ctrikk ' = n( λk + λk ' ) Calcul de la contribution des genes à la formation du sous-‐espace porté par les axes (2,3,4): nctr234=apply(acp4$ind$coord[,2:4]^2,1,sum)/( acp4$eig[2,1]+ acp4$eig[3,1]+ acp4$eig[4,1]) hist(nctr234) Sélection des genes dont la contribution est > à un certain seuil : Ex: Vecteur identifiant les contributions >20 selec=nctr234>50 sum(selec) [1] 22 exp2=t(expr.matrix[selec,]) Comparaison des genes sélectionnés par les deux methodes colnames(exp2) [1] "CD9|201005_at" "HLA-‐DPB1|201137_s_at" "ITM2A|202746_at" "MAL|204777_s_at" "LCK|204891_s_at" [6] "NPY|206001_at" "CD24|208650_s_at" "HLA-‐DRA|208894_at" "HLA-‐ DRB1|209312_x_at" "CD74|209619_at" [11] "NA|209771_x_at" "IL23A|210915_x_at" "HLA-‐DRA|210982_s_at" "IL23A|211796_s_at" "HLA-‐DPA1|211990_at" [16] "HLA-‐DPA1|211991_s_at" "TCF4|212386_at" "IL23A|213193_x_at" "CD3D|213539_at" "HLA-‐DRB1|215193_x_at" [21] "NA|216379_x_at" "HLA-‐DMA|217478_s_at" colnames(s_expr) [1] "CD9|201005_at" "ITM2A|202746_at" "S100A8|202917_s_at" "HLA-‐ DRA|208894_at" "IL23A|210915_x_at" [6] "HLA-‐DRA|210982_s_at" "IL23A|211796_s_at" "CD3D|213539_at" "NA|216379_x_at" "KLF4|221841_s_at" .

(22) which(colnames(s_expr) %in% colnames(exp2)) [1] 1 2 4 5 6 7 8 9 La selection précédente a sélectionné 8 des 10 gènes de plus grande variance. colnames(exp2)[which(colnames(s_expr) %in% colnames(exp2))] [1] "CD9|201005_at" "HLA-‐DPB1|201137_s_at" "MAL|204777_s_at" "LCK|204891_s_at" "NPY|206001_at" [6] "CD24|208650_s_at" "HLA-‐DRA|208894_at" "HLA-‐DRB1|209312_x_at" ACP sur les 22 gènes les plus discriminants On peut refaire l’ACP avec échantillons en individus sur ces gènes : acp5=princomp(exp2) plot(acp5$scores[,c(1,2)], col=0,main=paste('PCA; Den Boer (2009); ', nrow(exp2), 'samples *', ncol(exp2), 'genes', sep=' ', 'plan (1,2)')) text(acp5$scores[,c(1,2)], label=sample.labels, col=sample.colors, cex=0.7) abline(h=0) ; abline(v=0) On constate que l’on obtient l’essentiel des résultats observés lors des ACP antérieures en 2 axes au lieu de 3 (l’axe2 joue ici le rôle de l’axe 3 précédent). On pourrait refaire une caractérisation des axes à l’aide des 22 gènes sélectionnés. PCA; Den Boer (2009); 190 samples * 22 genes plan (1,2). 0 -4. -2. Comp.2. 2. 4. 6. T. Bh Bo BEs Bh Bo BM Bc Bh Bo Bh Bo BEs Bh BEs Bo BE Bh Bh Bh Bh BM Bh Bc BEp Bh BEp BEp Bh BEp Bt Bo BhBhBh Bo Bo Bh Bc Bh Bh Bo Bo Bo Bh BEs Bo BEp Bh BhBh Bo Bo Bh Bch Bo BEp BEp Bh BhBh Bo Bo Bh BtBt BhBh Bh Bh Bt Bh Bo Bh Bh Bo Bo Bh Bh Bo BEp Bo Bo Bh Bt Bh Bh Bo Bo Bo Bo Bt Bh Bo Bo Bh Bt BM Bt Bo Bo Bo BhBh Bo Bt Bo Bo Bo Bh Bt Bt Bt Bt Bt Bt Bt Bc Bo Bo Bt Bt Bt Bt Bt Bt Bt Bt Bt BtBt Bt Bt Bo Bo Bt BtBt Bt Bo Bo Bth Bt BtBt Bt Bt Bt BtBt Bt. -5. 0. T. T. T. BM. T T T. T. T. T T T. T T. T. T. T. T. T. T. T T. T. T T T T T TT. T T T T T. T. 5. 10. 15. 20. Comp.1. Coordonnées des variables sur les deux premiers axes factoriels (cf formules du cours) et graphe des variables . .

(23) D11=(acp5$sdev[1])*(acp5$loadings[,1]) D12=(acp5$sdev[2])*(acp5$loadings[,2]) . 0.5 0.0. D12. 1.0. 1.5. CD9|201005_at. NPY|206001_at CD24|208650_s_at TCF4|212386_at NA|216379_x_at NA|209771_x_at LCK|204891_s_at CD3D|213539_at MAL|204777_s_at. CD74|209619_at. IL23A|213193_x_at IL23A|210915_x_at IL23A|211796_s_at. -0.5. HLA-DRA|208894_at HLA-DPB1|201137_s_at HLA-DRA|210982_s_at HLA-DPA1|211990_at HLA-DRB1|209312_x_at HLA-DRB1|215193_x_at HLA-DPA1|211991_s_at HLA-DMA|217478_s_at. ITM2A|202746_at. -2. -1. 0. 1. 2. D11. On peut interpréter les contributions des genes aux axes en comparant la valeur absolue des vecteurs propres 1/sqrt(p); par exemple pour l’axe 1, acp5$loadings[abs(acp5$loadings[,1])>1/sqrt(22),1] LCK|204891_s_at HLA-DRA|208894_at 0.2136115 -0.2435928 NA|209771_x_at IL23A|210915_x_at HLA-DRA|210982_s_at -0.2185479 0.2259143 -0.2353926 IL23A|211796_s_at 0.2486099 CD3D|213539_at 0.2568470. NA|216379_x_at -0.2249530. L’axe 1 oppose les échantillons T-‐all, caractérisés par une faible expression des gènes en vert et une forte expression des gènes en orange, aux autres . .

(24) échantillons. ACP Sparse Une autre façon d’obtenir une représentation lisible de l’ACP consiste à rechercher une version parcimonieuse des composantes principales en limitant le nombre de variables dans les combinaisons. Cela revient à ajouter une contrainte de type Lasso dans la décomposition en valeur singulière de la matrice. On ne développera pas l’aspect technique ici, il s’agit juste de voir comment faire ce type d’analyse sous R. On utilise pour cela la fonction spca(). Si l’on n’ajoute pas de contrainte, on obtient les mêmes résultats que l’ACP standard. library(mixOmics) acp6=spca(exp, ncomp=2,scale=F) Comparaison des sorties des fonctions prcomp et spca ACP normale sur l’ensemble des gènes : on comparera acp3, acp6 (rappel : acp3=prcomp(exp)) % d’inertie : names(acp6) [1] "call" "X" "ncomp" "varX" "keepX" "iter" "rotation" "x" summary(acp3) Importance of components: PC1 PC2 Standard deviation 25.9421 17.01316 Proportion of Variance 0.1722 0.07408 Cumulative Proportion 0.1722 0.24634 acp6$varX[1:2] 1 2 0.1722536 0.2463382 spca() donne uniquement les % cumulés de variance expliquée, ce qui est .

(25) suffisant pour choisir le nombre d’axes à retenir, car on peut reconstituer par soustraction les % d’inertie expliqués par chaque axe. Vecteurs propres : acp3$rotation[1:5,1:2] PC1 PC2 DDR1|1007_s_at 4.922103e-03 -0.0097818782 RFC2|1053_at -5.297039e-03 -0.0039730414 HSPA6|117_at -2.753505e-04 0.0053381323 PAX8|121_at 7.366343e-04 -0.0014581689 GUCA1A|1255_g_at -3.358247e-05 0.0001679061 acp6$rotation[1:5,1:2] 1 2 DDR1|1007_s_at 4.922103e-03 0.0097818782 RFC2|1053_at -5.297039e-03 0.0039730414 HSPA6|117_at -2.753505e-04 -0.0053381323 PAX8|121_at 7.366343e-04 0.0014581689 GUCA1A|1255_g_at -3.358247e-05 -0.0001679061 Les sorties sont identiques au signe près dans les deux analyses. Le signe est le sens du vecteur directeur dans la base orthonormée relative à l’espace factoriel du nuage de points individus. Cela ne change rien dès lors que la même convention est prise pour constituer l’espace factoriel du nuage de points variables (ce qui est le cas). Composantes principales acp3$x[1:5,1:2] PC1 PC2 GSM338666 -48.31958 5.216224 GSM338667 -63.36773 -3.349745 GSM338668 -68.49355 -5.489968 GSM338669 -64.69440 -9.525364 GSM338670 -55.33025 -9.231146 acp6$x[1:5,1:2] 1 2 GSM338666 -0.1354837 -0.02230182 GSM338667 -0.1776774 0.01432175 GSM338668 -0.1920497 0.02347221 GSM338669 -0.1813972 0.04072544 GSM338670 -0.1551410 0.03946752 Les composantes principales sont standardisées (de variance 1) dans spca(). Cela ne change rien à l’interprétation. sum(acp6$x[,1]^2) [1] 1 .

(26) sum(acp3$x[,1]^2) [1] 127195.6 (acp3$x[,1]/sqrt(sum(acp3$x[,1]^2)))[1:5] GSM338666 GSM338667 GSM338668 GSM338669 GSM338670 -0.1354837 -0.1776774 -0.1920497 -0.1813972 -0.1551410 acp6$x[1:5,1] GSM338666 GSM338667 GSM338668 GSM338669 GSM338670 -0.1354837 -0.1776774 -0.1920497 -0.1813972 -0.1551410 Graphiques des individus plotIndiv(acp6, col=sample.colors, ind.names=sample.labels, cex=0.7) . 0.2. Bo. Bh. Bo. Bh Bo Bch. Bh. Bo. 0.1. Bt Bo Bo. BEs BM T TT. 0.0. Dimension 2. Bh Bo Bt Bth Bt Bo Bo. T. T T. T. T T T TT. -0.1. TT T T T T. T T. T T T. T T T T. T. T. T TT. T. Bc T T. -0.20. -0.15. Bo Bt Bh Bt Bo Bh Bt Bh Bo Bt Bo Bt Bo Bt Bh Bo BtBt BEp Bc BhBh Bt Bh Bt BEp Bo BEp Bt Bt Bt Bh BEs BEs Bt Bo Bo Bh BoBo Bo Bt Bh Bt Bo Bt Bt Bh Bh Bh BEs BEp Bt Bt BoBh Bt Bh Bh Bt Bc Bt Bh Bh Bo BtBh Bo Bo Bo Bh Bh Bo Bo Bh BtBh Bo Bt Bo Bh Bh BM BhBh Bh BEp Bh BtBt Bh BEp Bh BM Bt Bt BoBoBt Bh Bo Bo Bo BhBo Bh Bt BtBhBh Bo BE Bt BM Bh BEp Bo Bt BEpBo Bh Bo Bo Bc Bo Bt Bh Bh Bo Bt Bt Bt Bt. -0.10. T. -0.05 Dimension 1. Rappel : Graphique pour acp3 . 0.00. 0.05. 0.10. .