• Aucun résultat trouvé

Traitement du jeu de données de Boer(2009)

N/A
N/A
Protected

Academic year: 2022

Partager "Traitement du jeu de données de Boer(2009)"

Copied!
35
0
0

Texte intégral

(1)  . Traitement  du  jeu  de  données  de   Boer(2009)  . La  leucémie  lymphoblastique  aigue  (ALL)  est  caractérisée  par  une  prolifération   clonale  anormale  de  progéniteurs  lymphoides  à  l’intérieur  de  la  moelle  osseuse   bloqués  à  un  stade  précis  de  leur  différentiation.     On  veut    classifier  des  échantillons  de  différents  types  de  Leucémie   lymphoblastique  aigue  (ALL).   Obtention  et  modification  des  données       Obtention  des  données       ##  Définir  l’URL  des  données       url.course  <-­‐  "http://pedagogix-­‐tagc.univ-­‐mrs.fr/courses/ASG1"  url.base  <-­‐   file.path(url.course,  "data/marrays/")     ##  Charger  les  valeurs  d’expression  sous  R       expr.file  <-­‐  file.path(url.base,  "GSE13425_Norm_Whole.txt")     expr.matrix  <-­‐    read.table(expr.file,sep="\t",  head=T,  row=1)         dim(expr.matrix)   [1]  22283      190     ##  Charger  les  données  phénotypiques       pheno  <-­‐  read.table(file.path(url.base,  'phenoData_GSE13425.tab'),                                             sep='\t',  head=TRUE,  row=1)     dim(pheno)   [1]  190      4   names(pheno)   [1]  "Sample.title"                              "Sample.source.name.ch1"           "Sample.characteristics.ch1"  "Sample.description"       On  dispose  de  deux  fichiers.     • Le  fichier  «  expr.matrix  »  est  un  tableau  de  dimension  22283*190  avec  en   lignes  les  gènes  impliqués  et  en  colonnes  les  échantillons.     • Le  fichier  «  pheno  »  contient  des  caractéristiques  des  échantillons      .

(2) ##  Edition  du  nombre  d’échantillons  par  type  de  cancers       print(data.frame("n"=sort(table(pheno$Sample.title),decreasing=T)))     n hyperdiploid 44 pre-B ALL 44 TEL-AML1 43 T-ALL 36 E2A-rearranged (EP) 8 BCR-ABL 4 E2A-rearranged (E-sub) 4 MLL 4 BCR-ABL + hyperdiploidy 1 E2A-rearranged (E) 1 TEL-AML1 + hyperdiploidy 1       Rajout  d’attributs       Afin  d’améliorer  la  lisibilité  des  analyses  futures,  on  rajoute  deux  attributs  :   sample.colors  et  sample.labels     ##  sample.colors  :  définition  de  couleurs  spécifiques  selon  le  type  de  cancers           group.colors  <-­‐  c(          'BCR-­‐ABL  +  hyperdiploidy'='cyan',          'BCR-­‐ABL'='black',          'E2A-­‐rearranged  (E)'='darkgray',          'E2A-­‐rearranged  (E-­‐sub)'='green',          'E2A-­‐rearranged  (EP)'='orange',          'MLL'='#444400',          'T-­‐ALL'='violet',          'TEL-­‐AML1  +  hyperdiploidy'='#000066',          'TEL-­‐AML1'='darkgreen',          'hyperdiploid'='red',          'pre-­‐B  ALL'='blue'   )     sample.colors  <-­‐  group.colors[as.vector(pheno$Sample.title)]   names(sample.colors)  <-­‐  names(expr.matrix)     table(sample.colors)    . sample.colors      #000066      #444400          black            blue            cyan    darkgray  darkgreen          green        orange              red        violet                    1                      4                  4                44                  1                  1                                43                                          4                  8                                44                36  .  .

(3) ##  sample.labels  :  Définition  d’un  nom  abrégé  pour  chaque  sous-­‐type  de  cancer           group.abbrev  <-­‐  c('BCR-­‐ABL  +  hyperdiploidy'='Bch',                     'BCR-­‐ABL'='Bc',                     'E2A-­‐rearranged  (E)'='BE',                    'E2A-­‐rearranged  (E-­‐sub)'='BEs',            'E2A-­‐rearranged  (EP)'='BEp',                    'MLL'='BM',                    'T-­‐ALL'='T',                          'TEL-­‐AML1  +  hyperdiploidy'='Bth',                'TEL-­‐AML1'='Bt',                      'hyperdiploid'='Bh',                      'pre-­‐B  ALL'='Bo'                                        )       sample.subtypes  <-­‐  as.vector(pheno$Sample.title)     sample.labels  <-­‐  group.abbrev[sample.subtypes]     names(sample.labels)  <-­‐  names(expr.matrix)     table(sample.labels)     sample.labels    Bc  Bch    BE  BEp  BEs    Bh    BM    Bo    Bt  Bth      T        4      1              1      8                4          44      4          44    43      1    36         Choix  d’une  méthodologie  pour  les  analyses     Deux  possibilités  se  présentent  pour  les  ACP  et  classifications  :     • travailler  sur  le  fichier  des  gènes  en  ligne.  On  s’intéresse  alors  à   caractériser  les  gènes  du  point  de  vue  de  leur  expression  dans  les   échantillons.    On  utilisera  en  entrée  des  analyses  le  fichier  «  expr.matrix  ».     • Si  l’on  veut  caractériser  les  échantillons  du  point  de  vue  de  l’expression   relative  des  différents  gènes,  ce  qui  paraît  plus  naturel,  on  sera  par  contre   amenés  à  travailler  sur  le  fichier  transposé    (échantillons=individus):     exp=t(expr.matrix)   dim(exp)   [1]      190  22283     Dans  «  exp  »,  les  individus  sont  les  échantillons  et  les  variables  sont  les  gènes.  Le   nombre  de  variables  (gènes)  excède  donc  le  nombre  d’individus  (échantillons).   Cette  situation  est  communément  appelée  sur-­‐dimensionnalité  et  pose  des   problèmes  dans  les  analyses.  En  analyse  des  données,    il  sera  difficile  de  lire  les   graphiques  et  d’interpréter  les  axes  (resp.  classes)  de  l’ACP  (resp.  de  la   classification)        .

(4) Analyses  en  composantes  principales  (ACP)    .   Plusieurs  solutions  pour  faire  une  ACP  simple  sous  R     • Fonction  princomp()  du  package  stats  :  Travaille  sur  le  tableau  centré   par  défaut  mais  non  réduit  (pour  faire  une  ACP  normée,  utiliser  l’option   cor=T).  Utilise  la  décomposition  spectrale  de  la  matrice  d’inertie.  Le   nombre  de  colonnes  p  ne  doit  pas  excéder  le  nombre  de  lignes  n       • Fonction  prcomp()  du  package  stats  :  Travaille  sur  le  tableau  centré   par  défaut  mais  non  réduit  (pour  faire  une  ACP  normée,  utiliser  l’option   scale.=T).  Utilise  la  décomposition  en  valeurs  singulières  (SVD)  de  la   matrice  d’inertie.  Marche  quels  que  soient  n  et  p     • Fonction  PCA()  du  package  FactoMineR  :  Normée  par  défaut.  Utilise  la   décomposition  en  valeurs  singulières  (SVD)  de  la  matrice  d’inertie.   Marche  quels  que  soient  n  et  p     • Fonction  pca()  du  package  mixOmics  :  Normée  par  défaut.  Utilise  la   décomposition  en  valeurs  singulières  (SVD)  de  la  matrice  d’inertie.   Marche  quels  que  soient  n  et  p       ACP  centrée  sur  le  tableau  complet  avec  échantillons  en  individus         ACP  centrée  ou  normée  ?     acpc=PCA(exp,  scale.unit=F)     plot(acpc,  choix="ind",  col.ind=0,  title="Echantillons  sur  le  plan  principal")   text(acpc$ind$coord[,1],acpc$ind$coord[,2],  label=sample.labels,   col=sample.colors,  cex=0.7)    . 0 -20 -40. GSM338695 GSM338682 T GSM338680 T GSM338691 GSM338684 GSM338806 T GSM338693 T T GSM338694 GSM338718 Bc GSM338721 GSM338720 GSM338687 GSM338715 T GSM338674 GSM338837 T GSM338671 GSM338766 Bt GSM338782 GSM338708 Bt GSM338835 T Bt Bt GSM338803 GSM338850 Bo GSM338844 T GSM338673 Bh GSM338777 GSM338791 GSM338855 Bh Bt GSM338688 T Bo GSM338707 Bc GSM338679 GSM338796 Bo GSM338851 Bo T GSM338676 GSM338785 BEp GSM338808 GSM338683 Bo GSM338724 GSM338685 T GSM338727 GSM338686 GSM338790 GSM338699 GSM338701 GSM338834 BtBh GSM338775 T BEp Bo GSM338832 GSM338771 GSM338759 T Bh GSM338786 GSM338730 BM T GSM338848 GSM338839 Bt T T BE GSM338675 GSM338677 T T GSM338681 Bo Bh Bt GSM338729 GSM338831 GSM338733 Bo GSM338852 GSM338692 Bh GSM338845 GSM338781 Bh GSM338735 GSM338810 Bh GSM338798 GSM338762 Bt GSM338696 GSM338776 Bo Bo GSM338722 GSM338753 GSM338719 TT T GSM338792 GSM338758 GSM338773 Bo Bt GSM338780 GSM338789 Bo GSM338666 T GSM338672 Bo BEp Bh Bt Bt GSM338811 BMGSM338842 GSM338778 GSM338846 GSM338742 Bh GSM338815 GSM338783 GSM338740 T GSM338747 GSM338698 GSM338774 Bh Bt GSM338841 Bh GSM338827 GSM338843 GSM338788 GSM338817 Bt BEp GSM338697 GSM338726 GSM338754 GSM338833 Bh GSM338767 Bh BhBh T GSM338805 GSM338748 BM Bh Bo Bt GSM338690 GSM338756 GSM338717 Bo Bh BtBh T T GSM338689 Bh GSM338755 GSM338764 Bo GSM338709 GSM338830 Bo Bo Bh GSM338710 BoGSM338734 Bo GSM338731 GSM338801 GSM338793 GSM338779 T GSM338763 Bt Bh Bo GSM338761 GSM338716 GSM338736 Bc Bh T Bh Bt Bt GSM338838 T BhBh Bh GSM338732 Bt GSM338700 Bo GSM338784 Bt GSM338667 Bt BEsBEp GSM338854 Bh GSM338712 Bh GSM338836 GSM338829 Bh Bt Bt GSM338750 GSM338668 GSM338826 GSM338741 BtBo Bh GSM338678 GSM338814 T T Bo GSM338802 GSM338705 Bt Bo Bo GSM338800 GSM338770 GSM338743 GSM338711 GSM338797 Bh GSM338795 T GSM338849 Bo Bt Bo GSM338669 T GSM338670 GSM338738 BEs GSM338768 BEs GSM338744 Bh BtBt BEp Bt BEp GSM338760 GSM338809 GSM338772 Bo T T Bt Bt GSM338794 GSM338723 Bh GSM338702 GSM338804 GSM338799 GSM338853 Bh GSM338765 BM Bh GSM338816 GSM338714 BEp GSM338840 BtBt Bc GSM338713 BEs Bo Bh GSM338769 Bo Bt GSM338703 GSM338819 GSM338728 Bt GSM338787 Bo GSM338824 GSM338706 Bt Bo GSM338757 BtBh GSM338823 GSM338725 Bh GSM338818 Bo GSM338847 Bt Bh GSM338739 Bo Bo Bo Bt GSM338820 Bt GSM338749 GSM338813 Bo GSM338825 Bh GSM338807 GSM338704 Bo GSM338745 GSM338737 Bo GSM338812 Bt GSM338822 Bth GSM338751 Bch Bt Bo. GSM338821. Bo. Bh. GSM338752 Bh. Bo. GSM338746 GSM338828 Bh Bo. -60. Dim 2 (7.41%). 20. 40. Echantillons sur le plan principal. -80. -60. -40. -20 Dim 1 (17.23%). 0. 20. 40.  .

(5) acpn=PCA(exp)   plot(acpn,  choix="ind",  col.ind=0,  title="Echantillons  sur  le  plan  principal")   text(acpn$ind$coord[,1],acpn$ind$coord[,2],  label=sample.labels,   col=sample.colors,  cex=0.7)    . 0. GSM338669 GSM338678 T T GSM338667 GSM338690 GSM338809 T GSM338676 T GSM338677 BM T T GSM338696 GSM338672 GSM338700 GSM338668 GSM338670 GSM338749 GSM338666 T T T T T Bh GSM338703 GSM338686 T GSM338699 GSM338787 GSM338675 GSM338739 GSM338697 GSM338698 Bt GSM338823 TT T Bh Bt GSM338759 T GSM338684Bo T GSM338797 GSM338829 GSM338811 GSM338681 Bh GSM338734 GSM338685 GSM338849 GSM338812 GSM338821 GSM338689 GSM338692 T BEp BM GSM338679 GSM338673 GSM338807 GSM338799 GSM338695 GSM338820 Bo T GSM338793 GSM338723 Bt GSM338671 TGSM338694 BoGSM338846 Bo Bo T T GSM338765 T T Bch GSM338822 GSM338794 BEs GSM338745 T Bo GSM338850 GSM338683 GSM338768 GSM338830 BEp T GSM338674 GSM338802 GSM338831 GSM338725 Bt GSM338791 T GSM338854 BEp Bo Bo GSM338853 GSM338706 GSM338757 Bth Bh BhGSM338763 GSM338782 BoBoBEp T GSM338727 GSM338855 GSM338816 BEs GSM338713 GSM338795 GSM338710 Bo Bt GSM338818 Bo GSM338825 GSM338704 GSM338833 T GSM338801 GSM338841 GSM338751 GSM338784 Bo GSM338817 Bt GSM338741 Bh GSM338819 Bh GSM338851 GSM338814 GSM338691 Bh GSM338711 Bt BEp Bo GSM338687 Bo Bt Bo BEs GSM338772 GSM338840 Bo Bt BtBo GSM338760 Bo Bh Bo Bh Bt Bt GSM338828 GSM338728 GSM338693 GSM338758 GSM338701 Bo Bo GSM338789 Bo T GSM338824 GSM338738 GSM338835 T GSM338804 GSM338844 Bh Bo GSM338688 GSM338836 GSM338715 GSM338848 Bh GSM338733 BoGSM338790 Bo GSM338743 Bt GSM338800 T Bc GSM338769 Bh T Bh Bt Bo GSM338792 GSM338752 GSM338834 GSM338813 GSM338780 GSM338709 GSM338798 GSM338731 Bo GSM338722 GSM338718 GSM338839 T GSM338746 GSM338744 GSM338826 Bo GSM338796 GSM338778 GSM338714 Bt Bo GSM338705 Bt GSM338756 Bt BE GSM338808 BEp GSM338724 Bh BEs GSM338810 BEp GSM338815 Bo Bh GSM338732 Bt Bt GSM338852 Bh Bt Bo GSM338737 GSM338837 Bt GSM338748 GSM338764 Bo GSM338770 BEp GSM338702 Bt Bo Bh Bt GSM338838 GSM338762 GSM338805 Bt Bh BM Bh GSM338680 Bt GSM338847 BoGSM338832 GSM338761 BM Bt Bo Bt Bo Bh Bh Bt GSM338843 T GSM338827 Bo Bc Bh GSM338707 GSM338845 GSM338747 GSM338717 Bo GSM338774 Bh GSM338803 GSM338766 GSM338712 GSM338735 Bo GSM338783 Bo GSM338781 GSM338742 GSM338720 GSM338682 Bt BoGSM338806 Bo Bt Bh GSM338786 Bh GSM338740 Bc GSM338842 Bh GSM338729 Bh Bt GSM338776 Bt Bc Bh Bt Bt GSM338750 T Bh GSM338719 GSM338779 BoBtGSM338775 GSM338767 Bt Bh GSM338754 GSM338730 Bh GSM338716 Bh Bh Bh Bt Bh GSM338771 Bt Bt GSM338777 GSM338721 Bh GSM338755 GSM338726 GSM338788 BhBt GSM338753 GSM338708 GSM338773 BtBh GSM338785 Bh Bh Bt Bh Bh. GSM338736. -100. -50. Dim 2 (6.60%). 50. 100. Echantillons sur le plan principal. Bt. -150. -100. -50. 0. 50. 100. Dim 1 (8.37%).       Il  apparait  que  l’ACP  centrée  discrimine  mieux  les  groupes  d’échantillons  que   l’ACP  normée.  On  ne  normalisera  donc  pas  le  tableau.       ACP  centrée  du  tableau  complet     #  ex  avec  PCA()     acpc=PCA(exp,  scale.unit=F,  graph=F)       #  ex  :  avec  prcomp()     acp3=prcomp(exp)     Nombre  d’axes  à  retenir  :     summary(acp3)     Importance of components: PC1 PC2 PC3 PC4 PC5 Standard deviation 25.9421 17.01316 14.9879 13.96746 11.26573 Proportion of Variance 0.1722 0.07408 0.0575 0.04993 0.03248 Cumulative Proportion 0.1722 0.24634 0.3038 0.35377 0.38625.  .

(6) PC6 PC7 PC8 PC9 PC10 PC11 Standard deviation 10.63727 9.88588 9.77239 8.93533 7.85222 7.61829 Proportion of Variance 0.02896 0.02501 0.02444 0.02044 0.01578 0.01485 Cumulative Proportion 0.41521 0.44023 0.46467 0.48511 0.50089 0.51574.   Le  %  d’inertie  expliqué  par  chaque  axe  est  ici  extrêmement  faible.     Par  le  critère  de  Kaiser,  on  garde  les  axes  dont  l  inertie  est  supérieures  à  l’inertie   moyenne  I/p.   Ici,      I=sum(acp3$sdev^2)   [1]  3906.986   Im=I/dim(exp)[2]   [1]  0.1753348     D’après  ce  critère,  on  ne  garderait  qu’un  seul  axe.     plot(acp3)  . 400 300 0. 100. 200. Variances. 500. 600. acp3. Autre  fonction  lorsque  le  nombre  de  variables  est  très  important  :     library(mixOmics)   tune.pca(exp)    .

(7) 0.15 0.10 0.05 0.00. Proportion of Explained Variance. 1. 11. 23. 35. 47. 59. 71. 83. 95. 109. 124. Principal Components. 139. 154. 169. 184.       Il  semblerait  d’après  le  graphe  ci-­‐dessus,  qui  trace  toute  l’éboulis  qu’un    coude  se   produise  vers  le  4°  axe  et  vers  le  11°  axe.     En  réalité,  compte  tenu  du  nombre  important  de  variable,  l’information  du   tableau  n’est  pas  structurée  :  A  l’exception  du  premier,  les  axes  véhiculent  tous   peu  d’information  et  l’information  est  répartie  sur  l’ensemble  des  axes.     On  peut  choisir  2  axes,  ne  véhiculant  que  17%  de  l’information  totale.  On  aurait   pu  aussi  en  choisir  4  mais  cela  ne  permet  d’obtenir  que  35%,  ce  qui  n’améliore   pas  beaucoup.    11  axes  donneraient  51%,  mais  impossible  à  visualiser.     On  étudiera  tout  de  même  les  4  axes  pour  voir  ce  que  l’on  peut  en  tirer.     Interprétation  des  axes  :     Compte  tenu  du  grand  nombre  de  variables,  il  est  impraticable  ici  d’utiliser  les   contributions  des  variables  pour  donner  un  sens  aux  axes.     Etant  donné  que  les  poids  sont  égaux,  les  individus  (échantillons)  qui   contribuent  le  plus  à  la  formation  d’un  axe  sont  aussi  ceux  qui  ont  les  plus   grandes  coordonnées  en  valeur  absolue.  Il  n’est  donc  pas  utile  de  faire  une   analyse  minutieuse  des  contributions  dès  lors  que  les  types  d’échantillons  se   séparent  bien  sur  les  axes,  on  peut  simplement  se  borner  à  regarder  les  couleurs   qui  s’opposent  sur  le  graphique.       Axe  1  :  Compte  tenu  des  graphiques  ci  dessous,  on  observe  une  discrimination   très  nette  sur  le  premier  axe  des  échantillons  de  type  ALL_T.  L’axe  1  met  en   évidence  une  nette  différence  entre  les  échantillons  de  type  T-­‐all  et  les  autres  du   point  de  vue  de  la  sur-­‐expression  de  certains  gènes  et  de  la  sous-­‐expression   relative  des  autres  sur  ces  tissus.     Axe  2  :  Il  n’y  a  pas  de  discrimination  aussi  nette  sur  l’axe  2.    .

(8) Axe  3  :    L’axe  3  semble  mettre  en  évidence  deux  sous  groupe  de  gènes,    qui  ne   serait  pas  discriminant  sur  les  types  T-­‐all  mais  seraient  différentiellement     exprimés  sur  certains  autres  types.  Notamment,  abstraction  faite  des  types  T-­‐all,   on  voit  que  les  types  bh  (rouge)  s’opposent  aux  autres  types  (en  particulier  bt  et   moins  nettement  bo)  selon  ces  sous  groupes  de  gènes.       Axe4  :  On  voit  une  autre  opposition  de  tissus  sur  l’axe  4,  isolant  les  échantillons   bt  (verts)  des  autres.       Graphiques  des  individus  (les  graphiques  des  variables  sont  illisibles  ici)  :       • Graphique  sur  le  premier  plan  principal  (PC1  et  PC2)       plot(acp3$x[,1:2],  col=sample.colors,  type='n',  panel.first=c(grid(col='black'),   abline(a=30,b=1.3,  lwd=3,  lty="dashed",  col="red")),  main=paste('PCA;  Den  Boer   (2009);  ',  nrow(exp),  'samples  *',  ncol(exp),  'genes',  sep='  '),    xlab='PC1',   ylab='PC2')    text(acp3$x[,1:2],labels=sample.labels,col=sample.colors,cex=0.7)   legend('topleft',col=group.colors,     legend=names(group.colors),pch=1,cex=0.4,bg='white',bty='o')    . 20. PCA; Den Boer (2009); 190 samples * 22283 genes BCR-ABL + hyperdiploidy BCR-ABL E2A-rearranged (E) E2A-rearranged (E-sub) E2A-rearranged (EP) MLL T-ALL TEL-AML1 + hyperdiploidy TEL-AML1 hyperdiploid pre-B ALL. T TT T. T. TT T. 0. T. TT. PC2. T. T. T. T. T T T. T T. T. T T T. -40. -20. T. Bc Bt. T T. T T T TT T. T. T. Bt Bt Bt Bh Bt Bo BEpBo Bh Bt BEp Bo Bh BM BE BtBo BtBhBh Bo Bh Bo Bo Bt Bh Bt Bo BM Bt Bo BEp Bo Bh Bt Bh BtBh Bh Bt BEp Bh BhBh BM Bh Bh Bo Bt Bh Bo Bh Bo Bo Bo Bh Bh Bo Bo BtBt Bh Bo Bh Bh Bh Bt Bt Bc Bh Bh Bt Bo Bt Bt BEs BEp Bh Bh Bh Bt Bt Bt Bo Bh Bt Bo BoBo Bh Bo Bt Bo BEs BEs BEp Bh Bt Bt Bt BEp Bo Bt Bh Bh BM Bh Bt BEp BtBt Bc BEs Bo Bh BtBt Bo Bo Bh Bo Bt Bt Bh Bo Bo BtBt Bh Bo Bo Bt Bo Bh Bo Bo Bt Bth Bch Bt Bo Bo Bh Bo Bh Bo Bc Bo. T. Bh. Bo. Bo. -60. -40. -20 PC1.    . •. Graphique  sur  le  le  plan  (1,3)  (PC1  et  PC3)  . Bh. 0. 20.  .

(9) plot(acp3$x[,c(1,3)],  col=sample.colors,  type='n',    main=paste('PCA;  Den  Boer   (2009);  ',  nrow(exp),  'samples  *',  ncol(exp),  'genes',  sep='  '),    xlab='PC1',   ylab='PC3')   text(acp3$x[,c(1,3)],labels=sample.labels,col=sample.colors,cex=0.7)     PCA; Den Boer (2009); 190 samples * 22283 genes Bt. 20. Bo Bt. T T T. PC3. 0. T T. T. T. T. T TTTT. TT. T T T T. T T. T. T. T. Bh. -60. -40. Bt. Bt. Bt. Bo Bt Bt Bo Bt BEp BoBo Bt Bt BM Bo Bt BEs BEp Bth Bo Bo BEp Bt Bt Bt Bt Bt BEp Bo Bo Bt Bo Bo Bt Bt Bt BtBo BEs Bt Bh Bt Bo Bt Bt BEp Bt T Bo Bo Bo BEp Bt BhBt BhBt Bt Bo Bt BoBo Bo Bo BMBo Bt BEp BEp BhBt Bh Bo Bo Bh Bc Bo T Bh Bt Bh Bo Bt BoBM BE Bo Bo Bh BM Bh T Bo BhBo Bt Bh Bt BEs BEs Bh Bh Bc Bc Bo Bo Bt BhBt Bh Bh Bh Bh Bt Bo Bo Bt Bo Bo Bch Bo Bh Bo Bc Bo Bh T Bt Bh Bh Bh Bh Bh Bo Bo T Bh Bh Bh T Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh. -40. -20. T T. T TT. Bo Bt. -20. Bh. 0. 20. PC1.  .    . •. Graphique  sur  le  le  plan  (2,3)  (PC2  et  PC3)  .

(10) PCA; Den Boer (2009); 190 samples * 22283 genes Bt Bt Bt. 20. Bt. Bo. Bo. 0. Bh Bo. PC3. Bt. -20. Bo Bo BchBo Bo. Bh Bh. Bt Bt. Bt. Bt Bt. Bo. Bt. BEpBt BM BEp Bt Bt Bt. Bth Bt Bt Bt Bh. -40. Bo. Bt. Bo. Bo BEs Bo BEp Bt Bo Bo Bo. Bt Bt. Bt. BoBo. Bt. Bo. Bo BEp Bo. T. Bt T Bt Bt Bt BEp T Bo Bh Bt Bh T Bo Bt Bo T Bt Bo T Bo BoBM BEp Bo TBEp Bt Bh Bt Bo Bo Bh Bc BoT Bh TBt T T TBh T T TT Bh Bo Bo Bh BMT BE Bo BM T Bo Bh T Bo T Bt Bh T Bt BEs BEs Bh Bc Bh Bo Bc Bo Bh T Bt Bt Bh T T BhBt T Bh Bh Bt T T Bc Bo Bh Bo Bo Bh Bo T Bt Bh T Bh T Bh Bh T Bh Bo T Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh Bh BEs Bo BEp. T. Bt. Bo. T Bt. T. T. Bh. Bh. Bh. -40. -20. 0. 20. PC2.  .    . •. Graphique  sur  le  le  plan  (2,3)  (PC3  et  PC4)  . 40. PCA; Den Boer (2009); 190 samples * 22283 genes Bh BM. 20 0 PC4. Bh BM Bh Bo BoBo Bh Bh Bh Bh BEs Bh Bo Bo Bh Bo T BhBo Bch Bo Bh Bh Bh T Bo Bo Bh T Bh Bo Bo BEp Bh Bh Bh Bo Bo BEp Bo T Bh Bh Bh Bo T Bh Bo Bo Bc Bh BtBo TBh Bh Bh T Bh Bh T Bo Bh Bo Bh BM Bo BEp BoT Bo TT Bo Bo Bh T T Bc T Bh Bo Bo T T T Bt BhBh Bh Bc Bo BE BoBEp Bo BEp Bo BEp Bt Bo Bo T Bo T Bh BEp Bh BEp Bt T BEs Bt Bt T Bth T BEsT BEs Bo T BoBo T Bh Bt T BM T Bt BoBt Bt BtBo Bc BhBh Bt Bt T Bo TT Bt T Bh Bt Bt Bt T Bt Bt Bo Bt Bt Bt Bt Bt Bt Bt Bt BoT TBt T Bt Bt Bt Bt Bt Bt Bt Bt Bt Bt Bt Bt Bt Bt Bh. Bh. -40. -20. Bh. Bt. -40. -20. 0. 20. PC3.  .

(11) L’analyse  est  forcément  limitée  par  le  fait  qu’on  ne  peut  pas  identifier  les  gènes   responsables  des  oppositions  entre  échantillons  constatées.  Nous  proposons   dans  la  suite  un  certain  nombre  de  méthodes  permettant  de  sélectionner  des   gènes  pertinents.       ACP  sur  un  sous-­‐ensemble  de  gènes     ACP  sur  les  gènes  à  plus  forte  variabilité  d’expression  (cas  traité  en  TD)       Sous  sélection  d’un  ensemble  top.nb  de  gènes  en  fonction  de  la  variabilité  de     leur  expression  sur  les  échantillons  :     select_gene=function(top.nb)   {   var.per.gene  <-­‐  apply(expr.matrix,  1,  var)   genes.by.decr.var  <-­‐  sort(var.per.gene,decreasing=TRUE)   genes.selected.by.var  <-­‐  names(genes.by.decr.var[1:top.nb])     exp.m.red=expr.matrix[which(rownames(expr.matrix)  %in%   genes.selected.by.var),]   t(exp.m.red)   }       ACP  centrée  avec  les  échantillons  en  individus  sur  les  10  gènes  de  plus  grande   variabilité  :     top.nb  <-­‐  10     s_expr=select_gene(top.nb)   dim(s_expr)   [1]  190    10         acp1=PCA(s_expr,  graph=F,  scale.unit=F)       Nombre  d’axes  à  retenir     acp1$eig   comp comp comp comp comp comp comp comp comp comp.  . eigenvalue percentage of variance cumulative percentage of variance 1 35.67139279 67.37154466 67.37154 2 5.33930793 10.08419898 77.45574 3 4.75803104 8.98635785 86.44210 4 2.93128016 5.53622543 91.97833 5 1.60787741 3.03675233 95.01508 6 1.31784059 2.48896802 97.50405 7 0.92831333 1.75327897 99.25733 8 0.23636093 0.44640816 99.70373 9 0.13420098 0.25346157 99.95720 10 0.02266356 0.04280402 100.00000.

(12) 0. 5. 10. 15. 20. 25. 30. 35. Selon  le  critère  de  Kaiser,  on  garde  les  axes  dont  l’inertie  est  supérieurs  à   l’inertie  moyenne=I/p  (ici  I  est  différent  de  p  car  l’ACP  n’est  pas  normée)   Ici,   I=sum(acp1$eig[,1])   [1]  52.94727     On  garde  donc  les  axes  correspondant  à  des  valeurs  propres  à  peu  près  >  5.29.   On  peut  donc  garder  deux  axes  (le  deuxième    ne  coute  pas  cher  et  représente  par   ailleurs  10%  de  l’information  totales,  ce  qui  n’est  pas  négligeable).  On  retient   donc  77%  de  l’information.    Notons  que  l’inertie  portée  par  le  3°  axe,  4.75%  est   proche  de  l’inertie  moyenne.  Il  ne  serait  donc  pas  idiot  de  le  retenir  aussi.       L’éboulis  des  valeurs  propres  ne  montre    pas  de  coupure  (coude)  très  nette.  On   pourrait  aussi  bien  conserver  1  (donc  2),  3  ou  4  axes.  Prendre  3  axes  permet  de   conserver  9%  d’inertie  supplémentaire,  ce  qui  n’est  pas  négligeable,  ramenant  à   86%  l’information  retenue.    On  choisit  de  retenir  3  axes.       barplot(acp1$eig[,1])          . Graphiques  :     • Premier  plan  principal     plot(acp1,  choix="ind",  col.ind=0,  title=paste('PCA;  Den  Boer  (2009);  ',   nrow(s_expr),  'samples  *',  ncol(s_expr),  'genes',  sep='  '))   text(acp1$ind$coord[,1],acp1$ind$coord[,2],  label=sample.labels,   col=sample.colors,  cex=0.7)  .  .

(13) legend('topleft',col=group.colors,     legend=names(group.colors),pch=1,cex=0.4,bg='white',bty='o')    . BCR-ABL + hyperdiploidy BCR-ABL E2A-rearranged (E) E2A-rearranged (E-sub) E2A-rearranged (EP) MLL T-ALL TEL-AML1 + hyperdiploidy TEL-AML1 hyperdiploid pre-B ALL. GSM338703 GSM338812 GSM338704 Bt GSM338821 GSM338819 GSM338749 Bo GSM338814 Bt GSM338815 GSM338752 Bo Bh Bo GSM338817 Bo GSM338820 Bo GSM338823 GSM338748 GSM338757 Bh GSM338816 GSM338756 GSM338745 GSM338818 Bo Bo GSM338750 GSM338775 Bo Bh Bh Bo GSM338828 Bh Bth Bo Bh GSM338795 GSM338813 Bh GSM338849 Bo BEp Bo Bo. 0. Dim 2 (10.08%). 5. 10. PCA; Den Boer (2009); 190 samples * 10 genes. GSM338680 GSM338687 GSM338667 GSM338696 TGSM338699 GSM338678 GSM338688 T T GSM338681 T GSM338691 GSM338666 GSM338685 T TT T GSM338686 GSM338673 T T GSM338675 TGSM338700 T T GSM338682 GSM338669 T T T T GSM338684 GSM338693 GSM338689 GSM338668 GSM338683 T GSM338692 T TT GSM338677 T T GSM338690 GSM338698 GSM338674 GSM338671 T GSM338679 GSM338694 T GSM338670 GSM338701 GSM338672 T TT T GSM338676 GSM338695 T T T T GSM338697 TT. GSM338709 GSM338846 Bt GSM338792 GSM338803 GSM338719 GSM338839 GSM338804 GSM338826 GSM338844 Bo BEp GSM338855 BcBt GSM338854 GSM338835 GSM338793 Bo GSM338720 Bc GSM338797 GSM338829 Bo Bo GSM338765 GSM338805 Bo GSM338801 GSM338706 GSM338771 GSM338822 Bo Bo BEp GSM338744 GSM338730 GSM338833 Bt GSM338790 GSM338767 BEp GSM338714 GSM338827 GSM338725 GSM338746 Bo GSM338705 Bh GSM338743 Bc GSM338851 GSM338836 BEs Bt GSM338718 BhGSM338737 GSM338796 Bo GSM338729 GSM338794 GSM338762 GSM338841 GSM338837 GSM338848 GSM338800 GSM338723 GSM338853 GSM338840 BtBt Bo Bt GSM338791 BE Bh Bt GSM338799 Bo GSM338788 GSM338711 Bt GSM338736 GSM338717 Bh GSM338732 GSM338843 GSM338721 GSM338842 GSM338702 Bt GSM338807 GSM338783 GSM338755 GSM338713 GSM338728 Bo GSM338738 GSM338789 GSM338769 GSM338734 GSM338845 Bo GSM338724 G SM338808 GSM338809 GSM338773 GSM338834 GSM338798 BEp GSM338742 Bt GSM338776 BEp GSM338710 BtBo GSM338740 GSM338830 GSM338727 GSM338785 Bo BhBo Bt GSM338824 Bo GSM338761 BEs GSM338722 Bt BEp GSM338838 GSM338741 Bo GSM338778 GSM338770 GSM338708 GSM338787 GSM338802 GSM338760 BEs GSM338758 GSM338825 Bh GSM338707 Bt GSM338847 BtGSM338715 Bt Bt GSM338832 Bt BM BoBo Bt GSM338782 GSM338712 Bch GSM338733 Bh Bh BtBo BEp Bt GSM338751 Bh Bo Bt Bh Bt BM Bo Bh GSM338739 GSM338810 GSM338772 Bt GSM338763 GSM338726 Bh GSM338786 Bt GSM338766 Bt GSM338735 Bh GSM338716 Bo Bh Bt Bo Bt Bh Bh Bt BEs Bh Bh Bo GSM338747 Bo Bt GSM338754 Bo GSM338768 GSM338831 Bt Bh Bt GSM338780 Bh GSM338806 GSM338753 GSM338764 Bt BM Bh GSM338784 Bh Bt Bh GSM338781 Bh GSM338777 GSM338779 Bt Bt GSM338774 GSM338731 GSM338811 BhBoGSM338852 Bh GSM338759 Bh Bh Bc Bh Bh Bh Bh Bh Bh Bo Bt Bh GSM338850 BM Bo. -5. T. -5. 0. 5. 10. 15. Dim 1 (67.37%).   plot(acp1,  choix="var",    title="Gènes  sur  le  plan  principal",  col.var=2,  cex=0.7)  .  . 3. Gènes sur le plan principal. 1. Dim 2 (10.08%). 2. S100A8|202917_s_at. NA|216379_x_at. KLF4|221841_s_at IL23A|211796_s_at IL23A|210915_x_at ITM2A|202746_at CD3D|213539_at. CD9|201005_at. -1. 0. HLA-DRA|208894_at HLA-DRA|210982_s_at. -2. -1. 0 Dim 1 (67.37%).  . 1. 2. 3.  .

(14) • Plan  (1,3)      plot(acp1,  choix="ind",  axes=c(1,3),col.ind=0,  title=paste('PCA;  Den  Boer   (2009);  ',  nrow(s_expr),  'samples  *',  ncol(s_expr),  'genes',  sep='  '))    text(acp1$ind$coord[,1],acp1$ind$coord[,3],  label=sample.labels,   col=sample.colors,  cex=0.7)   legend('topleft',col=group.colors,     legend=names(group.colors),pch=1,cex=0.4,bg='white',bty='o')      . 0. BCR-ABL + hyperdiploidy BCR-ABL E2A-rearranged (E) E2A-rearranged (E-sub) E2A-rearranged (EP) MLL T-ALL TEL-AML1 + hyperdiploidy TEL-AML1 hyperdiploid pre-B ALL. GSM338729 GSM338720 GSM338744 Bt GSM338718 GSM338836 Bt Bt GSM338837 GSM338713 GSM338707 GSM338742 GSM338724 Bt GSM338741 GSM338719 GSM338717 Bo GSM338705 GSM338734 GSM338723 Bo GSM338710 Bt Bt Bt Bt Bt Bt Bt GSM338736 GSM338855 GSM338711 GSM338854 BtBt BtBt GSM338841 GSM338725 GSM338743 GSM338726 GSM338704 Bt GSM338735 Bo Bt Bo GSM338808 GSM338702 GSM338708 GSM338722 Bt Bo Bt GSM338829 Bt Bt GSM338709 Bt GSM338721 GSM338745 GSM338827 BM Bt Bt Bt GSM338728 GSM338737 GSM338835 GSM338848 GSM338839 Bo GSM338821 BtBt GSM338810 GSM338851 GSM338809 Bth GSM338712 Bo Bt Bt GSM338749 GSM338738 GSM338733 Bo Bo GSM338714 GSM338801 GSM338706 BM GSM338818 Bo BM Bh Bo GSM338794 GSM338795 Bt Bt GSM338727 GSM338849 GSM338797 GSM338793 Bt GSM338828 GSM338769 Bt GSM338833 GSM338799 GSM338813 GSM338775 GSM338792 BEs Bt GSM338826 BEp BEp GSM338791 GSM338778 GSM338703 GSM338842 GSM338788 GSM338740 GSM338847 GSM338798 GSM338739 GSM338730 GSM338807 GSM338790 Bt GSM338732 GSM338843 BEp BEp GSM338832 GSM338802 GSM338844 Bo Bo Bo GSM338771 Bh BEp Bo BEs Bo Bh GSM338804 GSM338772 GSM338796 Bo GSM338811 BEp GSM338812 Bh GSM338787 Bo BEp Bh BtBE BtBt Bo GSM338840 Bt GSM338761 Bch GSM338762 Bt GSM338715 BoBo GSM338805 Bo BEs GSM338846 GSM338819 GSM338753 GSM338845 GSM338800 GSM338831 GSM338751 Bh GSM338834 GSM338822 GSM338765 GSM338776 GSM338758 Bc GSM338824 GSM338785 BEp Bh GSM338755 GSM338783 GSM338766 BM Bo Bh GSM338803 Bo GSM338760 Bh Bh GSM338757 Bt GSM338731 GSM338853 Bo Bo BhGSM338716 Bo BEs GSM338782 Bo BhBh BoBc Bo Bh Bh Bh GSM338773 GSM338806 Bo Bh GSM338763 GSM338789 Bh GSM338786 GSM338820 Bc Bh Bh Bh Bt GSM338780 Bo BtGSM338823 GSM338825 GSM338774 GSM338830 GSM338746 Bh Bc Bh Bh Bo Bh Bo Bh BoGSM338781 GSM338838 GSM338764 GSM338754 GSM338850 GSM338815 Bh GSM338759 Bo Bh GSM338817 GSM338747 GSM338814 GSM338784 GSM338750 GSM338768 Bo Bh Bh GSM338852 Bh Bo Bo Bo Bh Bh GSM338756 GSM338770 Bh Bo GSM338767 Bh Bh GSM338752 GSM338816 Bo GSM338779 Bh GSM338777 Bh Bh Bh Bo Bh GSM338748 Bh. GSM338688 GSM338687 T T GSM338674 GSM338682 GSM338675 GSM338699 TGSM338685 GSM338680 GSM338673 TGSM338671 T GSM338676 GSM338691 GSM338700 T GSM338684 T GSM338696 GSM338668 GSM338695 GSM338681 T GSM338686 T GSM338694 T T GSM338683 GSM338666 T TTT TTGSM338689 GSM338672 T TT T GSM338693 GSM338697 GSM338690 T GSM338669 T GSM338698 T GSM338667 GSM338701 GSM338692 GSM338677 TT T GSM338678 T T T T T T T GSM338670 T. GSM338679 T. Bh. -10. -5. Dim 3 (8.99%). 5. 10. PCA; Den Boer (2009); 190 samples * 10 genes. -5. 0. 5 Dim 1 (67.37%). 10. 15.     plot(acp1,  choix="var",    axes=c(1,3),  title="Gènes  sur  le  plan  principal",  col.var=2,   cex=0.7)    .

(15) 2. Gènes sur le plan principal. 1. KLF4|221841_s_at. 0. IL23A|211796_s_at CD3D|213539_at IL23A|210915_x_at S100A8|202917_s_at. -1. Dim 3 (8.99%). ITM2A|202746_at HLA-DRA|210982_s_at HLA-DRA|208894_at NA|216379_x_at. -2. CD9|201005_at. -2. -1. 0. 1. 2. 3. Dim 1 (67.37%).  . •.  .   Plan  (2,3)  . 0 -4. -2. Dim 3 (8.99%). 2. 4. 6. PCA; Den Boer (2009); 190 samples * 10 genes BCR-ABL + hyperdiploidy BCR-ABL E2A-rearranged (E) E2A-rearranged (E-sub) E2A-rearranged (EP) MLL T-ALL TEL-AML1 + hyperdiploidy TEL-AML1 hyperdiploid pre-B ALL. GSM338729 GSM338720 GSM338744 Bt Bt GSM338718 Bt GSM338836 Bt GSM338837 GSM338713 GSM338707 GSM338742 Bo GSM338724 GSM338741 GSM338719 GSM338717 Bt Bo Bt GSM338705 Bt GSM338734 GSM338723 BtBt Bt GSM338710 Bt Bt Bt Bt Bt GSM338736 GSM338855 GSM338711 GSM338854 Bt GSM338841 GSM338725 Bo Bt Bo GSM338688 GSM338743 GSM338726 GSM338704 GSM338735 Bo Bt GSM338808 GSM338702 GSM338708 GSM338687 T GSM338722 Bt Bt Bt Bt GSM338829 Bt Bt T GSM338709 BtBM GSM338745 GSM338827 Bo GSM338728 GSM338737 GSM338721 GSM338835 Bt GSM338674 GSM338848 GSM338839 Bth Bo GSM338821 GSM338682 Bt Bt BtGSM338675 Bo GSM338810 GSM338851 GSM338809 T Bo GSM338712 Bo Bo T T GSM338699 GSM338749 GSM338738 GSM338733 BM GSM338680 BM Bo GSM338673 Bt GSM338714 GSM338685 Bh GSM338801 GSM338706 GSM338671 GSM338676 T Bt GSM338794 Bt GSM338795 T GSM338691 BtBEs GSM338727 T GSM338818 GSM338849 GSM338700 GSM338797 GSM338793 T Bt GSM338684 TGSM338769 GSM338828 GSM338686 T BEp GSM338696 BEp GSM338668 GSM338833 GSM338799 GSM338695 GSM338813 GSM338775 T GSM338792 GSM338681 Bt Bo GSM338694 GSM338826 BEp BEp Bo T GSM338791 GSM338778 GSM338703 T Bo GSM338842 T GSM338683 GSM338788 GSM338740 T GSM338847 GSM338798 GSM338730 GSM338807 Bh GSM338790 T GSM338732 Bo BEs GSM338843 T GSM338739 Bo Bh GSM338832 T GSM338802 GSM338844 GSM338666 T Bo BEp GSM338771 BEp Bh Bt Bo TBch Bh Bt BEp Bo Bt Bt GSM338804 BE GSM338672 Bt GSM338772 Bo GSM338689 Bo GSM338796 BEs Bo T GSM338811 GSM338812 GSM338787 Bh GSM338693 GSM338840 GSM338761 GSM338697 GSM338762 GSM338715 GSM338805 Bc GSM338690 T GSM338846 GSM338819 GSM338753 GSM338669 Bh GSM338845 BEp GSM338800 T GSM338831 GSM338751 BM Bo GSM338834 Bh GSM338822 GSM338765 T GSM338776 Bo GSM338758 Bh T GSM338824 Bh GSM338785 GSM338698 Bt GSM338755 Bc GSM338783 T Bh BoBEs GSM338766 Bo Bo GSM338667 Bh T GSM338803 GSM338701 Bo GSM338692 GSM338677 Bo GSM338760 Bo BhGSM338678 GSM338757 Bh Bh GSM338731 Bo GSM338853 Bh TBh GSM338716 GSM338782 T T Bh TBh BcT T GSM338806 Bh GSM338763 Bt GSM338773 GSM338789 Bo BtBh GSM338823 GSM338786 GSM338820 Bc Bh Bh GSM338780 Bh GSM338825 GSM338670 GSM338774 BoBo Bh GSM338746 GSM338830 Bo TBhBh Bo Bh GSM338838 GSM338781 GSM338764 GSM338754 GSM338850 GSM338815 GSM338759 Bo GSM338817 Bh Bh GSM338747 GSM338814 GSM338784 GSM338750 Bo Bo GSM338768 Bh Bh GSM338852 Bh Bh Bh Bo Bo GSM338756 Bh GSM338767 BoGSM338770 GSM338679 Bh GSM338752 Bh GSM338816 GSM338779 Bh GSM338777 T Bo. Bh Bh. Bh. GSM338748. -6. Bh. -4. -2. 0. 2 Dim 2 (10.08%).  . 4. 6. 8.  .

(16) KLF4|221841_s_at. ITM2A|202746_at. NA|216379_x_at IL23A|210915_x_at IL23A|211796_s_at CD3D|213539_at. S100A8|202917_s_at. -0.5. 0.0. HLA-DRA|208894_at HLA-DRA|210982_s_at. -1.5. -1.0. Dim 3 (8.99%). 0.5. 1.0. 1.5. Gènes sur le plan principal. CD9|201005_at. 0. 1 Dim 2 (10.08%). 2. 3.       Interprétation  des  axes:     On  ce  qui  concerne  les  échantillons,  on  observe  des  groupes  sensiblement   identiques  à  ceux  observés  sur  l’ACP  du  tableau  complet.  En  particulier,  on  peut   distinguer  la  distinction  du  groupe  T-­‐all  sur  l’axe  1  et  l’opposition  des   échantillons  rouges  et  verts  sur  l’axe  2.   En  revanche,  on  peut  ici  caractériser  ces  sous-­‐groupes  par  l’expression  des  10   gènes  retenus.  Pour  cela,  on  regarde  la  contribution  des  variables  sur  chaque  axe   (contribution  moyenne=1/p=0.1=10%):         Axe1  :           cbind(C=acp1$var$coord[,1],CTR=acp1$var$contrib[,1])     C CTR CD9|201005_at ITM2A|202746_at S100A8|202917_s_at HLA-DRA|208894_at IL23A|210915_x_at HLA-DRA|210982_s_at IL23A|211796_s_at CD3D|213539_at NA|216379_x_at KLF4|221841_s_at  .  . -1.623577 1.825577 0.667649 -2.112526 2.089359 -2.039864 2.304737 2.324049 -1.984211 -1.271833. 7.389686 9.342866 1.249615 12.510771 12.237879 11.664941 14.890957 15.141560 11.037114 4.534611.

(17) L’axe  1  met  en  évidence  le  comportement  particulier  des  gènes  dans    les   échantillons  de  type  T-­‐all  :  contrairement  à  ce  qui  se  produit  dans  les  autres   échantillons,  les  gènes  en  vert  (sur  le  tableau  précédents)  y  sont  relativement   sous-­‐exprimés  tandis  que  les  gènes  en  orange  sont  sur  exprimés.     cbind(C=acp1$var$coord[,2],CTR=acp1$var$contrib[,2])     C CTR CD9|201005_at -0.03102927 0.01803259 ITM2A|202746_at 0.10794251 0.21822278 S100A8|202917_s_at 2.18187681 89.16111344 HLA-DRA|208894_at 0.20516294 0.78833870 IL23A|210915_x_at 0.15964521 0.47733890 HLA-DRA|210982_s_at 0.20618072 0.79617976 IL23A|211796_s_at 0.17550974 0.57692251 CD3D|213539_at -0.04958009 0.04603940 NA|216379_x_at 0.42943774 3.45394529 KLF4|221841_s_at 0.48820035 4.46386663.   L’axe  2  montre  une  opposition  de  deux  sous-­‐groupes  d’échantillons  du  point  de   vue  de  l’expression  du  gène  S100A8|202917_s_at.  Cependant,  il  est  difficile  de   caractériser  ces  deux  groupes  avec  leurs  sous-­‐type  (les  couleurs  sont  mélangées   dans  les  deux  groupes).  Donc,  l’axe  est  difficilement  interprétable  avec  les  seules   informations  dont  on  dispose.         En  réalité,  la  contribution  de  ce  gène  S100A8|202917_s_at    monopolise  à  lui  seul   un  axe  et  masque  donc  probablement  d’autres  aspects  de  l’information  contenue   dans  le  tableau.  On  pourrait  l’enlever  et  recommencer  l’analyse.    On  ne  détaillera   pas  ici,  mais  on  peut  montrer  que  dans  ce  cas,  l’information  du  troisième  axe  est   contenue  sur  le  second  et  que  l’on  est  amenés  à  garder  seulement  2  axes  (on  a   donc  les  même  conclusions  pour  les  deux  analyses).     cbind(C=acp1$var$coord[,3],CTR=acp1$var$contrib[,3])   CD9|201005_at ITM2A|202746_at S100A8|202917_s_at HLA-DRA|208894_at IL23A|210915_x_at HLA-DRA|210982_s_at IL23A|211796_s_at CD3D|213539_at NA|216379_x_at KLF4|221841_s_at. C CTR -1.52100002 48.62181538 0.53802092 6.08374583 -0.41525385 3.62409902 0.23472066 1.15791151 -0.04655895 0.04555952 0.23118410 1.12328162 -0.02885203 0.01749546 -0.03281705 0.02263455 0.11802512 0.29276665 1.36240257 39.01069046.   L’axe  3  oppose  essentiellement  les  tissus  verts  et  rouges  du  point  de  vue  de   l’expression  des  gènes  CD9|201005_at  et  KLF4|221841_s_at  .  Le  premier  est   surexprimé  dans  les  échantillons  rouges  (bh)  et  sous-­‐exprimé  dans  les  verts  (bt)   alors  que  c’est  l’inverse  pour  le  second.                .

(18)     ACP  sur  des  gènes  à  forte  contribution  à  l’inertie  des  axes     Une  autre  façon  de  sélectionner  un  sous-­‐ensemble  de  gènes  consiste  à  se  limiter   aux  gènes  les  plus  typiques  du  tableau    du  point  de  vue  de  leurs  expressions  sur   les  échantillons.  Pour  cela,  on  fait  l’ACP  du  tableau  exp.matrix  (gènes  considérés   comme  individus  et  échantillons  considérés  comme  variables),  et  on  sélectionne   les  «  individus  »  contribuant  le  plus  à  la  formation  des  axes  (RQ  :  on  pourrait   aussi  faire  une  classification  de  gènes  et  sélectionner  dans  chaque  classe   quelques  gènes  les  plus  représentatifs  de  la  classe  (parangons)  ).   acp4=PCA(expr.matrix,  scale.unit=FALSE,  graph=FALSE)     plot(acp4,  choix="var",  col.var=0,  title="Echantillons  sur  le  plan  principal")   text(acp4$var$coord[,1],acp4$var$coord[,2],  label=sample.labels,   col=sample.colors,  cex=0.7)      . 0.0. GSM338689 T TGSM338668 T GSM338678 T GSM338669 GSM338667 TT GSM338700 GSM338698 T GSM338670 GSM338686 T T GSM338675 T T GSM338681 GSM338673 TTGSM338685 GSM338699 TT GSM338688 T GSM338690 GSM338701 GSM338696 T T GSM338666 TGSM338697 TGSM338676 GSM338694 T GSM338692 TT TT T GSM338691 GSM338679 GSM338677 GSM338683 TGSM338684 GSM338687 T GSM338693 T GSM338671 T GSM338672 T T GSM338680 GSM338695 T GSM338674 T GSM338749 Bh GSM338682 T GSM338821 Bo GSM338799 BEs BM GSM338809 GSM338807 Bch BEp GSM338828 Bo GSM338794 GSM338822 Bo GSM338800 BEs GSM338801 BEs GSM338804 Bc GSM338820 Bo BEp GSM338797 GSM338739 Bt GSM338811 BM BEp GSM338802 BEs GSM338823 GSM338813 Bo Bo GSM338793 GSM338737 Bt GSM338847 Bo GSM338746 GSM338704 Bh Bt GSM338840 Bo GSM338812 GSM338819 Bo Bo GSM338817 Bo GSM338831 Bo GSM338825 Bo BEp GSM338795 GSM338824 Bo GSM338703 Bt GSM338849 Bo GSM338725 Bt GSM338787 GSM338810 Bh BM GSM338752 Bh BEp GSM338818 GSM338745 Bo Bth GSM338796 GSM338808 BM GSM338706 Bt GSM338714 Bt GSM338751 Bh GSM338732 Bt GSM338784 Bh GSM338843 Bo GSM338790 BE GSM338728 Bt GSM338760 Bh GSM338741 GSM338850 GSM338713 GSM338829 Bt BEp Bo BEp GSM338841 Bo GSM338838 GSM338768 Bo GSM338738 Bh Bt GSM338757 GSM338827 GSM338792 Bo Bh GSM338711 BEp GSM338816 GSM338853 Bo GSM338839 Bo GSM338743 GSM338769 Bt GSM338798 Bh GSM338765 Bh GSM338846 GSM338772 Bo Bh GSM338712 Bt GSM338815 Bo GSM338702 Bt GSM338854 Bo GSM338734 Bt GSM338731 GSM338791 GSM338705 Bt GSM338744 GSM338761 GSM338845 Bt Bo Bh GSM338716 Bt GSM338814 GSM338805 Bo Bc GSM338842 Bo GSM338826 GSM338833 Bo Bo GSM338717 Bt GSM338723 Bt GSM338736 Bt GSM338848 Bo GSM338855 Bo GSM338709 Bt GSM338750 Bh GSM338774 Bh GSM338852 Bo GSM338762 GSM338742 Bh Bt GSM338776 GSM338710 GSM338851 Bt Bo GSM338740 Bt GSM338779 GSM338830 GSM338836 Bh Bo Bo GSM338763 Bh Bh GSM338759 GSM338803 Bc GSM338837 GSM338733 Bo GSM338726 GSM338730 Bt Bt GSM338844 Bo GSM338806 Bc GSM338727 GSM338755 Bt GSM338764 Bh Bh GSM338747 Bh GSM338722 Bt GSM338834 Bo GSM338782 GSM338788 Bh Bh GSM338754 GSM338789 Bh Bh GSM338835 GSM338719 Bo Bt GSM338781 GSM338753 Bh Bh GSM338767 GSM338735 Bt GSM338770 Bh GSM338748 GSM338786 GSM338718 Bt Bh GSM338758 GSM338707 Bh GSM338780 Bh GSM338756 GSM338778 Bh GSM338729 GSM338783 Bt Bh GSM338708 Bt GSM338832 Bo GSM338715 GSM338777 Bt GSM338773 Bh Bh GSM338724 Bt GSM338775 Bh GSM338785 Bh GSM338721 GSM338771 Bh GSM338720 BtBt Bh GSM338766. -0.5. Dim 2 (1.14%). 0.5. 1.0. Echantillons sur le plan principal. 0.0. 0.5. 1.0. 1.5. 2.0. Dim 1 (93.45%). On  observe  un  très  fort  effet  taille  sur  le  premier  axe,  opposant  les  gènes   fortement  exprimés  sur  tous  les  tissus  à  ceux  faiblement  exprimés.  Cet  axe   n’apporte  pas  grand  chose.  C’est  sur  les  dimensions  2,3  et  4  de  l’espace  factoriel  .  .

(19) que  l’on  retrouve  le  mieux  les  groupes  d’échantillons  vus  dans  l’ACP  avec   échantillons-­‐individus.     Echantillons sur le plan (2,3). 0.0 -0.2. Dim 3 (0.49%). 0.2. GSM338695 GSM338682 T GSM338680 T GSM338806 T T GSM338684 T GSM338691 GSM338718 Bc T GSM338693 GSM338837 T GSM338694 Bt GSM338721 Bt GSM338720 Bt T GSM338687 GSM338715 Bt GSM338803 GSM338850 Bo GSM338674 T GSM338766 Bh GSM338791 GSM338855 GSM338708 Bt GSM338782 BhBc T GSM338671 GSM338835 Bo GSM338796 GSM338844 GSM338673 GSM338808 BEpBo GSM338777 BhBt BoGSM338790 TTGSM338688 Bo GSM338707 GSM338679 T T BEp GSM338851 Bo GSM338785 Bh GSM338676 BM T GSM338683 GSM338685 GSM338839 GSM338686 GSM338727 T Bt BE GSM338701 TTT GSM338699 GSM338834 Bo GSM338775 Bh GSM338724 Bt GSM338831 GSM338832 GSM338771 Bh Bo GSM338759 GSM338786 BhBoGSM338810 Bh Bt GSM338730 GSM338848 Bo GSM338675 T GSM338677 T GSM338681 T T GSM338729 BtBt GSM338733 Bt GSM338852 Bo Bo GSM338692 GSM338845 GSM338781 Bh GSM338735 BEp GSM338811 BMBo GSM338798 GSM338762 Bh T GSM338696 GSM338776 GSM338722 GSM338753 Bt Bh Bh GSM338719 Bt GSM338817 BEp GSM338792 GSM338758 GSM338773 Bh Bh GSM338780 GSM338789 T GSM338666 GSM338742 Bt GSM338778 BM GSM338846 Bh Bh Bo GSM338815 GSM338783 GSM338740 Bh GSM338747 BhBt T GSM338698 GSM338774 Bh T GSM338672 GSM338841 GSM338788 Bo GSM338827 Bh GSM338843 Bo Bo GSM338842 BoBo Bo T GSM338697 GSM338726 Bt Bo GSM338754 Bh GSM338833 GSM338767 Bh GSM338805 Bc GSM338748 Bh GSM338717 T GSM338690 Bt GSM338756 Bh T GSM338689 GSM338734 GSM338755 Bt GSM338764 Bh GSM338709 GSM338830 Bo GSM338710 BtBt BEpBEs GSM338731 GSM338801 Bt GSM338793 GSM338779 Bh GSM338763 Bh GSM338716 GSM338761 Bh GSM338736 BtBt GSM338838 BoBh GSM338732 Bt GSM338700 T T GSM338784 GSM338667 GSM338854 Bo GSM338712 BtBo GSM338836 Bo GSM338829 GSM338750 Bh GSM338668 T GSM338826 Bo GSM338741 Bt T GSM338678 GSM338814 Bo BEs GSM338705 BtBt GSM338770 Bh GSM338743 GSM338711 Bt BEp BEpBEsGSM338800 Bo T GSM338670 T GSM338669 Bt GSM338802 Bh GSM338744 Bt Bh Bh GSM338809 BM GSM338797 GSM338795 GSM338738 GSM338723 BtGSM338849 Bt Bc BEp GSM338768 BEsGSM338799 Bo Bh GSM338760 GSM338772 Bo Bt Bt GSM338794 Bo GSM338702 GSM338853 BhBt GSM338804 GSM338765 Bt GSM338816 GSM338714 Bh GSM338713 BoBo GSM338840 GSM338769 Bt Bh GSM338819 Bo Bt Bo GSM338703 GSM338728 Bo GSM338787 GSM338824 Bt GSM338706 GSM338757 GSM338823 GSM338725 GSM338818 GSM338847 Bo GSM338739 Bh Bo BoBt GSM338820 GSM338749 Bth GSM338813 Bch Bt GSM338825 Bo Bo GSM338704 Bh GSM338745 GSM338807 GSM338737 GSM338812 GSM338822 GSM338751 Bh. Bo. GSM338752 GSM338821 Bh. Bo. -0.4. GSM338746 GSM338828. -0.2. 0.0. 0.2 Dim 2 (1.14%).  . 0.4.  .

(20) Echantillons sur le plan (2,4). 0.0 -0.2. Dim 4 (0.37%). 0.2. GSM338723 GSM338715 GSM338710 GSM338713 GSM338731 GSM338741 Bt GSM338734 BtBtGSM338849 Bt GSM338739 GSM338829 Bt GSM338841 GSM338722 BtBo Bt GSM338837 GSM338703 Bo GSM338729GSM338851 Bt Bt Bo GSM338797 Bt GSM338709 GSM338744 GSM338801 Bo GSM338738 Bt GSM338711 GSM338706 GSM338705 GSM338793 GSM338745 GSM338827 Bo GSM338724 Bt GSM338855 GSM338846 GSM338795 GSM338854 GSM338728 BEp Bt Bt BEs Bt GSM338743 GSM338725 Bt Bth BEp BtBEp Bt Bo Bo GSM338727 Bt Bo GSM338836 GSM338732 Bo Bo Bt GSM338719 Bt GSM338791 GSM338718 BtBo GSM338717 Bt Bt Bt Bt GSM338835 GSM338742 BEsGSM338799 GSM338844 BoBt BEp GSM338704 BM GSM338809 GSM338848 GSM338720 Bt GSM338830 TTGSM338684 GSM338714 BEpGSM338794 GSM338735 Bt BoBo Bt GSM338676 GSM338853 Bo GSM338831 GSM338787 BEp GSM338798 Bo GSM338820 GSM338737 Bt GSM338690 GSM338733 T GSM338707 GSM338702 Bt Bt Bt GSM338812 GSM338696 GSM338666 TT Bc GSM338804 BhBo GSM338839 Bo BEp Bo GSM338672 T T GSM338826 Bo BEp Bt GSM338792 GSM338669 T GSM338667 GSM338796 GSM338730 Bt BoBo GSM338685 GSM338686 TTGSM338681 T GSM338816 Bo GSM338823 GSM338789 Bh GSM338845 GSM338833 Bo Bo Bo Bo GSM338840 GSM338850 GSM338818 GSM338736 Bt GSM338699 T GSM338698 TGSM338675 GSM338765 Bh T BM GSM338811 T GSM338668 GSM338695 T GSM338679 T GSM338677 GSM338726 Bt GSM338670 T GSM338821 BoBh GSM338749 T BoBo GSM338808 GSM338760 BM T GSM338678 GSM338740 GSM338790 Bh Bt BE GSM338759 Bh GSM338721 Bt GSM338716 Bt GSM338764 Bh BM GSM338763 Bh Bh GSM338782 GSM338708 Bt Bh GSM338761 BEsGSM338800 T GSM338700 GSM338815 T GSM338671 GSM338697 TGSM338694 GSM338852 GSM338817 Bo Bo T TGSM338691 GSM338824 GSM338758 BhBoBc T GSM338689 GSM338762 Bh GSM338838 Bo GSM338803 GSM338834 GSM338805 T GSM338673 Bc T Bo GSM338810 GSM338683 T GSM338687 GSM338768 Bh GSM338778 BEs Bh GSM338822 Bo GSM338842 GSM338712 Bo Bo GSM338688 GSM338814 T GSM338701 GSM338775 BoBt Bo Bh Bh T GSM338692 T GSM338813 GSM338780 Bo Bh Bh GSM338766 Bh GSM338802 GSM338806 Bc Bh Bh GSM338832 Bo GSM338774 GSM338693 T Bch GSM338819 Bo Bo T GSM338674 BhGSM338847 GSM338843 GSM338784 T GSM338680 GSM338769 GSM338772 GSM338776 Bh GSM338781 Bh GSM338807 T GSM338682 GSM338825 GSM338828 GSM338770 Bh GSM338756 Bh GSM338757 GSM338771 Bh GSM338748 Bh GSM338783 GSM338786BhBh Bh Bh Bh Bh GSM338755 GSM338767 Bh GSM338788 GSM338747 GSM338785GSM338754 Bh Bh Bh GSM338750 Bh Bh GSM338777 GSM338779 Bh GSM338773GSM338751 GSM338752 Bh. Bh. -0.4. GSM338753 GSM338746. -0.2. 0.0. 0.2. 0.4. Dim 2 (1.14%).  .   Nous  allons  sélectionner  les  gènes  les  plus  représentatifs  sur  le  sous-­‐espace   factoriel  engendré  par  les  axes  (2,3,4),  ie,  ceux  qui  contribuent  le  plus  à  la   formation  de  ce  sous-­‐espace.  On  enlève  l’axe  1  car  il  n’apporte  aucune   information  intéressante.  Ainsi,  on  tombe  “naturellement”  sur  des  gènes  dont  les   expressions  permettent  de  discriminer  facilement  les  échantillons.     Calcul  des  contributions  sur  un  sous-­‐espace       Rappel  :       •. 1 n 2 Inertie  de  l’axe  k  = λk = ∑ cik ;     n i=1. •. cik2 Contribution  de  i  à  la  formation  de  l’axe  k=   ctrik = nλ k.  . On  peut  calculer  la  contribution  à  un  sous-­‐espace  de  manière  analogue  à  la   contribution  à  un  axe.  Par  exemple,  pour  calculer  la  contribution  d’un  individu  i   au  plan  factoriel    (k,k’):    .

(21) ei⊥ = projection orthogonale de ei sur le plan (k,k')= = ei ,uk uk + ei ,uk ' uk ' = (cik uk + cik 'uk ' ) Inertie du nuage projeté sur le plan (k,k') 1 n 2 ⊥ 1 n 2 I kk ' = ∑ d (ei ,G) = ∑ (cik + cik2 ' ) = =λk + λk ' n i=1 n i=1.   2 ik. c + cik2 ' Contribution  de  i  à  la  formation  du  plan  (k,k’)=   ctrikk ' =   n( λk + λk ' )   Calcul  de  la  contribution  des  genes  à  la  formation  du  sous-­‐espace  porté  par  les  axes   (2,3,4):       nctr234=apply(acp4$ind$coord[,2:4]^2,1,sum)/(  acp4$eig[2,1]+  acp4$eig[3,1]+   acp4$eig[4,1])   hist(nctr234)     Sélection  des  genes  dont  la  contribution  est  >  à  un  certain  seuil  :   Ex:  Vecteur  identifiant  les  contributions  >20   selec=nctr234>50   sum(selec)   [1]  22   exp2=t(expr.matrix[selec,])   Comparaison  des  genes  sélectionnés  par  les  deux  methodes     colnames(exp2)   [1]  "CD9|201005_at"                "HLA-­‐DPB1|201137_s_at"  "ITM2A|202746_at"             "MAL|204777_s_at"            "LCK|204891_s_at"              [6]  "NPY|206001_at"                "CD24|208650_s_at"          "HLA-­‐DRA|208894_at"        "HLA-­‐ DRB1|209312_x_at"  "CD74|209619_at"               [11]  "NA|209771_x_at"              "IL23A|210915_x_at"        "HLA-­‐DRA|210982_s_at"     "IL23A|211796_s_at"        "HLA-­‐DPA1|211990_at"       [16]  "HLA-­‐DPA1|211991_s_at"  "TCF4|212386_at"              "IL23A|213193_x_at"         "CD3D|213539_at"              "HLA-­‐DRB1|215193_x_at"   [21]  "NA|216379_x_at"              "HLA-­‐DMA|217478_s_at"     colnames(s_expr)    [1]  "CD9|201005_at"              "ITM2A|202746_at"          "S100A8|202917_s_at"    "HLA-­‐ DRA|208894_at"      "IL23A|210915_x_at"        [6]  "HLA-­‐DRA|210982_s_at"  "IL23A|211796_s_at"      "CD3D|213539_at"             "NA|216379_x_at"            "KLF4|221841_s_at"          .

(22) which(colnames(s_expr)  %in%  colnames(exp2))   [1]  1  2  4  5  6  7  8  9   La  selection  précédente  a  sélectionné  8  des  10  gènes  de  plus  grande  variance.     colnames(exp2)[which(colnames(s_expr)  %in%  colnames(exp2))]   [1]  "CD9|201005_at"                "HLA-­‐DPB1|201137_s_at"  "MAL|204777_s_at"             "LCK|204891_s_at"            "NPY|206001_at"                 [6]  "CD24|208650_s_at"          "HLA-­‐DRA|208894_at"        "HLA-­‐DRB1|209312_x_at"     ACP  sur  les  22  gènes  les  plus  discriminants     On  peut  refaire  l’ACP  avec  échantillons  en  individus  sur  ces  gènes  :   acp5=princomp(exp2)   plot(acp5$scores[,c(1,2)],  col=0,main=paste('PCA;  Den  Boer  (2009);  ',   nrow(exp2),  'samples  *',  ncol(exp2),  'genes',  sep='  ',  'plan  (1,2)'))   text(acp5$scores[,c(1,2)],  label=sample.labels,  col=sample.colors,  cex=0.7)   abline(h=0)  ;  abline(v=0)     On  constate  que  l’on  obtient  l’essentiel  des  résultats  observés  lors  des  ACP   antérieures  en  2  axes  au  lieu  de  3  (l’axe2  joue  ici  le  rôle  de  l’axe  3  précédent).   On  pourrait  refaire  une  caractérisation  des  axes  à  l’aide  des  22  gènes   sélectionnés.     PCA; Den Boer (2009); 190 samples * 22 genes plan (1,2). 0 -4. -2. Comp.2. 2. 4. 6. T. Bh Bo BEs Bh Bo BM Bc Bh Bo Bh Bo BEs Bh BEs Bo BE Bh Bh Bh Bh BM Bh Bc BEp Bh BEp BEp Bh BEp Bt Bo BhBhBh Bo Bo Bh Bc Bh Bh Bo Bo Bo Bh BEs Bo BEp Bh BhBh Bo Bo Bh Bch Bo BEp BEp Bh BhBh Bo Bo Bh BtBt BhBh Bh Bh Bt Bh Bo Bh Bh Bo Bo Bh Bh Bo BEp Bo Bo Bh Bt Bh Bh Bo Bo Bo Bo Bt Bh Bo Bo Bh Bt BM Bt Bo Bo Bo BhBh Bo Bt Bo Bo Bo Bh Bt Bt Bt Bt Bt Bt Bt Bc Bo Bo Bt Bt Bt Bt Bt Bt Bt Bt Bt BtBt Bt Bt Bo Bo Bt BtBt Bt Bo Bo Bth Bt BtBt Bt Bt Bt BtBt Bt. -5. 0. T. T. T. BM. T T T. T. T. T T T. T T. T. T. T. T. T. T. T T. T. T T T T T TT. T T T T T. T. 5. 10. 15. 20. Comp.1.         Coordonnées  des  variables  sur  les  deux  premiers  axes  factoriels  (cf  formules  du   cours)  et  graphe  des  variables    .  .

(23) D11=(acp5$sdev[1])*(acp5$loadings[,1])   D12=(acp5$sdev[2])*(acp5$loadings[,2])      . 0.5 0.0. D12. 1.0. 1.5. CD9|201005_at. NPY|206001_at CD24|208650_s_at TCF4|212386_at NA|216379_x_at NA|209771_x_at LCK|204891_s_at CD3D|213539_at MAL|204777_s_at. CD74|209619_at. IL23A|213193_x_at IL23A|210915_x_at IL23A|211796_s_at. -0.5. HLA-DRA|208894_at HLA-DPB1|201137_s_at HLA-DRA|210982_s_at HLA-DPA1|211990_at HLA-DRB1|209312_x_at HLA-DRB1|215193_x_at HLA-DPA1|211991_s_at HLA-DMA|217478_s_at. ITM2A|202746_at. -2. -1. 0. 1. 2. D11.   On  peut  interpréter  les  contributions  des  genes  aux  axes  en  comparant  la  valeur   absolue  des  vecteurs  propres  1/sqrt(p);     par  exemple  pour  l’axe  1,         acp5$loadings[abs(acp5$loadings[,1])>1/sqrt(22),1]   LCK|204891_s_at HLA-DRA|208894_at 0.2136115 -0.2435928 NA|209771_x_at IL23A|210915_x_at HLA-DRA|210982_s_at -0.2185479 0.2259143 -0.2353926 IL23A|211796_s_at 0.2486099 CD3D|213539_at 0.2568470. NA|216379_x_at -0.2249530.         L’axe  1  oppose    les  échantillons  T-­‐all,  caractérisés  par  une  faible  expression  des   gènes  en  vert  et  une  forte  expression  des  gènes  en  orange,  aux  autres  .  .

(24) échantillons.         ACP  Sparse     Une  autre  façon  d’obtenir  une  représentation  lisible  de  l’ACP  consiste  à   rechercher  une  version  parcimonieuse  des  composantes  principales  en  limitant   le  nombre  de  variables  dans  les  combinaisons.  Cela  revient  à  ajouter  une   contrainte  de  type  Lasso  dans  la  décomposition  en  valeur  singulière  de  la   matrice.  On  ne  développera  pas  l’aspect  technique  ici,  il  s’agit  juste  de  voir   comment  faire  ce  type  d’analyse  sous  R.   On  utilise  pour  cela  la  fonction  spca().     Si  l’on  n’ajoute  pas  de  contrainte,  on  obtient  les  mêmes  résultats  que  l’ACP   standard.     library(mixOmics)   acp6=spca(exp,  ncomp=2,scale=F)     Comparaison  des  sorties  des  fonctions  prcomp  et  spca       ACP  normale  sur  l’ensemble  des  gènes  :  on  comparera  acp3,  acp6  (rappel  :   acp3=prcomp(exp))     %  d’inertie  :   names(acp6)     [1]  "call"          "X"                "ncomp"        "varX"          "keepX"        "iter"          "rotation"  "x"                summary(acp3)       Importance of components: PC1 PC2 Standard deviation 25.9421 17.01316 Proportion of Variance 0.1722 0.07408 Cumulative Proportion 0.1722 0.24634   acp6$varX[1:2]                    1                  2     0.1722536  0.2463382       spca()  donne  uniquement  les  %  cumulés  de  variance  expliquée,  ce  qui  est  .

(25) suffisant  pour  choisir  le  nombre  d’axes  à  retenir,  car  on  peut  reconstituer  par   soustraction  les  %  d’inertie  expliqués  par  chaque  axe.     Vecteurs  propres  :        acp3$rotation[1:5,1:2]     PC1 PC2 DDR1|1007_s_at 4.922103e-03 -0.0097818782 RFC2|1053_at -5.297039e-03 -0.0039730414 HSPA6|117_at -2.753505e-04 0.0053381323 PAX8|121_at 7.366343e-04 -0.0014581689 GUCA1A|1255_g_at -3.358247e-05 0.0001679061   acp6$rotation[1:5,1:2]   1 2 DDR1|1007_s_at 4.922103e-03 0.0097818782 RFC2|1053_at -5.297039e-03 0.0039730414 HSPA6|117_at -2.753505e-04 -0.0053381323 PAX8|121_at 7.366343e-04 0.0014581689 GUCA1A|1255_g_at -3.358247e-05 -0.0001679061   Les  sorties  sont  identiques  au  signe  près    dans  les  deux  analyses.  Le  signe  est  le   sens  du  vecteur  directeur  dans  la  base  orthonormée  relative  à  l’espace  factoriel   du  nuage  de  points  individus.  Cela  ne  change  rien  dès  lors  que  la  même   convention  est  prise  pour  constituer  l’espace  factoriel  du  nuage  de  points   variables  (ce  qui  est  le  cas).     Composantes  principales       acp3$x[1:5,1:2]   PC1 PC2 GSM338666 -48.31958 5.216224 GSM338667 -63.36773 -3.349745 GSM338668 -68.49355 -5.489968 GSM338669 -64.69440 -9.525364 GSM338670 -55.33025 -9.231146   acp6$x[1:5,1:2]   1 2 GSM338666 -0.1354837 -0.02230182 GSM338667 -0.1776774 0.01432175 GSM338668 -0.1920497 0.02347221 GSM338669 -0.1813972 0.04072544 GSM338670 -0.1551410 0.03946752   Les  composantes  principales  sont  standardisées  (de  variance  1)  dans  spca().  Cela   ne  change  rien  à  l’interprétation.     sum(acp6$x[,1]^2)   [1]  1  .

(26) sum(acp3$x[,1]^2)   [1]  127195.6     (acp3$x[,1]/sqrt(sum(acp3$x[,1]^2)))[1:5]   GSM338666 GSM338667 GSM338668 GSM338669 GSM338670 -0.1354837 -0.1776774 -0.1920497 -0.1813972 -0.1551410 acp6$x[1:5,1]   GSM338666 GSM338667 GSM338668 GSM338669 GSM338670 -0.1354837 -0.1776774 -0.1920497 -0.1813972 -0.1551410       Graphiques  des  individus         plotIndiv(acp6,  col=sample.colors,  ind.names=sample.labels,  cex=0.7)        . 0.2. Bo. Bh. Bo. Bh Bo Bch. Bh. Bo. 0.1. Bt Bo Bo. BEs BM T TT. 0.0. Dimension 2. Bh Bo Bt Bth Bt Bo Bo. T. T T. T. T T T TT. -0.1. TT T T T T. T T. T T T. T T T T. T. T. T TT. T. Bc T T. -0.20. -0.15. Bo Bt Bh Bt Bo Bh Bt Bh Bo Bt Bo Bt Bo Bt Bh Bo BtBt BEp Bc BhBh Bt Bh Bt BEp Bo BEp Bt Bt Bt Bh BEs BEs Bt Bo Bo Bh BoBo Bo Bt Bh Bt Bo Bt Bt Bh Bh Bh BEs BEp Bt Bt BoBh Bt Bh Bh Bt Bc Bt Bh Bh Bo BtBh Bo Bo Bo Bh Bh Bo Bo Bh BtBh Bo Bt Bo Bh Bh BM BhBh Bh BEp Bh BtBt Bh BEp Bh BM Bt Bt BoBoBt Bh Bo Bo Bo BhBo Bh Bt BtBhBh Bo BE Bt BM Bh BEp Bo Bt BEpBo Bh Bo Bo Bc Bo Bt Bh Bh Bo Bt Bt Bt Bt. -0.10. T. -0.05 Dimension 1. Rappel  :  Graphique  pour  acp3    . 0.00. 0.05. 0.10.  .

Références

Documents relatifs

Nous voulons rappeler qu’avant la recherche de la méthode intégrée, une méthode de filtrage est d’abord appliquée pour obtenir un groupe ordonné G p des gènes selon leur score

En premier lieu, on s’attache à l’information linguistique contenue dans le texte et à la prise en compte de son contexte immédiat (gauche et/ou droite). Ainsi, un nom de

D iminution des horaires dans toutes les disciplines (en voie générale et davan- tage encore en voie technologique), installation de l’accompagnement per- sonnalisé en

La femelle quant à elle doit avoir une allure féminine avec un corps dont l’angle s’agrandit de l’avant vers l’arrière, témoignant d’une bonne capacité

Le plan ci-dessus donne une représentation des îles de la Seine au centre de Paris (île de la Cité et île Saint-Louis) ainsi que des ponts permettant d’y accéder à partir de la

Le tableau suivant présente les résultats d’une enquête sur les animaux

Le tableau suivant présente les résultats d’une enquête sur les animaux

L’objectif de cette séance est la mise en œuvre de l’analyse en compo- santes principales avec SAS sur un exemple plus réaliste de données socio- économiques se présentant sous