• Aucun résultat trouvé

C)  IDENTIFICATIONS METABOLIQUES

2.3.2.  L’ANALYSE STATISTIQUE

2.3.2.3.  ANALYSE EN COMPOSANTE PRINCIPALE

    Applications de la RMN HRMAS en cancérologie  110 pour les m cas) est souvent nécessaire afin de ne conserver que les paramètres pertinents pour  le diagnostic. Cette étape fait appel à des méthodes d’analyse de données telles que l’analyse en  composantes principales ou la régression aux moindres carrés partiels. 

Nous  allons  dans  un  premier  temps  nous  pencher  sur  cette  réduction  d’espace  de  variables. Une matrice de données de n métabolites et m échantillons représente un espace de  données  à  n  points  et  m  dimensions.  Quelque  soit  la  configuration,  le  caractère  multidimensionnel  des  données  est  difficile  à  appréhender.  Actuellement,  aucun  outil  de  visualisation  n’est  capable  d’analyser  un  si  grand  espace.  Toutefois,  les  analyses  factorielles,  méthodes statistiques descriptives, permettent de réduire le nombre de dimensions de l’espace  des données et par conséquent la complexité du problème. Le principe des analyses factorielles  est la projection des données dans un espace aux dimensions réduites. Cet espace est construit  grâce à une combinaison linéaire des variables qui explique le mieux les variations des données  d’origine, l’objectif étant de perdre le moins d’informations possibles. Ces techniques reposent  sur  l’idée  qu’une  grande  partie  de  la  variation  des  données  peut  être  expliquée  par  un  petit  nombre  de  variables  transformées.  L’idée  directrice  de  l’analyse  factorielle  est  de  résumer  le  problème en réduisant le nombre de variables explicatives en restant le plus fidèle possible au  problème d’origine. 

Les méthodes factorielles regroupent trois principales techniques, déjà employées dans  l’analyse  des  données  d’expression :  l'analyse  en  composantes  principales  (Alter  et  al.,  2000;  Fellenberg  et  al.,  2001),  l'analyse  des  correspondances  (Khan  et  al.,  1998)  et  l'analyse  des  correspondances multiples (Bittner et al., 2000).    2.3.2.3. ANALYSE EN COMPOSANTE PRINCIPALE    Présentée pour la première fois en 1933 par Hotelling, l’ACP est une méthode statistique  pour l’exploration de données multi‐variables, également connue sous les noms « d’analyse par  décomposition des données en valeur singulière » (SVD ‐ Singular Value Decomposition) (Alter et  al., 2000; Holter et al., 2000) dans le domaine de la transcriptomique ou, dans le domaine plus  général  du  traitement  du  signal,  comme  l’«  Karhunen‐Loève  expansion  »  (Alter  et  al.,  2000).  L’ACP  est  la  méthode  de  base  qui  sert  de  fondement  théorique  aux  autres  méthodes  de  statistiques factorielles.  

L’objectif  de  cette  méthode  est  de  réduire  la  dimension  de  l’espace  des  données  en  déformant le moins possible la réalité. Pratiquement, l’ACP consiste en la détermination d’une  suite  d’axes  orthogonaux,  non  corrélés,  conservant  au  mieux  les  distances  entre  les  individus. 

Chapitre II. Matériels et Méthodes.   

 

Applications de la RMN HRMAS en cancérologie  111

Ces  axes  sont  appelés  axes  principaux  d’inertie  ou  composantes  principales  et  forment  un  nouvel espace dimensionnel pour les données. Les composantes principales (axes) sont définies  par les vecteurs propres. La conservation des distances (aux données d’origine) pour chaque axe  est  mesurée  par  la  variance  des  coordonnées  des  individus  sur  cet  axe,  encore  appelée  valeur  propre.  

Mathématiquement cela correspond, à partir d’une matrice de données d’expression à  m  observations  et  n  variables,  à  calculer  un  nouveau  système  de  coordonnées.  La  matrice  de  données  peut  être  centrée  ou  non,  normalisée  (basée  sur  la  matrice  de  corrélations)  ou  non  (basée sur la matrice de variance‐covariance). Ceci définit les différents types d’ACP et explique  également les différences de noms (Yeung and Ruzzo, 2001). Les directions du nouveau système  de coordonnées sont les vecteurs propres de la matrice de variance‐covariance ou de la matrice  des corrélations des profils d’expression.         Figure 32: distribution spatiale normale et principe de l’analyse en composante principale.   

De  manière  plus  imagée,  la  nouvelle  matrice  capture  la  forme  des  données.  Par  exemple,  pour  un  nuage  de  points  ovoïde  à  n  dimensions,  le  vecteur  propre  de  la  matrice  (composante principale) est le grand axe de l'ovale. Ce premier axe d'inertie est l'axe sur lequel  la projection du nuage de points a le plus de variance. L'axe secondaire sera l'axe orthogonal au  premier  et  calculé  de  la  même  manière.  p  axes  principaux  d'inertie  sont  ainsi  calculés  par  rotation  et  dans  l’ordre  décroissant  de  la  variation  qu’ils  expliquent.  Cet  ensemble  de  p  axes  principaux  ainsi  généré  est  représentatif  des  composantes  principales  de  la  distribution.  Généralement,  mais  aussi  idéalement,  les  composantes  principales  utilisées  sont  les  2  ou  3  premières puisqu’elles témoignent des principales variations observées dans le jeu de données 

Chapitre II. Matériels et Méthodes.   

 

Applications de la RMN HRMAS en cancérologie  112

original et permettent une représentation spatiale aisée du résultat. Les dernières composantes  reflètent  quant  à  elles  les  bruits  résiduels.  Cependant,  il  a  été  montré  que  les  premières  composantes d’une ACP ne permettent pas nécessairement de mettre en évidence la structure  des  données,  i.e.  la  répartition  en  groupes  (Yeung  and  Ruzzo,  2001).  Néanmoins  l’ACP  et  ses  variantes  peuvent  s’avérer  utile  dans  le  choix  du  nombre  de  classes  à  définir  a  priori  pour  l’application  des  algorithmes  de  classification  supervisée  telles  que  l’analyse  PLS  ou  la  classification par technique de type K‐means. Elle peut également être à la base de certains de  ces  algorithmes  (Bicciato  et  al.,  2003).  Il  est  toutefois  intéressant  de  noter  que  l’ACP,  selon  certain  auteurs  ne  forme  pas  de  groupe  et  encore  moins  de  classification  (Yeung  and  Ruzzo,  2001). Selon ces auteurs, elles n’améliorent pas, voire dégradent, la qualité des regroupements,  c’est pourquoi ils déconseillent l’utilisation directe des vecteurs propres (et ou valeurs propres)  dans les algorithmes de classification.  

 

Moins  répandu  dans  le  monde  de  la  métabolomique,  l’analyse  factorielle  des  correspondances ou AFC (CA ‐ Correspondance Analysis), proposée par Benzécri dans les années  60,  est  une  méthode  exploratoire  pour  analyser  des  données  qualitatives  (tableaux  de  contingence,  présence‐absence,  enquête).  L’objectif  est  de  rechercher  et  d’étudier  les  associations entre variables. Tout comme l’ACP, elle représente les données dans un espace de  dimension  réduite,  encore  appelé  carte.  Elle  permet  de  visualiser  les  paramètres  (variables  gènes)  et  les  objets  (variables  échantillons)  dans  le  même  espace,  mettant  en  évidence  d’éventuelles  dépendances  entre  les  deux.  C’est  en  employant  une  technique  d’AFC  que  Fellenberg  (Fellenberg  et  al.,  2001)  a  pu  mettre  en  évidence  des  gènes  associés  à  certaines  phases du cycle cellulaire de la levure. De même, le positionnement multidimensionnel (MDS ‐  Multidimensional Scaling) proposé par Shepard et Kruskal dans les années 60, bien qu’étant une  technique  principalement  utilisée  dans  le  monde  économique,  a  elle  aussi  montré  sa  possible  application au domaine de la métabolomique. Ainsi, Bittner (Bittner et al., 2000) a pu démontrer  que  la  méthode  MDS,  couplée  à  des  méthodes  de  classification,  permet  de  distinguer  des  catégories de mélanomes jusqu’à présent non identifiées sur la base de critères cliniques. Cette  technique permet donc d’estimer le nombre de  classes à définir a priori pour l’application  des  algorithmes  de  classification  supervisée.  Elle  peut  également  aider  au  choix  de  la  distance  à  utiliser lors de l’application d’un algorithme de regroupement.  

 

 2.3.2.4. LA REGRESSION AUX MOINDRES CARRES PARTIELS.   

Chapitre II. Matériels et Méthodes.      Applications de la RMN HRMAS en cancérologie  113