• Aucun résultat trouvé

PHASES PRATIQUES DANS LA CONSTRUCTION D'UN MODELE PREDICTIF

C)  LA REGRESSION AUX MOINDRES CARRES PARTIELS

2.3.5.  PHASES PRATIQUES DANS LA CONSTRUCTION D'UN MODELE PREDICTIF

 

 

Applications de la RMN HRMAS en cancérologie  125

Les valeurs de Q² obtenues sont largement en la faveur d’un modèle PLS‐DA (0.88 contre  0.35).  De  plus  le  modèle  PLS‐DA  permet  de  mesurer  la  qualité  de  l’ajustement  réalisé  en  se  basant sur un algorithme de validation circulaire. En partant du modèle établi, les contraintes Y  vont être permutées sur un cycle de N itérations. A chaque itération une valeur de Q² et R² sera  à  nouveau  calculée.  La  droite  de  régression  ainsi  obtenue  doit  tendre  vers  0  pour  ces  deux  valeurs. Cet algorithme permet de vérifier le caractère « d’overfit » du modèle. Dans l’exemple  présent, compte tenu du faible nombre d’échantillons de chaque groupe, cette validation peut  être jugée comme excellente (Figure 40). 

La  phase  d’interprétation  des  deux  modèles  repose  sur  l’examen  des  variables  prépondérantes  dans  la  génération  de  l’ACP  et  de  la  PLS‐DA.  Cette  distribution  (Figure  41)  est  représentative de la distribution observée lors de la classification (Figure 37).  

 

2.3.5. PHASES PRATIQUES DANS LA CONSTRUCTION D'UN MODELE PREDICTIF.   

L’établissement d’un modèle prédictif dépend grandement du type d’approche choisi  préalablement.  Soit  cette  approche  est  purement  statistique  et  nécessite  alors  une  validation  purement mathématique qui se décompose comme suit : 

1.  Phase de construction d'un ou de plusieurs modèle(s) de régression ou de classification,  sur la base d’une série d’exemples pour lesquels la valeur de Y est connue, ce qui correspond  à  un  ensemble  d'apprentissage  {(Xi,  Yi)}  où  Xi  représente  les  enregistrements  des  profils  métaboliques  d’une  population  donnée  et  Yi  correspond  à  la  réponse  à  la  question  posée  pour cette population (classification anatomo‐pathologique, pronostic clinique, réponse à un  traitement pharmacologique,…) 

2. Phase de validation, sur une série indépendante d'exemples (Y connue) qui n'a pas servi  à  établir  le  modèle  et  que  l’on  appelle  ensemble  de  validation.  Cette  étape  permet  de  comparer  la  qualité  prédictive  de  plusieurs  modèles  sur  base  d'un  critère  d'erreur  (par  exemple  les  erreurs  de  prédiction).  Elle  détermine  le  choix  d'un  modèle  définitif  (le  plus  performant) construit sur l'ensemble des données disponibles (apprentissage + validation).  3. Phase  d'estimation  des  performances  du  modèle  choisi,  sur  une  nouvelle  série 

indépendante  de  données  qui  n'a  pas  servi  à  établir  ou  à  comparer  les  modèles.  Cet  ensemble est appelé ensemble de test et permet d'évaluer la qualité prédictive du modèle.  Le critère de validation sera établi suivant un taux de détection correct. 

4. Phase d’application, sur une série de nouveaux cas où seules les données métaboliques  seront connues, soit un jeu de données du type {(Xi, ?)}. 

Chapitre II. Matériels et Méthodes.      Applications de la RMN HRMAS en cancérologie  126   Ce type d’approche, bien qu’étant théoriquement le plus robuste, présente l’énorme  désavantage  de  nécessiter  un  nombre  important  de  données  (d’échantillons).  Bien  que  les  techniques  statistiques  mises  en  œuvre  soient  spécifiquement  conçues  pour  contourner  ce  problème,  l’élaboration  d’un  modèle  « parfaitement »  valide,  statistiquement  et  mathématiquement  parlant,  nécessite  un  groupe  d’échantillons  d’une  taille  sensiblement  similaire au nombre de variables, et ceci dans le cas hypothétique où la classification recherchée  est purement binaire (pathologique versus sain par exemple). 

La  seconde  approche  consiste,  lors  de  l’élaboration  d’un  modèle  prédictif,  à  déterminer,  en  plus  de  la  contrainte  nécessaire  à  la  PLS‐DA,  une  ou  plusieurs  hypothèses  biologiques/métaboliques  liées  à  la  problématique.  De  fait,  cette  approche  se  décompose  comme suit : 

 

1.  Phase de construction d'un ou de plusieurs modèle(s) de régression ou de classification,  sur la base d’une série d’exemples pour lesquels la valeur de Y est connue, ce qui correspond  à  un  ensemble  d'apprentissage  {(Xi,  Yi)}  où  Xi  représente  les  enregistrements  des  profils  métaboliques  d’une  population  donnée  et  Yi  correspond  à  la  réponse  à  la  question  posée  pour cette population (classification anatomo‐pathologique, pronostic clinique, réponse à un  traitement pharmacologique,…)  2. Phase de validation, sur cette même série (Y connue) par divers algorithmes (validation  circulaire, mesure de « l’overfit », …). Cette étape permet de vérifier la cohérence du modèle  établi et détermine le choix d'un modèle définitif (le plus performant, présentant les critères  de Q² et R² les plus « sûrs » et la meilleure tendance lors de la validation). 

3. Phase  d'estimation  de  la  cohérence  biologique  du  modèle  choisi.  L’ensemble  des  métabolites concernés par l’établissement du modèle sera classifié en fonction de son poids  statistique. Une cohérence biologique sera cherchée compte tenu des hypothèses de départ.  Un  ou  des  réseaux  métaboliques  seront  étudiés  pour  vérifier  la  validité  des  biomarqueurs  détectés. Cette phase de validation, si elle s’avère concluante débouchera sur une hypothèse  métabolique qui pourra être affinée en réduisant le champ d’investigation métabolique lors  de la procédure statistique (on pourra se focaliser sur certains métabolites comme les acides  aminés par exemple).  4. Phase d’application, sur une série de nouveaux cas où seules les données métaboliques  seront connues, soit un jeux de données du type {(Xi, ?)}.    

Chapitre II. Matériels et Méthodes.      Applications de la RMN HRMAS en cancérologie  127 Cette deuxième option est plus élégante d’un point de vue biologique mais la validation  du modèle établi reposera toujours sur l’augmentation du nombre de cas inclus dans le modèle.  Ce  processus  peut  néanmoins  devenir  itératif  en  incluant  tout  nouveau  cas  dans  la  base  de  données prédictive et en  confirmant à chaque itération le caractère prédictif du modèle. C’est  pourquoi,  dans  cette  thèse,  nous  préfèrerons  donner  une  orientation  exploratoire  à  la  métabolomique en posant des bases de réflexions sur les modèles métaboliques impliqués dans  les processus oncologiques. Cette approche sera l’objet de la seconde partie de ce mémoire qui  se  propose  d’appliquer  les  outils  de  la  métabolomique  que  nous  avons  décris  auparavant  (HRMAS, ACP, PLS‐DA) à l’étude des tumeurs cancéreuses

  

Chapitre II. Matériels et Méthodes.   

 

 

CHAPITRE III.

RESULTATS.

              3.1. LA METABOLOMIQUE APPLIQUEE A L’ETUDE DES TUMEURS CEREBRALES.   

Les  tumeurs  cérébrales  résultent  de  la  prolifération  non  contrôlée  de  certaines  cellules.  Celles‐ci  sont  qualifiées  de  "primitives"  si  elles  se  développent  à  partir  des  cellules  du  cerveau  comme les astrocytes ou oligodendrocytes, et de "secondaires" (ou encore métastases) si elles ont  pour  origine  une  tumeur  située  ailleurs  dans  l'organisme  (poumon,  sein,  rein…).  La  majorité  des  tumeurs  primitives  du  système  nerveux  central  sont  dérivées  des  cellules  gliales  donnant  ainsi  naissance aux gliomes (entre 64% à 90% selon les études), dont le représentant le plus fréquent et le  plus malin est le glioblastome.   La distribution épidémiologique des tumeurs cérébrales, en fonction de l’âge, est bimodale,  avec une incidence5 maximale chez l’enfant et un second pic chez l’adulte, entre 45 et 70 ans (Fleury  et al., 1997 ; Wrensch et al., 2005). L’incidence des tumeurs cérébrales primitives est estimée entre  10 à 15 cas pour 100.000 habitants par an et la prévalence6 de 60 pour 1OO.OOO habitants. D’une  manière générale les taux d’incidence sont plus élevés chez les hommes, particulièrement dans le cas  des tumeurs malignes. Dans les pays développés, les tumeurs cérébrales sont la 12ème cause la plus  fréquente  de  mortalité  liée  au  cancer.  Chez  l'enfant,  les  tumeurs  cérébrales  sont  proportionnellement  plus  fréquentes  et  viennent  en  deuxième  position  après  les  tumeurs  du  sang  (leucémie). Ainsi on estime qu'environ 2500 à 3000 nouveaux patients sont touchés par des gliomes  chaque année en France.  

Les tumeurs cérébrales se réfèrent à une collection de néoplasmes qui ont une biologie, un  pronostic et un traitement propre permettant de les classifier, les répertorier et éventuellement de        

5 L’incidence : Nombre de cas nouveaux d'une maladie ou de sujets atteints d'une maladie dans une population déterminée et durant un laps de temps donné.

6La prévalence : Nombre des cas de maladies, d'accidents, de suicide, etc., qui surviennent dans une population donnée, sans distinguer entre les cas nouveaux et les cas anciens.