PHASES PRATIQUES DANS LA CONSTRUCTION D'UN MODELE PREDICTIF

C) LA REGRESSION AUX MOINDRES CARRES PARTIELS

2.3.5. PHASES PRATIQUES DANS LA CONSTRUCTION D'UN MODELE PREDICTIF

Applications de la RMN HRMAS en cancérologie 125

Les valeurs de Q² obtenues sont largement en la faveur d’un modèle PLS‐DA (0.88 contre 0.35). De plus le modèle PLS‐DA permet de mesurer la qualité de l’ajustement réalisé en se basant sur un algorithme de validation circulaire. En partant du modèle établi, les contraintes Y vont être permutées sur un cycle de N itérations. A chaque itération une valeur de Q² et R² sera à nouveau calculée. La droite de régression ainsi obtenue doit tendre vers 0 pour ces deux valeurs. Cet algorithme permet de vérifier le caractère « d’overfit » du modèle. Dans l’exemple présent, compte tenu du faible nombre d’échantillons de chaque groupe, cette validation peut être jugée comme excellente (Figure 40).

La phase d’interprétation des deux modèles repose sur l’examen des variables prépondérantes dans la génération de l’ACP et de la PLS‐DA. Cette distribution (Figure 41) est représentative de la distribution observée lors de la classification (Figure 37).

2.3.5. PHASES PRATIQUES DANS LA CONSTRUCTION D'UN MODELE PREDICTIF.

L’établissement d’un modèle prédictif dépend grandement du type d’approche choisi préalablement. Soit cette approche est purement statistique et nécessite alors une validation purement mathématique qui se décompose comme suit :

2. Phase de validation, sur une série indépendante d'exemples (Y connue) qui n'a pas servi à établir le modèle et que l’on appelle ensemble de validation. Cette étape permet de comparer la qualité prédictive de plusieurs modèles sur base d'un critère d'erreur (par exemple les erreurs de prédiction). Elle détermine le choix d'un modèle définitif (le plus performant) construit sur l'ensemble des données disponibles (apprentissage + validation). 3. Phase d'estimation des performances du modèle choisi, sur une nouvelle série

indépendante de données qui n'a pas servi à établir ou à comparer les modèles. Cet ensemble est appelé ensemble de test et permet d'évaluer la qualité prédictive du modèle. Le critère de validation sera établi suivant un taux de détection correct.

4. Phase d’application, sur une série de nouveaux cas où seules les données métaboliques seront connues, soit un jeu de données du type {(Xi, ?)}.

Chapitre II. Matériels et Méthodes. Applications de la RMN HRMAS en cancérologie 126 Ce type d’approche, bien qu’étant théoriquement le plus robuste, présente l’énorme désavantage de nécessiter un nombre important de données (d’échantillons). Bien que les techniques statistiques mises en œuvre soient spécifiquement conçues pour contourner ce problème, l’élaboration d’un modèle « parfaitement » valide, statistiquement et mathématiquement parlant, nécessite un groupe d’échantillons d’une taille sensiblement similaire au nombre de variables, et ceci dans le cas hypothétique où la classification recherchée est purement binaire (pathologique versus sain par exemple).

La seconde approche consiste, lors de l’élaboration d’un modèle prédictif, à déterminer, en plus de la contrainte nécessaire à la PLS‐DA, une ou plusieurs hypothèses biologiques/métaboliques liées à la problématique. De fait, cette approche se décompose comme suit :

1. Phase de construction d'un ou de plusieurs modèle(s) de régression ou de classification, sur la base d’une série d’exemples pour lesquels la valeur de Y est connue, ce qui correspond à un ensemble d'apprentissage {(X_i, Y_i)} où Xi représente les enregistrements des profils métaboliques d’une population donnée et Yi correspond à la réponse à la question posée pour cette population (classification anatomo‐pathologique, pronostic clinique, réponse à un traitement pharmacologique,…) 2. Phase de validation, sur cette même série (Y connue) par divers algorithmes (validation circulaire, mesure de « l’overfit », …). Cette étape permet de vérifier la cohérence du modèle établi et détermine le choix d'un modèle définitif (le plus performant, présentant les critères de Q² et R² les plus « sûrs » et la meilleure tendance lors de la validation).

3. Phase d'estimation de la cohérence biologique du modèle choisi. L’ensemble des métabolites concernés par l’établissement du modèle sera classifié en fonction de son poids statistique. Une cohérence biologique sera cherchée compte tenu des hypothèses de départ. Un ou des réseaux métaboliques seront étudiés pour vérifier la validité des biomarqueurs détectés. Cette phase de validation, si elle s’avère concluante débouchera sur une hypothèse métabolique qui pourra être affinée en réduisant le champ d’investigation métabolique lors de la procédure statistique (on pourra se focaliser sur certains métabolites comme les acides aminés par exemple). 4. Phase d’application, sur une série de nouveaux cas où seules les données métaboliques seront connues, soit un jeux de données du type {(Xi, ?)}.

Chapitre II. Matériels et Méthodes. Applications de la RMN HRMAS en cancérologie 127 Cette deuxième option est plus élégante d’un point de vue biologique mais la validation du modèle établi reposera toujours sur l’augmentation du nombre de cas inclus dans le modèle. Ce processus peut néanmoins devenir itératif en incluant tout nouveau cas dans la base de données prédictive et en confirmant à chaque itération le caractère prédictif du modèle. C’est pourquoi, dans cette thèse, nous préfèrerons donner une orientation exploratoire à la métabolomique en posant des bases de réflexions sur les modèles métaboliques impliqués dans les processus oncologiques. Cette approche sera l’objet de la seconde partie de ce mémoire qui se propose d’appliquer les outils de la métabolomique que nous avons décris auparavant (HRMAS, ACP, PLS‐DA) à l’étude des tumeurs cancéreuses

Chapitre II. Matériels et Méthodes.

CHAPITRE III.

RESULTATS.

3.1. LA METABOLOMIQUE APPLIQUEE A L’ETUDE DES TUMEURS CEREBRALES.

Les tumeurs cérébrales résultent de la prolifération non contrôlée de certaines cellules. Celles‐ci sont qualifiées de "primitives" si elles se développent à partir des cellules du cerveau comme les astrocytes ou oligodendrocytes, et de "secondaires" (ou encore métastases) si elles ont pour origine une tumeur située ailleurs dans l'organisme (poumon, sein, rein…). La majorité des tumeurs primitives du système nerveux central sont dérivées des cellules gliales donnant ainsi naissance aux gliomes (entre 64% à 90% selon les études), dont le représentant le plus fréquent et le plus malin est le glioblastome. La distribution épidémiologique des tumeurs cérébrales, en fonction de l’âge, est bimodale, avec une incidence⁵ maximale chez l’enfant et un second pic chez l’adulte, entre 45 et 70 ans (Fleury et al., 1997 ; Wrensch et al., 2005). L’incidence des tumeurs cérébrales primitives est estimée entre 10 à 15 cas pour 100.000 habitants par an et la prévalence⁶ de 60 pour 1OO.OOO habitants. D’une manière générale les taux d’incidence sont plus élevés chez les hommes, particulièrement dans le cas des tumeurs malignes. Dans les pays développés, les tumeurs cérébrales sont la 12^ème cause la plus fréquente de mortalité liée au cancer. Chez l'enfant, les tumeurs cérébrales sont proportionnellement plus fréquentes et viennent en deuxième position après les tumeurs du sang (leucémie). Ainsi on estime qu'environ 2500 à 3000 nouveaux patients sont touchés par des gliomes chaque année en France.

Les tumeurs cérébrales se réfèrent à une collection de néoplasmes qui ont une biologie, un pronostic et un traitement propre permettant de les classifier, les répertorier et éventuellement de

5 L’incidence : Nombre de cas nouveaux d'une maladie ou de sujets atteints d'une maladie dans une population déterminée et durant un laps de temps donné.

6La prévalence : Nombre des cas de maladies, d'accidents, de suicide, etc., qui surviennent dans une population donnée, sans distinguer entre les cas nouveaux et les cas anciens.

Dans le document Application de la RMN HRMAS en Cancérologie “Modèles métaboliques de classification des tumeurs cérébrales” (Page 126-131)