Principes et vocabulaire - Analyse quantitative des données de routine clinique pour le pronost

4.1.2 Les données d’entrée et la sortie d’un modèle de classification . . . 89 4.1.3 L’erreur de prédiction . . . 90 4.2 Préparation des données d’entrée . . . 91 4.2.1 Nettoyage . . . 91 4.2.2 Transformation . . . 92 4.2.3 Sélection et réduction des dimensions des données . . . 94 4.2.4 Gérer les jeux de données asymétriques . . . 95 4.3 Algorithmes de classification étudiés . . . 97 4.3.1 La régression logistique . . . 98 4.3.2 Les forêts aléatoires . . . 98 4.3.3 Les k plus proches voisins . . . 100 4.3.4 Les séparateurs à vastes marges . . . 101 4.3.5 Les réseaux de neurones . . . 101 4.4 Stratégie d’apprentissage . . . 103 4.4.1 Du jeu de données à la validation de la prédiction . . . 103 4.4.2 La validation croisée . . . 104 4.4.3 Ajuster les hyperparamètres . . . 105 4.5 Estimer l’erreur de prédiction . . . 106 4.5.1 Calcul de la fiabilité . . . 106 4.5.2 Courbe de calibration . . . 107 4.5.3 Courbe ROC . . . 107 4.5.4 Précision et rappel . . . 110

Dans la partie précédente, nous avons vu comment caractériser des lésions et trouver des relations entre les variables. Nous souhaitons à présent aller au delà des modèles d’inférence statistique et créer des modèles capables de fournir des prédictions sur des données inconnues. Pour apporter une réponse aux problématiques cliniques qui nous ont été posées, nous allons d’abord définir les outils qui composent notre chaîne d’apprentissage, du traitement des données à l’analyse de la prédiction.

4.1 Principes et vocabulaire

Avant de décrire nos choix d’implémentation, les concepts utilisés dans ce chapitre sont définis dans cette section.

4.1.1 L’apprentissage statistique

D’après Arthur Samuel, pionnier de l’apprentissage statistique (Machine Learning, défini en 1959 par [Sam63]), le ML est une catégorie de modèles mathématiques qui permet à un ordinateur d’apprendre à partir de données d’entrée et de s’améliorer sans être programmé explicitement. Autrement dit (Fig. 4.1), un input est fourni à un algorithme d’analyse qui va donner une prédiction (output ) et de nouvelles données d’entrée permettront de le mettre à jour.

Figure 4.1 – L’apprentissage statistique est parfois considéré comme une boîte noire. On distingue deux grands principes en ML : l’apprentissage supervisé et le non supervisé (Fig. 4.2).

En apprentissage supervisé, les données d’entrée fournies au système sont labellisées : chaque observation vient avec sa prédiction réelle étiquetée. L’objectif de la phase d’entrai-nement est de trouver une fonction de modélisation qui relie suffisamment bien l’input (x) et l’output (Y ) des données connues. La phase de test effectue la prédiction de l’output d’une nouvelle donnée à partir du modèle entraîné.

Le ML supervisé est lui-même divisé en deux catégories.

— la Classification, où l’output est une catégorie. Ex : le grade d’une tumeur.

— la Régression, où l’output est de type continu. Ex : le temps écoulé avant la rechute d’un patient.

Lorsque les données d’entrée n’ont pas d’étiquette, on fait de l’apprentissage non super-visé : on cherche les relations entre les observations sans a-priori. Ce type d’algorithme est par exemple utilisé pour le clustering ou dans les systèmes de recommandation.

Figure 4.2 – Les catégories d’approches en IA et en machine learning.

Quand les données sont acquises de façon séquentielle, voire en temps réel, on passe au ML par renforcement. Des agents apprennent seuls en interaction avec leur environnement en ayant pour unique a-priori un système de récompenses et de pénalités à maximiser/minimiser. Nos études sont des problèmes supervisés de classification binaire, c’est à dire à seulement deux catégories. L’étude sur la rechute du pancréas cherche à séparer les patients qui rechutent de ceux qui ne rechutent pas (cf. section 3.2). L’étude sur les sarcomes de haut grade vise à prédire qui aura une bonne réponse ou un mauvaise réponse à un traitement donné (cf. section 5.1.4).

En ce qui concerne l’étude sur la rechute métastatique du sein, il s’agit à la base d’une étude de régression consistant à trouver la durée de survie sans rechute métastatique des patients. Mais la classification permet de simplifier le problème en séparant les patients à rechute longue et courte grâce à un seuillage empirique (cf. section 6.1).

Sauf si précisé, les explications données dans le reste du présent chapitre concerneront donc les modèles de classification binaire.

4.1.2 Les données d’entrée et la sortie d’un modèle de classification

Un même jeu de données contient souvent des variables de natures différentes [Wan17] : continues, binaires, catégorielles, ordinales, graphes, cartes ou images ... Il peut s’agir de données indépendantes ou non, comme les séries en temps ou les séries spatiales. Quel que soit leur type, les entrées des modèles sont fournies sous la forme d’une matrice de variables. La sortie d’un modèle de classification est une variable discrète. Lorsqu’elle est binaire, elle est encodée en fonction de la présence ou de l’absence de l’évènement étudié (observation positive ou négative). On parle de jeu de donnée équilibré lorsque la distribution des deux classes est similaire et de jeu déséquilibré dans le cas contraire.

4.1.3 L’erreur de prédiction

Un modèle de prédiction n’est jamais parfait et présente toujours des différences non nulles entre la valeur prédite et la valeur réelle. L’erreur de prédiction est de la forme :

erreur totale = biais + variance + erreur incompressible

Le biais est la part de l’erreur totale due à un modèle trop simplifié. Par conséquent, un modèle avec un biais élevé est trop simple et on considère que les paramètres choisis pour décrire les observations ne suffisent pas à modéliser leurs relations. L’erreur de prédiction est grande pour le jeu d’entrainement et le jeu de test.

A l’inverse, un modèle qui a une variance élevée est un modèle trop complexe pour pouvoir généraliser correctement ses prédictions à de nouvelles données. Il est parfaitement spécialisé sur le jeu d’entrainement mais fonctionne mal sur le jeu de test.

Il faut donc trouver un compromis afin de modéliser de façon pertinente et précise les données d’entrainement sans tomber dans la sur-interprétation du bruit (les outliers). En d’autres termes, on cherche à minimiser le sous-apprentissage (lié au biais) comme le sur-apprentissage (lié à la variance).

Certains type d’algorithmes de ML seront plus ou moins sujet à l’un ou l’autre pro-blème (voir Juntu et al. qui propose une méthodologie de comparaison de sept algorithmes [Jun+11]). On évalue leurs performances en traçant l’erreur du modèle sur le jeu d’entrai-nement et sur celui de test en fonction de la quantité de données d’entraid’entrai-nement : c’est la courbe d’apprentissage (Fig. 4.3)).

Figure 4.3 – Représentation schématique de trois modèles de classification à deux variables (en haut) et courbes d’apprentissages associées (en bas). À gauche, un cas de

sous-apprentissage, à droite de sur-apprentissage, au milieu un compromis apte à généraliser tout en restant assez complexe pour modéliser le comportement des données.

Le biais est important lorsque les scores d’entrainement et de test convergent mais restent faibles : l’augmentation de la quantité de données n’améliore pas vraiment la performance du

modèle (Fig. 4.3, à gauche). Il est conseillé dans ce cas d’augmenter le nombre de paramètres pour complexifier le modèle ou de diminuer son terme de régularisation. Si l’écart entre l’erreur d’entrainement (faible) et celle de test se réduit à mesure de l’ajout de données, c’est qu’il y a sur-apprentissage (Fig. 4.3, à droite). La variance pourrait diminuer en augmentant la quantité de données, en simplifiant le modèle ou en augmentant la régularisation des paramètres.

La courbe d’apprentissage est un outil important pour évaluer la quantité de données nécessaires à la construction d’un modèle d’apprentissage fiable.

Dans le document Analyse quantitative des données de routine clinique pour le pronostic précoce en oncologie (Page 90-94)