• Aucun résultat trouvé

L'apprentissage machine, appelé aussi apprentissage automatique, est déni comme une branche de l'intelligence articielle dont le but est de donner aux ordinateurs la possibilité "d'apprendre"

à partir de données sans être explicitement programmés pour la tâche apprise. Comme décrit dans (Kourou et al., 2015), chaque processus d'apprentissage comprend deux phases: (i) es- timation de dépendances inconnues dans un système à partir d'un certain jeu de données et (ii) utilisation de dépendances estimées pour prévoir de nouveaux résultats du système. On distingue deux types de problème en ML : l'apprentissage supervisé et non-supervisé. Ce qui distingue ces deux approches c'est la nature des données d'apprentissage et la probléma- tique à laquelle on veut répondre (Russell et al.,1995).

1.7.1 L'apprentissage non-supervisé

L'apprentissage non-supervisé est utilisé pour détecter des structures au sein de données de structure inconnue à l'aide d'algorithmes de regroupement (clustering). Ainsi, le clustering consiste à regrouper un ensemble d'échantillons qui ne portent aucune étiquette (appelé aussi label), de telle sorte que la similarité intra-groupe (similarité des échantillons d'un même groupe) soit plus élevée que la similarité inter-groupe (similarité des échantillons avec les échantillons des autres groupes). Il y a plusieurs méthodes permettant d'atteindre cet objec- tif, telles que partitionnement par la méthode des K (k-mean clustering) ou le classication hiérarchique (hierarchical clustering). Ce type d'approche a par exemple été utilisé pour identier des sous-groupes de cancer du sein cliniquement distinguables à partir de variants somatiques non-synonymes issus de données de WES (Vural et al.,2016).

1.7.2 L'apprentissage supervisé

L'apprentissage supervisé est, quant à lui, utilisé pour estimer la relation sous-jacente entre les données d'entrée et un résultat particulier à partir d'un ensemble de données d'apprentissage étiquetées. Si le résultat à prédire est une catégorie (appelée classe), on parle de classication, sinon on parle de régression.

L'objectif de la classication supervisée est de créer un modèle de classication (ou classi- eur) à même de prédire, avec le plus d'exactitude possible, la classe d'un échantillon inconnu de même type que les échantillons utilisés pour créer le modèle. En eet, durant la phase d'apprentissage, le modèle extrait les relations entre le label et les caractéristiques des échan- tillons du jeu d'apprentissage et "apprend" donc à distinguer les diérentes classes sur la base des dites relations (Russell et al.,1995).

Ainsi, un exemple connu de classication par ML est la classication du jeu de données Iris (Anderson, 1935; Fisher, 1936) pour laquelle l'objectif est d'apprendre à prédire la classe d'une iris inconnue parmi trois possibilités: setosa, versicolor et virginica, sur la base de ses longueur et largeur de sépale et pétale. Dans ce problème, setosa, versicolor et virginica sont

les classes à prédire, et les caractéristiques (features) de la eur sont les variables explicatives (ou prédictives).

Ce type d'approche peut donc être utilisé pour apprendre à prédire si un nouveau sujet dévelop- pera un cancer du sein ou non, sur la base des caractéristiques d'autres individus et correspond au type de problématique auquel nous nous intéressons dans le cadre de l'identication de nou- veaux marqueurs du risque génétique du cancer du sein. On trouve d'ailleurs de nombreux exemples d'application du ML dans la prédiction de traits complexes tels que le cancer du sein (Kourou et al.,2015;Asri et al.,2016). Nous nous sommes donc intéressés à la capacité des algorithmes de classication à modéliser les relations cachées entre les caractéristiques des échantillons (prol génétique issu du WES) et leur label (atteint ou non-atteint dans le cas du cancer du sein).

1.7.3 Processus de création d'un modèle de classication supervisée

Il existe de nombreux algorithmes de classication, chacun avec ses forces et ses faiblesses. Parmi les algorithmes les plus populaires, on compte la classication naïve bayésienne (Naïve Bayes classier), les machines à vecteur de support (Support Vector Machine - SVM), les réseaux de neurones articiels (Articial Neural Networks - ANN), les forêts d'arbres déci- sionnels (Random Forests), les arbres de décision (Decision Trees), la méthode des k plus proches voisins (K-Nearest Neighbours - KNN ) et la régression logistique (Logistic Regression. Les Figures1.12 à1.14 illustrent quelques-unes de ces approches.

Il n'existe aucun algorithme ultime qui convient le mieux à tous les problèmes d'apprentissage supervisé. C'est pourquoi il est essentiel de déterminer, pour chaque problématique, l'approche la plus appropriée. Une analyse comparative (benchmark) est souvent nécessaire avant d'amorcer le processus d'apprentissage à proprement parler. Il convient également de noter que cer- tains algorithmes nécessitent l'optimisation de certains paramètres internes appelés hyper- paramètres an de développer leur plein potentiel tels que le nombre d'arbres dans les forêts décisionnelles aléatoires, le nombre de voisins à utiliser dans le KNN ou encore le type de noyau dans les SVM. Pour garantir un apprentissage et une évaluation able, il est fonda- mental d'assurer l'étanchéité des données entre les diérentes étapes, i.e. analyse compara- tive, optimisation, apprentissage et évaluation. Ainsi, si la taille du jeu de données initial le permet, il est recommandé de fractionner ce dernier en trois jeux de données indépen- dants que l'on nomme ensemble d'apprentissage, validation et test. Les proportions recom- mandées sont généralement : 50%, 30% et 20% du jeu de données initial pour les ensembles d'apprentissage, validation et test respectivement. Le jeu d'apprentissage est destiné à l'étude comparative, l'optimisation et à l'apprentissage. L'étape d'optimisation (tuning) nécessite l'utilisation de l'ensemble de validation pour tester les diérents paramètres appliqués sur l'ensemble d'apprentissage. Enn, l'évaluation non-biaisée des performances du modèle -

Limite décisionnelle

rémission récidive

Figure 1.12: Illustration de l'utilisation des SVM avec noyau bayésien pour prédire la récidive du cancer du sein. La ligne bleue représente la limite décisionnelle (decision boundary) sur laquelle s'appuie le modèle pour prédire la classe. Adaptée de Coursera - Machine Learning de Stanford University.

nal, entraîné sur les ensembles d'apprentissage et de validation combinés, est eectuée sur l'ensemble de test (Chicco,2017). Il est également important de respecter dans la mesure du possible la proportion de chacune des classes au sein de diérents ensembles.

Chaque étape de l'apprentissage nécessite l'évaluation de la performance du modèle de classi- cation, appelé aussi classieur. Pour ce faire, il existe de nombreuses mesures de performance, chacune montrant un aspect diérent de la performance globale. Prenons un problème clas- sique de classication supervisée : classer un courriel comme nuisible ou légitime. La classe à prédire ne peut prendre que deux valeurs, on parle alors de classication binaire. Les cour- riels peuvent être alors divisés en deux classes diérentes, les positives : "nuisible" (P) et les négatives : "non nuisible" (N).

Considérons un classieur entraîné à identier ces courriels nuisibles. Pour chaque élément de l'ensemble de validation (ou de test selon l'étape du processus), le classicateur prédit l'une des deux classes. À la n, cette classication produit quatre types de résultats - deux types de prédiction correcte, vrai positif (True Positive - TP) et vrai négatif (True Negative - TN), et deux types de prédiction incorrecte, faux positif (False Positive - FP) et faux négatif (False Negative - FN). Un tableau 2x2 avec ces quatre résultats est appelé une matrice de confusion (Tableau1.2). Toutes les mesures d'évaluation de base de la classication binaire sont dérivées de cette matrice.

Taille de la tumeur Âge du patient Taux d’hémoglobine < 1.3 cm < 59.6 ans < 139 g/l rémission récidive oui oui oui non non non

Figure 1.13: Illustration de l'utilisation d'un arbre décisionnel basé sur 3 caractéristiques (la taille de la tumeur, l'âge du patient et le taux d'hémoglobine) avec noyau bayésien pour prédire la récidive du cancer du sein. Les feuilles de l'arbre indique la prédiction nale de l'arbre. Adaptée deIbrahim et al.

(2008)

Prédiction = pourriel ?

oui non

oui Vrais positifs (TP) = 95 Faux négatifs (FN) = 5 Réalité non Faux positifs (FP) = 3 Vrais négatifs (TN) = 97

Tableau 1.2: Illustration de la matrice de confusion obtenue suite à la classication de 200 courriels.

Parmi ces nombreuses mesures de performance, on distingue les mesures indépendantes du seuil tels que l'aire sous la Courbe Récepteur-Opérateur (Area Under the Receptor-Operator Curve - AUC) et celles qui en sont dépendantes tels que la précision (precision), l'exactitude (accuracy) ou le rappel (recall) :

- precision = T P

T P +F P, soit 95% pour l'exemple décrit dans le tableau1.2

- rappel = T P

T P +F N, soit 95% pour l'exemple décrit dans le tableau 1.2

- exactitude = T P +T N

T P +F P +F N +T N, soit 96% pour l'exemple décrit dans le tableau 1.2

Seuls les algorithmes utilisant des probabilités d'appartenance pour prédire une classe sont capables de produire le nécessaire au calcul d'une mesure indépendantes du seuil. Par défaut

Vote en fonction de 4 plus proches voisins (k = 4) Taille de la tumeur Âge du diagnostic ? rémission récidive

Figure 1.14: Illustration de l'utilisation la méthode des k plus proches voisins avec k = 4 et basé sur 2 caractéristiques (la taille de la tumeur, l'âge de diagnostic) pour prédire la récidive du cancer du sein. La prédiction nale est basée sur la classe majoritairement représentée parmi les k voisins du nouvel échantillon. Adaptée de http: // www. detowardsdatascience. com

le seuil de la probabilité d'appartenir à une certaine classe est de 0.5. La possibilité de faire varier ce seuil permet à un classieur de produire un spectre de prédiction pour un même échantillon en fonction ce seuil de décision. Le seuil peut d'ailleurs etre optimisé au même titre que les hyperparamètres. La Courbe Récepteur-Opérateur est le reet des capacités pré- dictives globales d'un classieur car elle est construite en mesurant la précision et le rappel du classieur pour diérentes valeurs de seuil de 0 à 1, cette mesure est une mesure globale indépendante du seuil. Plus la valeur de l'AUC est grande, meilleures sont les performances du modèle. Ainsi, comme l'illustre la Figure 1.15, deux modèles (les modèles C et D) peu- vent ponctuellement sembler identiques au regard de certaines mesures mais présentent des diérences de performance qui se reètent clairement dans la représentation de la CRO. Dans le cadre de mon projet d'analyse de données issues du séquençage d'exomes complets, présenté au chapitre 4 du présent document, nous avons utilisé trois mesures de performance : l'AUC, l'exactitude et le coecient de corrélation de Matthews (Matthews correlation coef- cient - MCC) (Matthews,1975).

Pour les étapes d'étude comparative et d'optimisation, nous avons choisi le MCC pour être en mesure d'évaluer les classieurs qui n'utilisent pas de probabilités pour produire leur prédic- tion - rendant alors impossible la construction de la CRO. Essentiellement, le MCC mesure

Modèle A : 95% Modèle B : 70% Modèle C : 65% Modèle D : 55% Aléatoire Rappel Précision Seuil à 50% 0 0,4 0,7

Figure 1.15: Illustration de diérents prols de courbes récepteur-opérateur

la corrélation entre les classications binaires observées et prédites; il retourne une valeur comprise entre -1 et +1. Un coecient de +1 représente une prédiction parfaite, 0 pas mieux que la prédiction aléatoire et -1 indique un désaccord total entre la prédiction et l'observation. Le MCC introduit par B.W. Matthews (Matthews,1975) pour évaluer la performance de la prédiction de la structure secondaire des protéines, est devenu une mesure de performance largement utilisée dans la recherche biomédicale (Yang et al., 2013;Song et al.,2006;Huang et al.,2010;Shi et al.,2010;Liu et al.,2013).

Nous avons mesuré l'exactitude, bien que cette mesure soit critiquée (Chicco, 2017), an de pouvoir comparer nos performances nales à celle d'autres classicateurs publiés dans la littérature qui utilisent cette mesure pour rapporter leur performance.

Documents relatifs