• Aucun résultat trouvé

Modèle de classification binaire en forêt aléatoire

2.4. Résultats et discussion

2.4.3. Modèle de classification binaire en forêt aléatoire

La Forêt Aléatoire (RF) est une méthode très polyvalente d'apprentissage automatique pour la classification et la régression qui repose sur un grand nombre d’arbre de décision indépendants36. Chaque arbre est créé par « bootstrap » des données d'origine en utilisant un sous-ensemble aléatoire de caractéristiques. Ensuite, les arbres individuels sont combinés à travers un processus de vote pour fournir une prédiction non biaisée. En contraste avec les arbres de décision unique, les forêts aléatoires ont une variance faible et très peu de biais. Considérant que les forêts aléatoires ont peu de paramètres à régler (nombre d'arbres, nombre de variables à chaque division), la méthode est facile à utiliser afin de produire un modèle raisonnablement rapide et efficace. Parmi les nombreuses applications potentielles, le RF est de plus en plus utilisé dans les sciences de la vie que ce soit en tant que classifieur ou comme méthode de régression non-linéaire37.

Dans notre application, le nombre d'arbres (paramètre ntree) a été fixé à 500. Outre une nette influence sur le temps global de calcul, les variations de ce paramètre n’ont pas influencé les résultats présentés. Le nombre de variables échantillonnées au hasard en tant que candidats à chaque division (paramètre mtry) a été systématiquement varié de deux à dix variables utiles, et chaque modèle a été répété cinq fois en faisant varier la graine aléatoire de départ. En utilisant une valeur de mtry égal à quatre, la modélisation des forêts aléatoires conduit à un modèle stable et robuste avec validation croisée par 5 (F-mesure = 0,776 ± 0,09) lorsqu'elle est appliquée à l'ensemble de la formation FDS (Tableau 2.2).

Table 2.2 Statistique du meilleur modèle RF généré avec le jeu FDS d’entrainement

Paramètre Apprentissage (n=300)a Test (n=100)b

Sensibilité 0.794 ± 0.017 0.728 ± 0.014

Precision 0.759 ± 0.010 0.745 ± 0.018

Specificité 0.747 ± 0.014 0.750 ± 0.025

Exactitude 0.771 ±0.009 0.739 ± 0.012

F-measure 0.776 ± 0.009 0.736 ± 0.010

a Moyenne et déviation standard des meilleurs modèles avec validation croisée (ntree=500, mtry = 4), répétés 5 fois avec différentes graines aléatoire.

74

b moyenne et déviation standard (ntree=500, mtry = 4) sur la prédiction des 100 interfaces du jeu FDS de test.

Le modèle est également bon pour prédire aussi bien les interfaces biologiques (sensibilité) que les interfaces cristallographiques (spécificité). Lorsqu'il est appliqué au jeu externe FDS de 100 PPIs, une baisse modérée de la précision (0,739 ± 0,012) et de la F-mesure (0,736 ± 0,010) est observée, mais le modèle est toujours robuste et prédit aussi bien les deux catégories de PPIs (sensibilité = 0,728 ± 0,014; spécificité = 0,750 ± 0,025; Tableau

2.2).

Pour être sûr que les données observées ne sont ni le résultat de surentraînement, ni de corrélation chanceuse, nous avons d'abord effectué un test de y-scrambling par l'assignation aléatoire de la variable dépendante (cristallographique ou biologique) à chacune des 400 interfaces protéine-protéine du jeu de données FDS. Comme prévu, la F-mesure des modèles RF correspondantes (mêmes paramètres que ci-dessus) à sensiblement chuté à une valeur moyenne de 0,515 et 0,502, lorsqu'il est appliqué au jeu d’entrainement et au jeu de test externe. Nous avons ensuite calculé 45 modèles RF (dix essais/modèle) dans lequel les valeurs des 45 descripteurs ont été itérativement permutées pour chaque entrée de l'ensemble de la formation. Pour l'ensemble des 45 descripteurs, les 300 valeurs de descripteur calculées précédemment ont été assignées au hasard (apprentissage). L'analyse des variations de la F-mesure moyenne pour l'ensemble du jeu d’apprentissage permet d'identifier les paramètres les plus importants parmi nos 45 descripteurs (Figure 2.3).

Sur les 45 descripteurs, 11 ont une réelle contribution au modèle général (> 1% diminution de la F-mesure) lorsque leurs valeurs respectives sont interverties. Les paramètres les plus importants sont clairement le nombre de pseudoatoms d'interaction (nPTS) et le pourcentage de contact hydrophobes très enfouis (descripteurs Hydro7-hydro10, Tableau

annexe S2.3).

Permuter les valeurs prises par le nombre total d’IPAs (nPTS) diminue la F-mesure globale du modèle de 1,6% (Figure 2.3). Alors que des contacts hydrophobes accessibles (paramètres Hydro1-Hydro6) ne contribuent pas vraiment à la F-mesure globale, les interactions hydrophobes plus enfouies (Hydro7, Hydro8, Hydro9, paramètres Hydro10) sont vraiment critiques. De manière remarquable, la permutation de valeur du paramètre Hydro10 (pourcentage des contacts hydrophobes 100% enfouis) diminue la F-mesure du modèle RF de près de 3% (Figure 2.3). En conséquence, les résidus du cœur de l’interface hydrophobes, définis comme enfouis d'au moins 95% ont récemment été décrits comme les principaux

75

déterminants de interfaces20. Des paramètres de moindre importance, mais toutefois encore utile, sont les pourcentages des autres interactions (les liaisons hydrogène, liaisons ioniques) très enfouies qui tendent à être plus élevés dans les interfaces biologiques que dans les contacts cristallins (Figure 2.3).

Figure 2.3 Influence de la permutation des valeurs de descripteur sur la F-mesure moyenne de dix modèles RF obtenus avec les meilleurs paramètres de validation croisée (ntree = 500, mtry = 4) et entrainés sur le jeu d’apprentissage FDS.

76

Permuter les valeurs de quatre des 45 paramètres (Hydro5, Aro8, Aro9, Hbond7) conduit à de légèrement meilleurs modèles RF. La plus forte baisse observée en F-mesure (mélange des valeurs de paramètre Hydro8) est seulement de 5% et est probablement expliquée par des effets compensatoires sur l'élimination du descripteur le plus critique. Pour démontrer cette hypothèse, nous avons supprimé le descripteur Hydro8 à partir du vecteur initial, recalculé un modèle RF sur l'ensemble des n-1 descripteurs (F-mesure de 0,705 sur l'ensemble de la formation) et permuté à nouveau itérativement les valeurs des descripteurs. Cette fois, le descripteur le plus critique est Hydro10 (ancien second descripteur le plus important) avec une diminution beaucoup plus forte de la F-mesure (11,3 ± 3,3%). Cette observation illustre parfaitement notre hypothèse et l'effet compensatoire du paramètre Hydro10 lors du retrait de l'influence du descripteur Hydro8.

La contribution plus faible du paramètre Hydro9 (nombre de IPAs hydrophobes enfouis entre 91,6% et 100%) par rapport à celle de Hydro8 (compte des IPAs hydrophobes enterrée entre 83,3% et 91,6%) et Hydro10 (nombre de 100% enterré hydrophobe IPAs) est intrigante et peut être expliquée par une distribution particulière des valeurs des paramètres lorsque l'on compare les contacts cristallins et les interfaces biologiquement pertinentes (Figure 2.4). Par conséquent, les distributions de Hydro8 et Hydro10 sont clairement différentes lors de l'examen des deux sous-ensembles d'interfaces (valeurs plus élevées du paramètre Hydro8 dans les contacts cristallographiques, valeurs plus élevées du paramètre Hydro10 dans les interfaces biologiques). Curieusement, les valeurs des paramètres Hydro9 sont distribuées de manière similaire (Figure 2.4), ce qui explique pourquoi ce paramètre contribue moins au modèle de validation croisée RF.

77

Figure 2.4 Distribution des paramètres Hydro8, Hydro9 et Hydro10 au sein du jeu d’apprentissage FDS (vert : interfaces biologiquement pertinentes, rouge : contacts cristallins)

78

Pour confirmer l'importance suggérée ci-dessus de certains paramètres d'interface (NPTs, Hydro7, Hydro8, Hydro9, Hydro10), nous avons classé les 300 interfaces d’apprentissage par valeur décroissante de chaque descripteur (45 listes d'entrées PDB classés par ordre décroissant pour le descripteur étudié). Nous avons ensuite procédé à une classification binaire des 300 entrées (cristallographiques, biologiques) dans les rangs obtenus dans ces 45 listes. Un descripteur parfait conduirait à une classification (ROC AUC = 1) dans laquelle toutes les 150 interfaces biologiques sont classés avant la première interface cristalline. En utilisant la classification ROC, on peut donc estimer l'importance relative de chaque descripteur pour discriminer les deux catégories. Toute classification à base de descripteur unique avec un AUC plus élevé que 0,7 (Figure 2.5) indique que ce descripteur est particulièrement efficace. Cette analyse confirme le rôle crucial des deux paramètres (nPTS, Hydro10) sur la discrimination des deux sous-ensembles d'interface.

Figure 2.5 Aire sous la courbe ROC pour une classification binaire (contact cristallin, interface pertinente) des 300 interfaces (FDS apprentissage) lors d’un classement décroissant de chacun des 45 descripteurs d’IChemPIC

79

Cette analyse complémentaire montre également que les valeurs observées pour trois descripteurs (Hbond, Hydro7 et Hydro8) sont en effet plus élevés pour les contacts cristallins (ROCscore <0,50) et contribuent donc également à discriminer les deux ensembles d'entrées PDB. Il est important de noter, qu’en utiliser l’aire d’interface comme descripteur ne conduit pas à une bonne classification binaire (ROCscore = 0,59) qui confirme que le jeu d’apprentissage FDS est très bien équilibrée par rapport à ce critère important qui a été négligé par le passé.