• Aucun résultat trouvé

Critères d’évaluation des modèles 75 !

Chapitre 1 : Données bibliographiques – Les méthodes in silico pour

3. Les approches (Q)SAR orientées vers la prédiction ADME-Tox 43 !

3.2. Aspects pratiques : élaboration de modèles (Q)SAR 46 !

3.2.4. Validation 72 !

3.2.4.2. Critères d’évaluation des modèles 75 !

Plusieurs critères statistiques permettent de définir les performances d’un modèle. Ces métriques sont différentes dans le cas d’une régression ou d’une classification et il en existe une grande variété. Pour cette raison, nous ne présentons ci-dessous que les métriques utilisées dans le cadre de cette thèse.

a)!Modèles de classification

Les performances d’un modèle de classification nous apportent les informations nécessaires permettant de juger la capacité du modèle à séparer deux classes de molécules. Elles sont estimées à partir des informations contenues dans une matrice de confusion (Figure 18) qui contient les comptes de vrais positifs (VP), de vrais négatifs (VN), de faux positifs (FP) et de faux négatifs (FN), déterminés en comparant les classes prédites par le modèle aux classes expérimentales du jeu de données.

Figure 18 : Exemple de matrice de confusion.

Cette matrice permet d’avoir accès à plusieurs critères de performance. Les premiers critères sont la sensibilité, la spécificité et la justesse. La sensibilité (Equation 5) traduit la capacité du modèle à prédire correctement les molécules actives, tandis que la spécificité

(Equation 6) représente la capacité du modèle à prédire correctement les molécules

inactives. La justesse (Equation 4) est un paramètre qui rend compte de la capacité du modèle à classer correctement les molécules actives et inactives. Il est également intéressant de savoir à quel point le modèle se trompe pour la prédiction d’une classe spécifique. La précision est le critère statistique qui traduit la justesse du modèle pour une classe, comme par exemple l’Equation 7 qui correspond à la précision du modèle pour la classe active. Chacun de ces paramètres fournit des valeurs comprises entre 0 et 1, avec une valeur de 1 lorsque les performances du modèle sont excellentes.

Critère de performance Equation

Equation 4 : Justesse (Acc) 45 + 46

45 + 46 + 75 + 76

Equation 5 : Sensibilité (Sens) 45

45 + 76

Equation 6 : Spécificité (Spe) 46

46 + 75

Equation 7 : Précision (Pre) 45

45 + 75

Equation 8 : Coefficient de corrélation de Matthews (MCC)

45 ∗ 46 − 75 ∗ 76

:(45 + 75)(45 + 76)(46 + 75)(46 + 76)

Table 2 : Critères de performance d’une classification.

Dans le cadre d’une classification, un jeu de données peut comporter des biais, comme par exemple la présence de classes déséquilibrées. Dans ce cas, un modèle peut disposer de performances indiquant qu’il est juste, même s’il est peu précis sur la classe minoritaire. De plus, la taille du jeu de données va impacter l’espace chimique couvert par le modèle de classification. De la sorte, un modèle peut disposer d’une justesse élevée, mais ce dernier peut ne pas être pertinent dû au faible espace chimique qu’il couvre. Ainsi, la tendance actuelle est d’utiliser des métriques combinant plusieurs informations contenues dans le modèle. La première métrique est issue de la courbe ROC (Receiver

Operating Characteristics), qui est une représentation visuelle couramment utilisée pour

illustrer le succès et l’erreur d’un modèle de classification. Cette courbe consiste à représenter le taux de vrais positifs (sensibilité) en fonction du taux de faux positifs (1 - spécificité). A partir de cette courbe, il est possible de définir l’aire sous la courbe (AUC) qui incorpore les paramètres de sensibilité et de spécificité. Ainsi, plus l’AUC est élevée, plus le modèle de classification est précis. L’avantage de ce critère est qu’il permet de prendre en compte la taille du jeu de données employé pour la création du modèle et la précision du modèle pour chacune des classes. Cependant, ce critère est sensible à l’équilibre des classes. Le coefficient de corrélation de Matthews est une deuxième

métrique permettant de définir la qualité d’un modèle de classification dichotomique. Comme représenté par l’Equation 8, ce critère de performance prend en considération l’ensemble des informations transmises par la matrice de confusion. Il correspond à un coefficient de corrélation entre les classes prédites et expérimentales et il varie entre -1 et 1. Un coefficient de -1 indique un modèle totalement erroné qui se trompe dans tous les cas, tandis qu’un coefficient de 1 indique un modèle parfait qui ne se trompe jamais. Ce coefficient présente l’avantage de prend en compte la taille du jeu de données et il est également peu sensible au déséquilibre des classes. Cependant, l’inconvénient de ce critère de qualité est qu’il est plus restrictif que ceux énoncés précédemment.

b)!Modèles de régression

Les performances d’un modèle de régression sont déterminées en comparant les valeurs prédites par le modèle aux valeurs expérimentales du jeu de données. Il existe plusieurs critères de qualité permettant de définir les performances d’une régression (Table 3).

Critère de performance Equation

Equation 9 : Coefficient de

détermination (R2) 1 −

∑ (+A=23 =− +?)> @

∑ (+A=23 =− +B)@

Equation 10 : Coefficient de détermination ajusté (R2adj)

{(D − 1) ∗ E@} − G

D − 1 − G

Equation 11 : Erreur moyenne absolue (MAE)

∑ |+A=23 =− +?|>

D

Equation 12 : Erreur quadratique

moyenne (RMSE) I∑ (+=− +?)>

@ A

=23

D

Table 3 : Critères de performance d’une régression.

Avec +? la valeur prédite de l’activité pour la molécule J ; +> =%la valeur expérimentale de l’activité pour la molécule J ; +B la moyenne des valeurs expérimentales d’activité ;%D%le

nombre de molécules dans le jeu de données considéré ;%G%le nombre de descripteurs.

Le coefficient de détermination (Equation 9) et l’erreur quadratique moyenne (Equation 12) sont les deux critères les plus utilisés. Le R2 représente la qualité de l’ajustement du

modèle de régression. Il varie entre 0 et 1, avec un coefficient de 1 lorsque la corrélation entre les prédictions et les valeurs observées est maximale. Ce critère peut être complété à l’aide du coefficient de détermination ajusté (R2

descripteurs (p) et le nombre de molécules (n) (Equation 10). Le RSME représente l’erreur interne du modèle. Plus sa valeur est faible, plus le modèle est performant. L’information transmise par le RMSE peut être analysée conjointement à l’erreur moyenne absolue (MAE) qui permet de refléter la dispersion de l’erreur dans le modèle (Equation 11) 189. Le

Q2 est un autre critère qui est spécifique à la validation interne décrite ci-après.

c)!Critère générique

Le score de Dixon 185 (nommé M

score dans ce projet de thèse) est un critère

applicable aussi bien pour les modèles de régression que les modèles de classification. L’objectif de ce score est de déterminer le pouvoir prédictif du modèle et s’il présente les caractéristiques du sur-apprentissage. Pour cela, le score cherche à exprimer la différence entre les performances du modèle sur le jeu d’apprentissage et sur le jeu de test, comme représenté par l’Equation 13.

KLMNOP = 5QPLQ∗ (1 − R5S**OPAQ=LLSTP− 5QPLQR)% Equation 13 : Score de Dixon.

Avec 5UVWU la performance du modèle sur le jeu de test et 5XGGYVDUJWWXZV la performance

du modèle sur le jeu d’apprentissage.

Un score compris entre 0,6 et 1 indique que le modèle n’est pas enclin au sur- apprentissage et qu’il est hautement prédictif. Ce score est très utile pour comparer plusieurs modèles de prédictions afin de ne sélectionner que les plus pertinents. Le calcul de ce dernier nécessite cependant une étape de validation interne et une étape de validation externe.