• Aucun résultat trouvé

Arbres de décision pour le classement et la prédiction des coefficients

2. METHODES

2.4. Arbres de décision pour le classement et la prédiction des coefficients

2.4.1. Principe général de construction des arbres

Deux types d’arbres sont construits :

• les arbres de classification destinés à la classification des molécules selon des paramètres structuraux similaires, sans prendre connaissance des coefficients de diffusion (sans apprentissage) ;

• les arbres de régression consacrés à la prédiction des coefficients de diffusion, impliquant un apprentissage du coefficient de diffusion.

Ces arbres de classification et de régression sont également définis comme des algorithmes ACER. Comme les algorithmes ACER génèrent une classification hiérarchique des données, ils sont aussi utilisés pour définir des homologies entre les molécules en fonction de leur capacité à diffuser.

Les procédures ACER sont une technique non paramétrique utilisées pour modeler des données ; elles sont totalement distinctes dans la forme mais ont pour objectif similaire de conduire à diverses formes de régression non linéaire. Avec un avantage sur les techniques paramétriques, les résultats des algorithmes ACER sont non déterministes (aucune expression analytique n’est requise) et ils peuvent manipuler des variables aussi bien continues que catégoriques. Comme ils sont construits de façon distincte, ils apportent un bon compromis entre compréhensibilité et exactitude, ainsi qu’une grande efficacité statistique et une modularité [Loh et Vanichsetakul, 1988]. De plus, l’algorithme de cloisonnement récursif mime une approche cognitive très classique par laquelle l’information est acquise de façon séquentielle au travers d’une série de questions, chaque question dépendant de la réponse à la question précédente, et chaque question maximisant localement l’information attendue en fonction de l’objectif (ici la classification de molécules ou de paramètres prédictifs du coefficient de diffusion).

La figure III.10 illustre le principe général de construction d’un arbre. Au niveau 1, au sommet, une seule famille regroupe toutes les molécules, quelles que soient les valeurs de leurs paramètres structuraux (p et q). Une valeur limite (x1) d'un paramètre (p) permet de séparer les molécules en 2 familles, ce qui conduit à un niveau 2. Lorsque le critère p < x1 est vérifié, un embranchement est dessiné sur la gauche. Au contraire, lorsque ce critère n'est pas

vérifié, un embranchement est dessiné sur la droite. Chaque critère forme ainsi un nœud et deux embranchements. De nouveaux critères permettent de définir de nouveaux embranchements et d'augmenter le nombre de niveaux (ou nombre de classes). Un nombre croissant de familles est ainsi créé, chaque famille comportant de moins en moins de molécules. La variance est minimisée en augmentant le nombre de classes. Plus de détails sur les algorithmes consacrés aux arbres de décision peuvent être trouvés chez Breiman et al.

[1984].

Figure III.10 : Principe général de construction d’un arbre.

2.4.2. Descripteurs moléculaires

Les paramètres structuraux utilisés dans la construction des arbres correspondent à des descripteurs moléculaires (ou paramètres structuraux) des molécules testées. Trois descripteurs moléculaires sont utilisés pour rendre compte de la topologie des molécules : le volume de Van-der-Waals (VVdW), le rayon de giration (ρ) et un facteur de forme adimensionné (Iz/x). Leur évaluation est envisagée après que chacune des molécules considérées est été relaxée puis orientée suivant ses principaux axes.

Le volume de Van-der-Waals, noté VVdW, est déterminé à partir d’une tessellation numérique du volume interne, à l’intérieur de son enveloppe de Van-der-Waals. Les calculs sont en accord avec la procédure simplifiée de sommation définie par Zhao et al. [2003].

Le rayon de giration ρ d’une molécule comportant n atomes est calculé à partir de l’équation (III.22) :

2 2

0 1..

i i n

x x

ρ = r −r = (III.22)

i=1..n est l’opérateur moyenne sur l’ensemble des atomes de la molécule considérée, xri et xr0 sont les vecteurs positions respectivement d’un atome i et du centre de gravité de la molécule. Le rayon de giration est en relation avec la taille d’une molécule sphérique équivalente ayant un moment d’inertie similaire.

Le facteur de forme, adimensionné, noté Iz/x, est défini comme le rapport des moments d’inertie suivant les axes d’inertie minimale et maximale, par rapport au centre de gravité, respectivement z et x. Pour les molécules pratiquement sphériques, ce rapport est proche de 1, tandis qu’il est supérieur à 1 pour les molécules linéaires. A la différence de ρ qui compare la forme de la molécule à une sphère, Iz/x évalue la similitude de la forme de la molécule avec une géométrie en bâtonnet. Puisqu’en mécanique classique le moment d’inertie relatif à un axe est relié à l’énergie cinétique de rotation autour de l’axe considéré, ce rapport Iz/x compare également la capacité (probabilité en mécanique statistique) d’une molécule à effectuer des mouvements de rotation autour de ses axes d’inertie minimale et maximale.

2.4.3. Procédures ACER (Arbres de Classification Et de Régression)

La procédure ACER utilisée dans ces travaux est similaire à celle décrite par Breiman et al. [1984]. Elle conduit à diviser de façon récursive une population de molécules (arbres de classification) ou de coefficients de diffusion (arbres de régression) en des sous-populations définies par leurs descripteurs moléculaires 3D en fonction de leur facteur de risque (du à de mauvaises classifications ou à des erreurs de prédiction). La structure caractéristique d’un arbre est atteinte par une division pas à pas d’une population à un nœud en branches dichotomiques, de sorte que les sous-populations soient le plus homogène possible à

l’intérieur d’elles et le plus hétérogène possible entre elles, au regard de critères spécifiques.

Pour les arbres de classification, le critère est basé sur l’index de Gini et est calculé comme une fonction impure i(t). Pour chaque nœud parent t, qui contient des données appartenant à un nombre de classes Jt = 2, i(t) est définie comme : A chaque nœud, les procédures ACER utilisent une recherche exhaustive sur l’ensemble des variables possibles pour identifier le clivage qui maximise la diminution en impuretés. Une branche cesse de croître quand l’impureté ne peut plus diminuer davantage.

En ce qui concerne la régression, log(D) a été choisi comme variable dépendante en raison de la grande dispersion des valeurs de D. Le processus de clivage en deux voies est piloté par un critère d’erreur des moindres carrés, noté Δe( )t s, . A chaque nœud parent t, le meilleur clivage est celui qui maximise une fonction similaire à l’équation (III.23) :

( ), ( ) ( ) 2

( )

où s est le clivage testé et e(t) est l’erreur moyenne carrée au nœud parent t. L’erreur moyenne carrée à un nœud j, notée e(j), comportant un nombre Nj de données, est calculée comme suit :

Il a été vérifié que la petite dimension de l’espace des paramètres de prédiction (3) empêche la procédure de recherche illimitée de sélectionner de préférence la variable qui génère le plus de clivages [Loh et Shih, 1997]. La construction de l’arbre est interrompue quand il n’y a plus de données permettant de faire des choix judicieux. Le critère d’arrêt repose sur un test d’homogénéité de la variance. Cette stratégie connue comme une "pré-taille" de l’arbre évite un trop fort ajustement / apprentissage dans l’arbre complet initial.

Pour un jeu de molécules donné, le nombre de nœuds terminaux (ou classes) dans l’arbre complet est par conséquent inférieur au nombre de valeurs de log(D) (ou molécules).

N’importe quel chemin depuis le nœud supérieur de l’arbre vers une feuille (sous-partition) peut être vu comme une connexion de tests logiques sur les paramètres de prédiction (chemin de décision). Pour chaque feuille terminale de l’arbre de régression, une valeur constante de la variable cible est prédite. Pour un même jeu de molécules, la structure obtenue de l’arbre complet est généralement affligée d’un sur-ajustement (c'est-à-dire qu’elle

"justifie" des divergences aléatoires entre des molécules qui ne doivent probablement pas être des particularités d’une grande population de molécules ou données), la structure finale est déduite de simplifications (réduction de taille) de l’arbre de décision considéré.

Afin de faire un compromis entre le nombre de partitions et l’efficacité de l’arbre à prédire, le nombre de nœuds est réduit par une taille de l’arbre complet sur la base de résultats de validation croisée. La validation croisée repose sur des validations successives (10 itérations) de l’arbre ajusté sur des sous-échantillons indépendants (échantillons aveugles).

L’échantillon d’apprentissage initial est coupé en 10 sous-échantillons choisis de façon aléatoire mais de taille approximativement égale. Pour chaque sous-échantillon, l’erreur de prédiction est évaluée en partant d’un arbre ajusté à partir de 90 % des données restantes.

L’arbre optimal est un arbre taillé dont l’erreur de simplification est du même ordre de grandeur que l’erreur de validation croisée.

Pour un arbre de régression donné, une estimation plus efficace de l’erreur de prédiction est obtenue par une procédure de bootstrap. La technique du bootstrap implique de choisir des échantillons de façon aléatoire avec remise (c'est-à-dire qu’une donnée peut apparaître plusieurs fois dans un même échantillonnage bootstrap) et de les ajuster en fonction des données disponibles. Le nombre d’observations dans chaque échantillon bootstrap égale le nombre de données dans l’échantillon d’apprentissage. Une gamme étendue des erreurs de prédiction entre 1000 échantillons est utilisée pour établir l’incertitude sur les coefficients de détermination (r2).