• Aucun résultat trouvé

Avant toute modélisation, il est nécessaire de calculer ou de mesurer un grand nombre de descripteurs différents, car les mécanismes qui déterminent l’activité d’une molécule ou une de ses propriétés sont fréquemment mal connus. Cependant, les descripteurs envisagés n’ont pas tous une influence significative sur la grandeur modélisée, et les variables ne sont pas toujours mutuellement indépendantes. De plus, le nombre de descripteurs, c’est-à-dire la dimension du vecteur d’entrée, détermine la dimension du vecteur des paramètres à ajuster. Si cette dimension est trop importante par rapport au nombre d’exemples de la base d’apprentissage, le modèle risque d’être surajusté à ces exemples, et incapable de prédire la grandeur (activité ou propriété) modélisée sur de nouvelles observations. L’ensemble de descripteurs doit donc être le plus petit possible mais le plus riche en informations possible.

Pour cette raison, des méthodes spécifiques doivent être utilisées afin de réduire le nombre de descripteurs aux descripteurs les plus informatifs. Plusieurs approches sont possibles pour résoudre ce problème :

– Remplacer les variables corrélées par de nouvelles variables synthétiques, obtenues à partir de leurs combinaisons,

– Sélectionner les variables les plus pertinentes.

Nous allons maintenant décrire brièvement les méthodes les plus fréquemment utilisées.

2.4.1 L’analyse en composantes principales

L’analyse en composantes principales (ou ACP ) [128], est une technique d’analyse de données utilisée pour réduire la dimension de l’espace de représentation des données. Contrairement à d’autres méthodes de sélection, celle-ci porte uniquement sur les variables, indépendamment des grandeurs (propriété ou activité) que l’on cherche à modéliser. Les variables initiales sont remplacées par de nouvelles variables, appelées composantes principales, deux à deux non corré- lées, et telles que les projections des données sur ces composantes soient de variance maximale. Elles peuvent être classées par ordre d’importance. Puisque les composantes principales sont des combinaisons linéaires des variables initiales, l’interprétation du rôle de chacune de ces composantes reste possible. Il suffit en effet de déterminer quels descripteurs d’origine leur sont le plus fortement corrélés. Les variables obtenues peuvent ensuite être utilisées en tant que nouvelles variables du modèle. Par exemple, la régression sur composantes principales [82] (ou

P CR) est une méthode de modélisation dont la première étape est une analyse en composantes

principales, suivie d’une régression linéaire multiple (voir le prochain paragraphe).

2.4.2 La méthode de régression des moindres carrés partiels

La régression des moindres carrés partiels [21,101] (MCP , ou P LS) est également une méthode statistique utilisée pour construire des modèles prédictifs lorsque le nombre de variables est élevé et que celles-ci sont fortement corrélées. Cette méthode utilise à la fois des principes de l’ACP et de la régression multilinéaire. Elle consiste à remplacer l’espace initial des variables par un espace de plus faible dimension, sous-tendu par un petit nombre de variables appelées «variable latentes», construites de façon itérative. Les variables retenues sont orthogonales (non corrélées), et sont des combinaisons linéaires des variables initiales. Les variables latentes sont obtenues à partir des variables initiales, mais en tenant compte de leur corrélation avec la variable (activité ou propriété) modélisée, contrairement aux variables résultant de l’analyse en composantes principales. Elles doivent ainsi expliquer le mieux possible la covariance entre les entrées et la sortie. Elles sont alors les nouvelles variables explicatives d’un modèle de régression classique, telles que la régression linéaire multiple.

2.2 Les études QSAR/QSPR

2.4.3 sélection de variables pertinentes

L’analyse en composantes principales a pour but de réduire les corrélations entre les variables, mais cette étape de réduction est indépendante de la grandeur modélisée. Or, les variables calculées n’ont pas nécessairement une influence sur cette grandeur. Il est nécessaire d’éliminer celles dont l’influence est inférieure à celle du bruit, et de sélectionner uniquement les plus pertinentes d’entre elles. Cette méthode permet d’envisager toutes les combinaisons possibles de descripteurs, mais sa mise en oeuvre est très lourde. Des approches alternatives ont donc été développées :

– La sélection progressive, qui consiste à incorporer les variables au modèle une à une, en sélectionnant, à chaque étape, la variable dont la corrélation partielle avec la grandeur modé- lisée est la plus élevée. À l’inverse, lors de l’élimination progressive, on débute la modélisation avec l’ensemble des descripteurs, en les éliminant un par un jusqu’à obtenir le meilleur jeu de composantes.

– La sélection pas à pas, qui est une combinaison des deux méthodes évoquées précédem- ment. Les variables sont incorporées une à une dans le modèle, par sélection progressive. Cependant, à chaque étape, on vérifie que les corrélations partielles des variables précédem- ment introduites sont encore significatives.

– D’autres méthodes plus efficaces à ces deux dont nous venons de les annoncées existent par exemple : la méthode du descripteur sonde, pour plus de détaille voir [92, 94].

Dans le suivant paragraphe nous donnerons l’idée de notre contribution dans les techniques de sélection de variables.

2.4.4 Le regroupement de plusieurs indices

En voyant ces techniques de la sélection des variables, on peut les relier à quelques travaux qu’on a pu le faire durant la durée de cette thèse. Ces travaux portent sur le regroupement de plusieurs indices topologiques en une seule définition. Donc, on a arrivé à donner une définition unifiée aux indices topologiques utilisant la distance, les degrés, ... en leurs définitions (voir le dernier chapitre).

L’idée de regroupement de plusieurs définitions des indices en une seule est presque la même chose que l’approche «Remplacer les variables corrélées par de nouvelles variables

synthétiques, obtenues à partir de leurs combinaisons», et donne le même résultat que

la technique d’analyse en composantes principales vu auparavant, sauf que pour nous, on les remplace au début des étapes des études QSAR/QSP R, par contre les méthodes de sélection de variables vu dans cette sous section les réduisent au cours de traitement et en tant

que possible. Donc, théoriquement on peut les regrouper en une seule définition ce qui facilite leur utilisation aux méthodes de QSAR/QSP R, et pratiquement, nous les rendrons parmi nos érgents perspectives. Nous allons arriver à ces regroupements, qui seront expliqués en détail dans le chapitre V de ce mémoire.