Domaines d’application - Méthodes statistiques

Chapitre 1: Approches de base, développement, validation et application des méthodes

5. Méthodes statistiques

5.2. Domaines d’application

Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans la plupart des disciplines : économie, sociologie, psychologie, agronomie, biologie, médecine, chimie, physique, géologie, sciences de l‘ingénieur, sciences de l‘information et de la communication, etc...

5.3. Méthodes statistiques

Faire de la statistique suppose que l‘on étudie un ensemble d‘objets équivalents sur lesquels on observe des caractéristiques appelées « variables ». Dans notre cas, les objets (ou individus) sont les molécules et les variables sont les descripteurs moléculaires précédemment décrits dans ce chapitre.

Après le recueil des descripteurs, la démarche statistique consiste à traiter et interpréter les informations recueillies sur ces molécules. Cette démarche comporte deux grandes classes : la statistique descriptive et la statistique décisionnelle ou prédictive.

5.3.1. La statistique descriptive

La statistique descriptive (appelée aussi l‘analyse des données), a pour but d‘extraire le maximum de l'information contenue dans les données d‘une façon efficace, simple et compréhensible. Elle permet de résumer les caractéristiques essentielles du phénomène étudié et de suggérer des hypothèses pour des études plus sophistiquées. Elle utilise pour cela des représentations de données sous forme de graphiques, de tableaux et d'indicateurs statistiques. Elle est utilisée aussi pour diviser et classer les données dans des classes homogènes.

Dans l‘ensemble de nos travaux, nous avons principalement utilisé l‘analyse en composantes principales (ACP) comme technique pour l‘analyse des données, et la méthode du partitionnement en k-moyennes (ou k-means en anglais) et la classification ascendante hiérarchique (CAH) pour la classification des données.

a. L’analyse en composantes principales

L‘analyse en composantes principales (ou ACP) [88-89], est une méthode très efficace d‘analyse de données quantitatives utilisée pour réduire la dimension de l‘espace de représentation des données. Les variables initiales sont remplacées par de nouvelles variables,

appelées composantes principales, deux à deux non corrélées, et telles que les projections des données sur ces composantes soient de variance maximale.

Considérons un ensemble de M observations, représentées chacune par N données. Ces observations forment un nuage de M points dans . Le principe de l'ACP est d'obtenir une représentation approchée des variables dans un sous-espace de dimension K plus faible, par projection sur des axes bien choisis ; ces axes principaux sont ceux qui maximisent l'inertie du nuage projeté. La maximisation de l'inertie permet de préserver au mieux la répartition des points. Par conséquent, les N composantes principales peuvent être représentées dans l'espace sous-tendu par ces axes, par une projection orthogonale des N vecteurs d'observations sur les K axes principaux.

Ces composantes peuvent être classées par ordre d‘importance. Puisqu‘elles sont des combinaisons linéaires des variables initiales, l‘interprétation du rôle de chacune de ces composantes reste possible. Il suffit en effet de déterminer quels descripteurs d‘origine leur sont le plus fortement corrélés. Les variables obtenues peuvent ensuite être utilisées en tant que nouvelles variables du modèle.

L‘analyse en composantes principales est généralement utilisée pour visualiser et analyser rapidement les corrélations entre les variables et pour visualiser et analyser les observations initialement décrites par les variables sur un graphique à deux ou trois dimensions, construit de manière à ce que la dispersion entre les données soit aussi bien préservée que possible...

Les limites de l‘ACP viennent du fait que c'est une méthode de projection, et que la perte d'information induite par la projection peut entraîner des interprétations erronées.

b. Classification des données

Les méthodes de classification, aussi appelées de partition des données, sont appliquées à l‘analyse de bases de données et à la classification des composés. Ces méthodes permettent de grouper des objets (observations ou individus) dans des classes (clusters) de manière à ce que les objets appartenant au même cluster soient plus similaires entre eux qu‘aux objets appartenant aux autres clusters et partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique). En général, ces méthodes sont divisées en techniques non-hiérarchique et hiérarchique, les dernières étant elles-mêmes subdivisées en descendante ou ascendante. Les classifications non-hiérarchiques organisent les composés en un nombre initial défini de clusters disjoints, qui sont la plupart du temps effectués par des analyses du plus proche voisin dans l‘espace des descripteurs [90].

Dans l‘ensemble de nos travaux, l‘analyse de bases de données de composés chimiques s‘est effectuée soit à l‘aide de la méthode de k-means [91] qui représente l‘approche non-hiérarchique la plus courante, soit par la méthode ascendante non-hiérarchique CAH [92].

Dans la méthode de classification k-means, deux molécules sont inclues dans le même cluster si elles partagent un nombre spécifique minimum prédéfini de plus proches voisins

[90]. Même si cette méthode a été très usuelle, l‘approche CAH a démontré des résultats plus constants et des clusters plus homogènes [93].

- La classification ascendante hiérarchique

La classification ascendante hiérarchique (CAH) est une méthode de classification qui consiste à regrouper une collection d‘objets (individus) en groupes (sous-ensembles), de telle sorte que les objets au sein de chaque groupe sont liés les uns aux autres que les objets dans les différents groupes [94]. Le principe de cette méthode est simple, on commence par le calcul de la similarité entre les N objets, puis on regroupe les deux objets dont le regroupement minimise un critère d'agrégation donné, créant ainsi une classe comprenant ces deux objets. On calcule ensuite la similarité entre cette classe et les N-2 autres objets en utilisant le critère d'agrégation. Puis on regroupe les deux objets ou classes d'objets dont le regroupement minimise le critère d'agrégation. On continue ainsi jusqu'à ce que tous les objets soient regroupés.

Ces regroupements successifs produisent un arbre de classification, appelé dendrogramme, dont la racine correspond à la classe regroupant l'ensemble des individus. Ce dendrogramme représente une hiérarchie de partitions. On peut alors choisir une partition en tronquant l'arbre à un niveau donné, le niveau dépendant soit des contraintes de l'utilisateur (l'utilisateur sait combien de classes il veut obtenir), soit de critères plus objectifs.

- Le partitionnement k-moyennes

Le partitionnement k-moyennes (k-means) est une méthode non hiérarchique de classification qui peut être utilisée lorsque le nombre de groupes présents dans les objets ou les cas est connu. En général, la méthode k-means produit exactement k différents clusters.

Dans l‘ensemble de nos travaux, ces deux méthodes de classification sont utilisées pour la division/le regroupement des données en « ensemble d‘apprentissage » et « ensemble de test », le premier ensemble est utilisé pour la formation des modèles obtenus par les méthodes statistiques et le deuxième pour la validation externe. De telle sorte que dans chaque cluster/groupe des molécules obtenues, on choisit au hasard un composé pour l'ensemble de

test (test set) et les autres composés du même cluster pour l‘ensemble de formation (training set) [95]. (Voir 1.3.2)

5.3.2. La statistique décisionnelle ou prédictive

Contrairement à la statistique descriptive, dans ce type des statistiques les probabilités jouent un rôle fondamental. Cette statistique a pour but de prendre des décisions et de faire des prévisions au vu des observations. En général, il faut pour cela proposer des modèles probabilistes du phénomène aléatoire étudié et savoir gérer les risques d'erreurs. Dans notre cas, il faut rechercher une relation approximative entre une activité ou propriété et plusieurs variables quantitatives (descripteurs moléculaires), la forme de cette relation peut être linéaire ou non linéaire.

Dans l‘ensemble de nos travaux, nous avons utilisé la régression linéaire multiple MLR, la régression non linéaire multiple MNLR, la régression des moindres carrés partiels PLS et les réseaux de neurones artificiels ANN pour la construction des modèles RQSA/RQSP.

5.3.2.1. La régression linéaire multiple

La régression linéaire multiple MLR est l'une des méthodes de modélisation les plus populaires grâce à sa simplicité d'utilisation et facilité d‘interprétation. L'avantage important de la régression linéaire multiple est qu‘elle est très transparente, puisque l'algorithme est disponible, et que les prédictions peuvent être réalisées facilement. Dans la plupart de nos travaux, cette méthode a été utilisée aussi pour la sélection des descripteurs moléculaires utilisés dans les autres méthodes statistiques [96].

La méthode MLR se base sur l‘hypothèse que la propriété y dépend linéairement des différentes variables (les descripteurs) , selon la relation :

∑

Avec : est la variable dépendante (à expliquer ou à prédire) ; sont les variables indépendantes (explicatives) ; est le nombre de variables explicatives ; est la constante de l‘équation du modèle ; sont les coefficients de descripteurs dans l‘équation du modèle ;

La taille de ces coefficients indique le degré d'influence des descripteurs moléculaires correspondants sur l‘activité/propriété cible. Un coefficient positif indique que le descripteur moléculaire correspondant contribue positivement à la cible, tandis qu'un coefficient négatif suggère la contribution négative.

– La MLR progressive ascendante, qui consiste à incorporer les variables au modèle une à une, en sélectionnant, à chaque étape, la variable dont la corrélation partielle avec la grandeur modélisée est la plus élevée. À l‘inverse, lors de MLR progressive descendante, on débute la modélisation avec l‘ensemble des descripteurs, en les éliminant un par un jusqu‘à obtenir le meilleur jeu de composantes, c'est-à-dire l‘obtention d‘un modèle valide (voir la partie validation) ayant la bonne corrélation.

– La MLR pas à pas (Stepwise), est une combinaison des deux méthodes évoquées précédemment. Les variables sont incorporées une à une dans le modèle, par sélection progressive. Cependant, à chaque étape, on vérifie que les corrélations partielles des variables précédemment introduites sont encore significatives.

5.3.2.2. La régression non linéaire multiple

La régression non linéaire multiple MNLR est une méthode non linéaire (exponentielle, logarithmique, polynomiale, …) qui permet de déterminer le modèle mathématique qui permet d'expliquer non-linéairement au mieux la variabilité d'une propriété ou d‘une activité y en fonction des descripteurs moléculaires. Dans l‘ensemble de nos travaux nous avons utilisé le modèle polynomial en nous basant sur les descripteurs proposés par le modèle linéaire qui seront élevés à la puissance 2 selon l‘équation suivante :

∑

5.3.2.3. La régression des moindres carrés partiels PLS

La régression des moindres carrés partiels PLS, est une généralisation de la régression linéaire multiple, elle peut être utilisée lorsque le nombre de descripteurs est élevé et que ceux-ci sont fortement corrélées [97, 98]. Cette méthode utilise à la fois des principes de l‘ACP et de la régression multilinéaire. Elle permet de trouver par une transformation linéaire, les axes qui représentent au mieux les données dans l‘espace. En d‘autres termes, cette méthode va permettre de trouver les axes qui expliquent au mieux la dispersion du nuage de points. Si les données sont représentées en fonction de n descripteurs, la PLS va donc permettre de trouver au maximum n axes classés en fonction de la variance qu‘ils représentent. Cette méthode consiste à remplacer une matrice des données prédictives X

comprenant n lignes et m colonnes, par une nouvelle matrice, dérivée de X, qu‘on désigne par T, comprenant le même nombre de lignes (molécules) que X, mais un nombre de colonnes k très inférieur à m. On impose, de plus, que les colonnes de la matrice T soient des combinaisons linéaires des variables d‘origine. Sous forme matricielle, la relation s‘écrit :

T = XW

Avec : est la matrice des coefficients définissant les combinaisons linéaires ; est la nouvelle matrice dont les colonnes forment des « variables artificielles », obtenues par combinaison linéaire des variables d‘origine ;

Après cette transformation, la régression linéaire multiple est appliquée sur le tableau T à la place de X.

5.3.2.4. Les réseaux de neurones artificiels ANN - Les neurones biologiques :

Le cerveau humain est constitué d'un très grand nombre de cellules nerveuses appelées neurones, environs 100 milliards, avec 1000 à 10000 synapses (connexions) par neurone [99]. Le neurone biologique (Figure 5) est une cellule nerveuse spécialisée dans le traitement de l'information (signaux électriques). Il est constitué de trois composantes principales :

Les dendrites : fines prolongations du corps cellulaire entourant celui-ci en une sorte de filet

qui capte les oscillations et les informations issues d‘autres cellules nerveuses et les transmettent au corps cellulaire.

Le corps cellulaire : qui a pour fonction de recevoir les excitations, les intégrer et les

transmettre ou non. Il contient également le noyau qui assure la vie du neurone.

L’axone : Les axones conduisent les signaux électriques de la sortie d'un neurone vers l'entrée

à un autre neurone. Le point de contact entre l'axone d'un neurone et la dendrite d'un autre neurone s'appelle la synapse [100,101].

Figure 5 : Le neurone biologique

Au niveau du neurone se produit une intégration (sommation) des signaux reçus et si cette somme dépasse un certain seuil le neurone émet à son tour un signal électrique vers d'autres neurones. Ce signal peut renforcer ou diminuer l'activité des neurones qui le reçoivent selon que les synapses soient excitatrices ou inhibitrices [102].

- Les réseaux de neurones artificiels ANNs Historique :

Les réseaux de neurones étaient à l'origine une tentative de modélisation mathématique simplifiée des systèmes nerveux biologiques, initiée dès 1943 avec Mc-Culloch et Pitts qui inventent le premier neurone formel [103, 104]. Ce n‘est qu‘en 1958 qu‘apparaît le premier réseau de neurones artificiels grâce aux travaux de Rosenblatt [105] qui a développé le modèle du Perceptron. Ce dernier est constitué d‘une couche de neurones d‘entrée appelée couche de perception (sert à recueillir les entrées) et d‘une couche de neurones de sortie appelée couche de décision. Ce réseau est le premier système artificiel présentant la capacité d‘apprendre par l‘expérience. En 1960, Widrow et Hoff [106] ont proposé un modèle inspiré du perceptron, le modèle de l'Adaline (Adaptive Linear Element). Ce dernier sera, par la suite, le modèle de base des réseaux de neurones multicouches.

Néanmoins, en 1969, Minsky et Papert [107] démontrent dans leur livre « Perceptrons » les limites des réseaux de neurones à une seule couche, en particulier, l‘impossibilité de traiter les problèmes non linéaires par ce modèle. Il faut attendre 1982 et les travaux de Hopfield

[108] pour susciter à nouveaux l‘intérêt des scientifiques en proposant les neurones associatifs. Dans le même temps, Werbos [109] conçoit l‘algorithme de rétro-propagation de

l‘erreur offrant un mécanisme d‘apprentissage pour les réseaux multicouches de type Perceptron et qui permet d‘entraîner les neurones des couches cachées. Cependant, cet algorithme ne deviendra connu qu‘après 1986 grâce à Rumelhart [110]. Ce type de réseau est capable de résoudre des problèmes non linéaires. Toutefois, en 1984 c‘est la découverte des cartes de Kohonen [111] avec un algorithme non supervisé basé sur l'auto-organisation et suivi une année plus tard par la machine de Boltzman.

Enfin en 1989 Moody et Darken [112] ont proposé le réseau à Fonctions de Base Radiales (RFR), connu sous l‘appellation anglophone Radial Basis Function network (RBF).

Principe :

L‘approche par les ANNs est analogue aux systèmes de neurones biologiques qui permettent de traiter et de transmettre des informations en faisant circuler des signaux électriques dans un réseau constitué d‘axones. Chaque neurone artificiel est un processeur élémentaire. Il est donc avant tout un opérateur mathématique avec des « entrées » (variables de la fonction mathématique) et des « sorties » (valeurs de la fonction). L‘intérêt des neurones réside dans les propriétés qui résultent de leur association en réseaux, c‘est-à-dire de la composition des fonctions réalisées par chacun des neurones. Il reçoit un nombre variable d‘entrées en provenance de neurones en amont ou des capteurs composant la machine dont il fait partie. A chacune de ses entrées est associé un poids (wi) représentatif de la force de la connexion. Chaque processeur élémentaire est doté d‘une sortie unique, qui se ramifie ensuite pour alimenter un nombre variable de neurones en aval. Le neurone renvoie un signal de sortie si la somme pondérée des entrées dépasse un certain seuil.

Un réseau de neurones est constitué de multiples couches : une couche d‘entrée représentée par les descripteurs moléculaires, une ou plusieurs couches cachées et une couche de sortie représentée par les propriétés à modéliser. Les neurones d‘une couche sont interconnectés avec les neurones d'une couche voisine.

Chaque neurone de la couche cachée réalise des opérations de sommations pondérées, à l‘issu desquelles le neurone peut être activé ou non. Chaque neurone de la couche d‘entrée est relié par des synapses à chacun des neurones de la couche cachée, et au niveau de ces synapses virtuelles, se trouvent des poids (wi) permettant de moduler l'importance relative de chacun des descripteurs. La couche de sortie compte autant de neurones que de propriétés modélisées. Dans notre cas une seule propriété/activité a été modélisée. Pendant la phase d‘apprentissage du modèle par un réseau de neurones, les molécules sont présentées une par une aux neurones de la couche d‘entrée. Les poids (wi) associées aux neurones d'entrée sont

ajustés itérativement, afin de minimiser l‘erreur entre la propriété calculée et la propriété expérimentale.

La sortie d‘un neurone, donc, dépend de l‘entrée du neurone et de sa fonction de transfert. Il existe essentiellement trois types de fonction de transfert qui sont les fonctions à seuil, les fonctions sigmoïdes et les fonctions linéaires (Figure 6). La fonction sigmoïde est la plus utilisée car elle représente un bon compromis entre les fonctions seuils et linéaires.

La fonction à seuil La fonction sigmoïde La fonction linéaire

Figure 6 : Différents types de fonction de transfert pour le neurone artificiel.

Il existe deux types de réseaux de neurones : les réseaux non bouclés et les réseaux bouclés. Nous ne parlerons que des premiers. Les réseaux de neurone non bouclés réalisent une (ou plusieurs) fonction algébrique de ses entrées, par composition des fonctions réalisées par chacun de ses neurones. Il s‘agit donc d‘un ensemble de neurones connectés entre eux, l‘information circulant des entrées vers les sorties sans retour en arrière possible. On parle souvent de perceptron multicouche à cause de la présence de neurones cachés (Figure 7).

- Apprentissage des réseaux de neurones artificiels ANNs

Dans le domaine des réseaux de neurones, l‘apprentissage est une phase très importante qui désigne la procédure ou la façon qui consiste à déterminer l‘architecture et les paramètres du réseau. En effet, une des propriétés fondamentales d‘un réseau neuronal est sa capacité à s‘adapter et améliorer sa performance en ajustant les connexions des neurones face à une source d‘informations par la procédure d‘apprentissage [113].

L‘apprentissage des réseaux de neurones artificiels se fait grâce à des algorithmes d‘apprentissage. Dans la majorité des algorithmes actuels, l'apprentissage consiste à modifier les poids de connexions pour que la réponse du réseau s‘accorde aux exemples de l'expérience

[102, 113].

Après une initialisation aléatoire des poids, des exemples expérimentaux sous formes de couples de vecteurs d‘entrées et de sorties sont présentés au réseau. Les poids sont modifiés graduellement à l‘aide des algorithmes d‘apprentissage en vue de minimiser l‘écart entre les sorties calculées (estimées) par le réseau et les sorties expérimentales (observations).

Mise en œuvre :

La base des données est divisée en deux parties :

- L‘ensemble d‘apprentissage : sur lequel se fait l‘optimisation des poids.

- L‘ensemble de test : sur lequel on teste la capacité de généralisation du réseau de façon à ce que les poids retenus soient ceux pour lesquels l‘erreur obtenue sur cette base est faible.

En effet, si les poids sont ajustés sur toutes les données de l‘ensemble d‘apprentissage (70% de la base de données globale), on risque d‘avoir le « sur-apprentissage » ou l‘apprentissage par cœur, dans ce cas le réseau apprend très bien les données présentées dans la phase d‘apprentissage sans pour autant être capable de généraliser le modèle à des données nouvelles.

Pour éviter le « sur-apprentissage » on introduit un nouvel ensemble de données appelé l‘ensemble de validation (15% de la base de données globale). Comme pour l‘ensemble de test (15% de la base de données globale), les éléments de cet ensemble ne participent pas à l‘apprentissage. De plus, cet ensemble doit bien sûr avoir les mêmes contraintes que

Dans le document Modélisation de molécules organiques hétérocycliques biologiquement actives par des méthodes QSAR/QSPR. Recherche de nouveaux médicaments (Page 42-53)