• Aucun résultat trouvé

Chapitre 1 : Données bibliographiques – Les méthodes in silico pour

3. Les approches (Q)SAR orientées vers la prédiction ADME-Tox 43 !

3.2. Aspects pratiques : élaboration de modèles (Q)SAR 46 !

3.2.3. Apprentissage et algorithmes 56 !

3.2.3.1. Méthodes non supervisées 57 !

Les méthodes non supervisées sont descriptives et n’utilisent pas directement l’information sur l’activité biologique (Y). Certaines d’entre elles, comme par exemple l’Analyse en Composantes Principale (ACP), permettent de visualiser et de décrire l’organisation des molécules dans l’espace multidimensionnel des descripteurs. D’autres permettent de regrouper les molécules, comme par exemple lors des approches de regroupement (clustering) de type k-moyennes (k-means) ou encore de type Butina. Ces méthodes peuvent être utilisées afin d’identifier les éventuelles valeurs aberrantes (outliers) présentes dans le jeu de données 141.

a)!Analyse en Composantes Principales (ACP)

L'ACP est une technique de réduction de dimensionnalité qui est largement utilisée pour l'analyse de données. Elle décompose un jeu de données multivariées (plusieurs descripteurs) à l’aide d’un ensemble de composantes orthogonales successives qui expliquent la variance maximale observée dans le jeu de données. Ces composantes orthogonales vont être appelées composantes principales et correspondent à des combinaisons linéaires des descripteurs moléculaires. Chaque composante

principale va exprimer une part de la variance expliquée présente dans le jeu de données. Ainsi, l’ACP définit un espace de plus faible dimensionnalité que le jeu de données initial ce qui permet au modélisateur d’analyser de façon plus aisée les données sur lesquelles il travaille. L’ACP permet alors de visualiser les molécules et les descripteurs sur l’ensemble des plans bidimensionnels définis par les combinaisons de deux composantes (Figure 10), ce qui est plus facilement interprétable.

Figure 10 : Représentation schématique d’une ACP sur les deux premières composantes principales.

b)!k-moyennes

La méthode des k-moyennes est un algorithme de regroupement qui identifie k groupes à l'intérieur d’un espace multidimensionnel définit par les descripteurs moléculaires 165–167. L’objectif de cette méthode est de déterminer l’appartenance de

chaque individu à l’un des k groupes fixés par l’utilisateur. L’algorithme utilisé pour réaliser ce regroupement est itératif descendant, c’est-à-dire qu’il va effectuer plusieurs fois la même opération unitaire afin de ne retenir qu’une solution optimale. L’opération unitaire de l’algorithme comporte plusieurs étapes (Figure 11) : i) les centroïdes des k groupes vont être positionnés dans l’espace des descripteurs moléculaires ; ii) les distances entre chaque individu et les centroïdes des k groupes sont ensuite calculées ; iii) un individu est affecté au groupe dont il est le plus proche en fonction de sa distance avec les centroïdes des k groupes. Lors de la première itération, les centroïdes des groupes vont être positionnés aléatoirement, tandis que pour les itérations ultérieures les centroïdes moyens de chaque groupe vont être utilisés (étape i). Ce processus se répète jusqu'à la convergence vers un minimum local, où la dissimilarité moyenne à l’intérieur de chaque groupe n’évolue plus 168.

Figure 11 : Principe des k-moyennes.

Bien que cette méthode soit simple à mettre en œuvre et efficace, elle possède cependant des inconvénients. La solution que nous apporte cette méthode n’est pas unique, car elle est dépendante du positionnement aléatoire des centroïdes lors de l’étape initiale, des itérations répétées durant l’opération de regroupement, ou encore de la distance utilisée (Euclidienne, City Block, Mahalanobis, etc.) pour assigner les individus à un groupe. Ainsi, les résultats obtenus ne sont pas reproductibles d’une expérience à une autre. Le deuxième inconvénient est que cette méthode ne permet pas de déterminer le nombre optimal de groupes pour séparer les individus selon leurs caractéristiques propres. En effet, le nombre k de groupes à explorer est fixé par l’utilisateur. L’utilisation de cette méthode nécessite donc une connaissance approfondie du jeu de données exploré.

c)!Butina

Du nom de son créateur, Darko Butina, cette méthode utilise une approche similaire au célèbre regroupement de Jarvis-Patrick. L’objectif de ce dernier est de définir des groupes de molécules en fonction de la densité locale observée pour chaque individu (ou molécule) représenté dans l’espace multidimensionnel décrit par les descripteurs moléculaires. Une matrice de distances est ensuite calculée pour définir la proximité de tous les individus projetés dans l’espace cartésien. Pour chaque individu un nombre kmin

de plus proches voisins va être sélectionné. Deux individus vont être regroupés s’ils sont considérés comme voisins et s’ils possèdent un nombre pmin de voisins communs. Dans

le cadre du regroupement Butina, l’indice de Tanimoto est utilisé en tant que distance et il est calculé à partir des empreintes moléculaires. De ce fait, la distance est directement reliée à la similarité structurale des composés du jeu de données. D’autre part, Le nombre

kmin n’est pas fixé, mais il est déterminé à l’aide d’un seuil de similarité selon lequel toutes

les molécules ayant un indice de Tanimoto supérieur ou égal à ce seuil vont être considérées comme voisines (Figure 12). Ainsi des listes de plus proches voisins vont être obtenues pour chaque molécule et vont être ordonnées en fonction de leur taille. Le

clustering se fait ensuite de manière itérative en déterminant le composé ayant le plus

grand nombre de voisins. La liste du composé sélectionné va constituer un groupe, et toutes les molécules de ce groupe vont être supprimées des listes encore non explorées. Le regroupement se termine lorsque toutes les listes initialement définies ont été explorées.

L’avantage de ce regroupement par rapport à celui de Jarvis-Patrick est que seul le seuil de similarité est utilisé pour créer les groupes. En effet, l’approche de Jarvis-Patrick nécessite de définir au préalable les paramètres kmin et pmin. Ces paramètres ne sont pas

concrets et nécessitent selon nous une étape de paramétrage afin de définir les valeurs optimales à utiliser pour le cas étudié. Dans le cas du regroupement Butina, le seuil de similarité est concret et permet de paramétrer rapidement l’algorithme pour obtenir des groupes de similarité désirée. D’autre part, ces approches de regroupement peuvent créer des groupes ne contenant qu’une seule molécule. Ces molécules isolées vont être appelées singletons. L’obtention de singletons peut être un réel désavantage lors d’un regroupement, car ces molécules seules ne sont attribuées à aucun groupe. Cependant dans le cadre du regroupement Butina, les groupes sont identifiés de façon à optimiser l’homogénéité des molécules qui les constituent, ce qui peut représenter dans certains cas un avantage.