• Aucun résultat trouvé

Influence de la représentation de la structure moléculaire

Base DHFR

6.2.3 Influence de la représentation de la structure moléculaire

En recherchant les molécules mal classées dans la base ER pour h = 3 classes, on remarque que l’ensemble des molécules appartenant à la sous-famille des indènes (sous-famille C_1) sont systématiquement mal classées : ces molécules ont été classées avec les hexestrols (sous-famille B_2) alors qu’elles auraient dues être classées avec les indoles (sous-famille C_2). Les indoles ont été considérées comme une classe à part

6.2. Comparaison des variantes de Iπ

entière. Pour la variante APC_Glouton_AvecArret, ce sont les seules erreurs de classifi-cation : si elles n’avaient pas été commises, l’algorithme aurait trouvé une classificlassifi-cation sans aucune confusion dès h = 3 classes. Il est donc très intéressant de connaître les causes de ces erreurs. La figure 6.12 montre les châssis moléculaires des sous-familles concernées.

(a) Hexestrols (b) Indènes/Indénones (c) Indoles

Figure 6.12 –Châssis moléculaires de trois sous-familles dans la base ER. Les hexestrols correspondent

à la sous-famille B_2, les indènes/indénones à la sous-famille C_1 et les indoles à la sous-famille C_2.

Au cours de la standardisation des molécules, les cycles aromatiques ont été aro-matisés (les liaisons appartenant à un cycle aromatique ont été délocalisées), ce qui se représente sous la forme d’un cercle en pointillés à l’intérieur du cycle. Au niveau de la représentation informatique, ces liaisons ont une valence égale à 4 (codification de la valence des liaisons aromatiques délocalisées). On remarque notamment (figure 6.12) que le cycle central des indoles est aromatique contrairement à celui des indénones.

Lors de la recherche d’un APC entre les indènes et les indoles, le parcours des graphes est stoppé sur le cycle central (composé de 5 atomes) qui apparaît différent au sens de la représentation des structures : la valence des liaisons n’est pas la même et donc, l’algorithme ne trouve plus de voisins à apparier. Supposons que l’algorithme ait déjà apparié le groupe R2 et le cycle aromatique attenant, il va ensuite apparier l’atome 7 du cycle central des indènes avec l’atome 8 des indoles. A l’étape suivante, il cherchera à apparier les voisins de l’atome 7 : {8, 19} avec ceux de l’atome 8 : {7, 9}. Or, il n’y a aucune liaison compatible car dans les indoles, elles sont toutes de valence 4 : l’algorithme s’arrête alors car la file FIFO contenant les atomes à apparier est vide. Dans ce cas, quelle que soit la variante utilisée (avec ou sans arrêt sur erreur), l’algorithme s’arrête et les SSC identifiées sont identiques.

Par contre, en appariant les atomes des indènes avec ceux des hexestrols, le com-portement est différent selon le critère d’arrêt. Avec les variantes APC_*_AvecArret, l’algorithme s’arrête avant de parcourir le cycle central des indènes. Dans les variantes APC_*_SansArret, le cycle central des indènes est partiellement apparié (il est ’contour-né’) et l’algorithme poursuit l’exploration du graphe moléculaire sur le cycle suivant. La SSC identifiée entre les hexestrols et les indènes est alors plus grande que celle

identi-fiée entre les indènes et les indoles (figure 6.13), ce qui entraîne une similarité différente dans les deux cas.

B_2 : Hexestrols C_1 : Indènes/Indénones

C_1 : Indènes/Indénones C_2 : Indoles

Figure 6.13 –En haut, la SSCM entre les hexestrols et les indènes. En bas, la SSCM entre les indènes et les indoles de la base ER.

Le problème rencontré est que, dans certains cas, des cycles peuvent être partielle-ment explorés alors que l’algorithme continue à apparier des atomes sans savoir qu’il génère une sous-structure qui n’a pas de signification chimique. Dans l’exemple de la figure 6.13, lorsque le cycle central des indènes n’est pas contourné, il n’y a pas d’erreur de classification. En chimie où les structures moléculaires sont elles-mêmes constituées de sous-structures ayant un sens bien défini, le critère d’arrêt sur erreur fonctionne mais est arbitraire dans le sens où il n’est pas directement associé à une hypothèse chimique. Dans l’exemple de la figure 6.14, les différentes SSC entre deux molécules sont présentées : certaines sont correctes d’un point de vue chimique mais la plupart ne le sont pas. Bien évidemment, rien ne garantit que la plus grande SSC, celle dont on tient compte pour le calcul de l’indice Iπ soit correcte.

6.2. Comparaison des variantes de Iπ Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B Exemple_A Exemple_B molécule 1 molécule 2

Sous-structures communes identifiées par l'algorithme Iπ

Figure 6.14 –Exemple de SSC entre deux molécules obtenues à partir de graines différentes.

Pour limiter le nombre d’appariements générant une SSC non significative chimi-quement parlant, une solution pourrait consister à stopper l’appariement unichimi-quement lorsqu’un atome appartenant à une sous-structure significative ne peut pas être apparié, ce qui permettrait de ne conserver que des éléments cohérents d’un point de vue chi-mique. Dans le cas des cycles aromatiques par exemple, il suffit pour cela de vérifier le type de liaison dans laquelle l’atome qui ne peut pas être apparié est impliqué : s’il s’agit d’une liaison aromatique, l’algorithme est alors arrêté. Le problème se complexi-fie lorsque plusieurs cycles ont des atomes partagés : on a alors le choix de ne conserver d’un seul cycle fermé ou plusieurs et dans ce cas, il faudrait pouvoir savoir lesquels conserver.

L’avantage de cette approche "détection de cycle non-fermé" est qu’elle peut être conçue comme un paramètre de la méthode d’appariement global. Dans le cas de la chimie, c’est une voie qui parait plus intéressante à explorer que l’arrêt sur échec (même si celui-ci peut aussi être un paramètre parfois intéressant) qui présente l’inconvénient important de dépendre de la graine d’appariement initiale.