• Aucun résultat trouvé

Contraintes souples de seuil pour l'extraction de toxicophores

Dans cette section, nous proposons un schéma de relaxation montrant l'intérêt de notre approche sur une application réelle dans le domaine de la chémoinformatique. Ce travail s'inscrit dans une collaboration avec le Centre d'Études et de Recherche sur le Médicament de Normandie (CERMN22).

5.4.1 Extraction de toxicophores

La toxicologie est la science étudiant les substances chimiques toxiques. Elle s'intéresse notamment à l'identication de fragments moléculaires23 spéciques au sein de la structure d'une molécule appelés

22. http://www.cermn.unicaen.fr/

23. Un fragment moléculaire est une sous-structure connexe d'une molécule. Il correspond à un graphe connexe dans le domaine de la fouille de graphes.

72 Chapitre 5. Extraction de motifs sous contraintes souples de seuil

toxicophores et considérés comme responsables direct des propriétés toxiques d'une substance chimique. Un objectif majeur est alors d'établir des relations entre de tels fragments et leurs activités an de mieux identier les caractéristiques des molécules liées à la toxicité.

Depuis quelques années, plusieurs travaux se sont intéressés à la découverte automatique de fragments moléculaires intéressants. Dans [Auer et Bajorath, 2006, Bajorath, 2008], les auteurs ont introduit la notion de motif chimique émergent (ECPs pour Emerging Chemical Patterns). Un ECP correspond à une conjonction de descripteurs moléculaires qui apparaît fréquemment dans une classe de molécules et peu fréquemment dans une autre classe. Leur découverte repose sur un apprentissage automatique eectué à partir d'un ensemble de molécules décrites par des descripteurs moléculaires.

Récemment, G. Poezevara a proposé un nouveau type de motifs, les motifs émergents de graphes (EGPs pour Emerging Graph Patterns) [Poezevara et al., 2011]. Ces motifs ont l'intérêt de faire ressortir les contrastes entre deux classes de graphes. La dénition de ces motifs provient directement de celle des motifs émergents dans le cas des données ensemblistes (cf. le taux de croissance). L'extraction de ces motifs est fondée sur l'enchaînement d'une technique de recherche de sous-graphes fréquents utilisée pour changer la description des données avec une méthode récente de fouille sous contraintes dans le cas de données binaires. Les contraintes de fréquence et d'émergence (cette dernière étant issue de la mesure de taux de croissance) dénissent ces motifs qui s'avèrent précieux pour la prédiction de la toxicité [Poezevara et al., 2010].

An d'extraire des motifs émergents qui peuvent être considérés comme de possibles toxicophores, nous proposons de combiner les contraintes d'émergence et de fréquence, caractérisant les motifs du point de vue de leur présence dans les données, avec des connaissances chimiques, comme l'aromaticité ou la rigidité d'une molécule, qui sont des indicateurs connus de la toxicité (cf. la section 5.4.2). Dans ce travail, nous nous intéressons à la découverte de fragments toxicophores sur des molécules décrites par des attributs correspondant à des sous-graphes fréquents initialement extraits des molécules et pour lesquels il est possible d'attacher des valeurs de propriétés chimiques, comme l'aromaticité ou la rigidité.

5.4.2 Contraintes de seuil considérées

Une diculté majeure de la tâche est le nombre potentiel de motifs qui est très grand. Il devient alors important de réduire le nombre de motifs extraits à ceux présentant un intérêt potentiel exprimé par l'utilisateur sous forme de contraintes. Ci-dessous une description des diérentes contraintes que nous avons retenues :

• L'émergence permet de caractériser une molécule d'une classe (toxique) par rapport à une autre classe (non-toxique). Les motifs émergents traduisent l'hypothèse toxicophore (H1) : si une molécule possède dans sa structure les fragments moléculaires d'un motif émergent, alors elle possède des caractéristiques de toxicité et est donc particulièrement susceptible d'être toxique. L'émergence est mesurée par le taux de croissance (cf. la dénition 1.13 à la page 15). Soit ρ un seuil minimal pour le taux de croissance. On impose la contrainte souple de seuil :

c1(x) ≡ émergencej(x) ≥ ρ

• Contrainte de fréquence : les motifs avec une fréquence très faible sont souvent dûs à des artefacts dans les données et constituent du bruit. Soit minfr un seuil minimal pour la fréquence. An d'assurer une représentativité de l'information extraite, on impose la contrainte souple de seuil :

c2(x) ≡ freq(x) ≥ minfr

• Contrainte d'aromacité : pour chaque sous-graphe (donc chaque attribut) est associé une valeur de l'aromaticité qui est une mesure chimique. L'intérêt de cette mesure est qu'elle véhicule une

5.4. Contraintes souples de seuil pour l'extraction de toxicophores 73

hypothèse toxicophore (H2) : plus un attribut a une forte valeur d'aromaticité, plus une molécule supportant cet attribut tend à être toxique. L'aromaticité d'un motif est la moyenne de l'aromaticité de ses attributs. Soit ψaromun seuil minimal pour l'aromaticité. Pour extraire des motifs intégrant une connaissance chimique portant sur l'aromaticité de ces attributs, on impose la contrainte souple de seuil :

c3(x) ≡ aromaticité(x) ≥ ψarom

• Contrainte de rigidité : plus un sous-graphe est rigide, plus ce sous-graphe est solide ; un motif composé d'attributs rigides renforce l'hypothèse d'un toxicophore (H3). La rigidité d'un motif est la moyenne des rigidités de ses sous-graphes24. Soit ψrigiditéle seuil minimal de rigidité. On impose la contrainte souple de seuil :

c4(x) ≡ rigidité(x) ≥ ψrigidité

La requête soumise q(x) est la conjonction des quatre contraintes souples de seuil présentées ci-dessus : q(x) ≡ c1(x) ∧ c2(x) ∧ c3(x) ∧ c4(x)

Comme nous pouvons le constater, nous avons plusieurs mesures dont il est dicile de donner les seuils pour obtenir les contraintes correspondantes et il est encore plus dicile de donner un seuil approprié pour une mesure par rapport aux autres seuils donnés. D'où l'intérêt de relâcher les seuils, ce qui donne, de façon relative, moins d'importance au choix des seuils. Enn, en ce qui concerne les sémantiques de violation, on peut a priori faire plus conance à la connaissance du domaine (notamment l'aromaticité) et donc pénaliser plus fortement une violation de la contrainte liée à l'aromaticité que les autres contraintes.

5.4.3 Transformation en une requête dure équivalente

Pour cette requête, nous avons retenu la sémantique de violation µ2 (i.e. l'écart relatif), car les diérentes contraintes composant la requête sont de nature hétérogène (avis donné par les chimistes impliqués dans le travail), d'où l'idée de normaliser les écarts. En appliquant la relaxation disjonctive selon la sémantique de violation µ2 (cf. la section 5.1.3a-γ), nous obtenons la requête dure équivalente suivante : q0(x) ≡                    z1= max0,ρ−émergencej(x) ρ  ∧ z2= max0,minf r−freq(x)

minf r



∧ z3= max0,ψarom−aromaticité(x)

ψarom

 ∧ z4= max0,ψrigiditérigidité(x)

ψrigidité

 ∧ z = z1+ z2+ z3+ z4≤ λ

λ représente la quantité maximale de violation autorisée et z le cumul des violations, où zi est la variable de coût associée à chaque contrainte souple de seuil ci(x).

5.4.4 CSP issu de la transformation

Dans cette section, nous montrons comment la relaxation disjonctive de la requête q(x) peut se modéliser sous forme d'un CSP.

74 Chapitre 5. Extraction de motifs sous contraintes souples de seuil

Le CSP P = (X , D, C) modélisant la requête q0(x) est le suivant : a) X = {x} S

1≤i≤4

{zi} ∪ {z}est l'ensemble des variables, avec :  x, la variable ensembliste représentant le motif recherché,

 {z1, z2, z3, z4}, les variables de coût quantiant les violations des contraintes souples de seuil,  z, la variable de coût quantiant la violation globale.

b) D = Dx S 1≤i≤4

{Dzi} ∪ {Dz}, l'ensemble des domaines, avec :  Dzi= [0..1]

 Dz= [0..λ](λ ∈ [0..1]) c) C = C0

num∪ {z =P zi} ∪ {z ≤ λ}, l'ensemble des contraintes, avec : C0

num= { z1= max0,ρ−émergencej(x) ρ



, z2= max0,minf r−freq(x) minf r

 , z3= max0,ψarom−aromaticité(x)

ψarom



, z4= max0,ψrigiditérigidité(x) ψrigidité

 }