• Aucun résultat trouvé

4.4 Conclusion de cette approche

Il reste à vérier expérimentalement la cohérence des résultats obtenus mais les pre- mières expériences semblent montrer un potentiel intéressant.

Nous avons décrit une méthode de classication basée sur un treillis de concepts comprenant à la fois un ensemble d'objets déjà classés et un ensemble d'objets à classer. Elle a été appliquée à des séquences d'enzymes, un groupe de protéines clés impliquées dans de nombreux processus biochimiques et avec un fort potentiel pour la découverte de nouvelles molécules fonctionnelles. Nos résultats sont encourageants et montrent que notre méthode de classication est sensible et spécique. Plus de la moitié des séquences à classer sont classées correctement par rapport à la connaissance actuelle de 34 familles. De plus, chaque décision de classication peut être clairement expliquée et liée à des séquences connues ou à certaines positions dans la séquence correspondant à des blocs. L'ambiguïté pourrait être encore réduite dans la pratique par la recherche de séquences qui sont par nature ambiguës parce qu'elles sont constitués par exemple de deux fragments de deux protéines de classes diérentes. Ces protéines potentielles, que nous appelons chimères, pourraient être récupérées automatiquement lors de la classication.

Un autre aspect de ce travail est le problème de la classication non supervisée pour les objets avec des attributs qui sont caractéristiques des objets à classer. Nous avons proposé un modèle pour résoudre ce problème comme un problème d'optimisation en tenant compte de l'ambiguïté, de la parcimonie (nombre de nouvelles classes nécessaires) et du support (nombre d'attributs).

À notre connaissance, c'est la première fois que cette question est bien formalisée en bio-informatique. Nous avons mis en place toutes les spécications dans ce document pour pouvoir le résoudre via la programmation par ensembles réponses (Answer Set Program- ming), une forme de programmation déclarative adaptée aux problèmes combinatoires [BET11]. Une fois toutes les contraintes exprimées en formules logiques, un programme les transforme dans un (grand) ensemble de formules booléennes et un solveur cherche les modèles possibles de cet ensemble (les réponses), qui donnent accès aux solutions du problème initial. Nous avons utilisé le solveur Clasp développé à l'université de Potsdam [GKS12], laboratoire dans lequel nous avons été accueillis pendant 3 mois.

Enn, nous avons pu tirer parti de cette classication an d'inférer une grammaire à partir de la connaissance des classes extraites par analyse de concepts formels.

La grammaire ainsi obtenue présente l'avantage de mettre en évidence les corrélations des diérents blocs conservés, et présente un aspect hiérarchique lors de la dérivation d'une séquence par cette grammaire, permettant de retrouver à la fois la superfamille et la famille auxquelles elle appartient.

Chapitre

5

Conclusions et perspectives

5.1 Les contributions apportées

En choisissant de produire un nouveau type de signature pour caractériser les familles d'enzymes, cette thèse nous a permis d'aborder un certain nombre de problèmes dans le domaine de l'apprentissage automatique et de la fouille de données. Nous avons pu proposer des contributions originales dans ce cadre.

Tout d'abord, nous avons abordé le problème de caractérisation d'un ensemble de séquences dans le cadre de la théorie des langages. A partir de là, nous avons pu observer les limites en expressivité des techniques existantes et nous tourner vers la représentation d'une famille en tant langage généré par une grammaire algébrique.

Bien que plusieurs techniques permettaient l'inférence de grammaires algébriques, au- cune n'avait la faculté de produire des grammaires permettant à la fois d'identier la structuration des exemples et de générer une classe de langage identiable à limite. Parmi les techniques existantes, heuristiques et formelles, celles basées sur des principes proche de celui de substituabilité permettent néanmoins d'obtenir des résultats intéressants sur des corpus réels.

Ainsi, nous nous sommes intéressés à l'inférence de la classe des langages algébriques substituables introduite par A. Clarck [CE07] qui semblait posséder de bonnes propriétés d'apprenabilité.

A ce stade, deux problèmes majeurs se sont posés. Dans le premier, ce type de langage ne semblait pas adapté à la représentation des familles d'enzymes. En eet, la grammaire obtenue sur de telles données est trop spécialisée et ne permet pas de reconnaitre de nouvelles séquences appartenant à la classe de la famille d'enzymes traitée. Nous avons alors autorisé le relâchement de la contrainte de substituabilité globale et introduit de nouvelles classes de langages : les langages i, j-localement et k,l-contextuellement sub- stituables. Ces classes nous ont permis de dénir de nouveaux principes de généralisation mieux adaptés aux données biologiques. Il a alors été possible d'obtenir des signatures de familles d'enzymes grâce à des grammaires hors-contexte et les premières expériences ont

montrées qu'elles étaient capables de généraliser l'ensemble d'apprentissage à d'autres séquences appartenant à cette famille et non présentes dans l'échantillon.

Le deuxième problème a été d'obtenir une grammaire permettant de déterminer la structuration réelle des exemples qui n'a aucune raison de ressembler à la structure arti- cielle générée par la forme normale de Chomsky utiliser classiquement pour limiter la com- binatoire de l'espace de recherche. Pour cela, nous avons développé l'algorithme ReGliS qui permet d'inférer une grammaire réduite d'un langage substituable à partir d'exemples positifs. La grammaire réduite apprise correspond à la forme qui a été montrée canonique pour les langages substituables la forme canonique apprise dans [Cla14]. Cette approche peut être appliquée aussi bien pour le langage naturel que pour les séquences biologiques et permet d'obtenir une grammaire plus lisible de laquelle il est possible d'extraire la struc- turation sous-jacente du langage. Pour les enzymes, elle permet de détecter certaines corrélations entre les diérentes zones conservées d'une séquence.

Dans un deuxième temps, en côtoyant le monde biologique, nous nous sommes aperçus que le problème même d'obtenir un échantillon d'exemples positifs appartenant à une même famille enzymatique n'était pas trivial.

En eet, au vu du peu d'enzymes caractérisées expérimentalement et du caractère homologue de certaines enzymes de fonctions diérentes appartenant à une même super- famille, il est parfois dicile de déterminer la famille d'une enzyme. A l'inverse, repérer l'appartenance d'une séquence à une superfamille semble un problème plus facile dû à la présence des fragments de séquences très conservés. Apprendre la grammaire d'une superfamille directement avec notre algorithme a semblé un problème trop ambitieux. En eet, à cause des motifs de superfamille présents sur la totalité des séquences, le lan- gage ainsi généré présentait une surgénéralisation de la famille d'enzymes à cause de la substituabilité de blocs entre diérentes familles.

Pour résoudre ce problème, et en tirant parti des bonnes propriétés qu'ore un aligne- ment local partiel multiple, nous nous sommes alors tournés vers l'analyse de concepts formels an de classer les séquences d'une superfamille en familles. Pour cela, nous avons implémenté un algorithme grâce à la programmation logique qui permet depuis un en- semble de séquences et d'annotations, de classer des séquences d'une superfamille dans des classes connues ou inconnues en utilisant un procédé de classication supervisé, puis non supervisé si toutes les séquences n'ont pas pu être classées. La classication est basée sur une analyse de concepts formels qui permet de garder la trace des décisions prises et d'expliquer la classication proposée.

Ce procédé peut être utilisé indépendamment de la recherche de signature d'une fa- mille pour classer les séquences d'une superfamille d'un nouvel organisme. Il permet en particulier la détection des nouvelles familles, fréquemment présentes dans les nouveaux organismes non modèles séquencés.

Nous l'avons également utilisé pour créer une grammaire de superfamille générée à partir de l'union des grammaires obtenues pour chaque ensemble de séquences classées dans une famille.