• Aucun résultat trouvé

Chapitre 5 : Approches de la Swarm Intelligence pour la Prédiction de Fonction des

1. Résumé des contributions

Le travail réalisé porte sur deux études bibliographiques approfondies et une étude expérimentale utilisant différentes approches bio-inspirées. Notre première étude bibliographique concerne l‘utilisation des tâches de la fouille de données en protéomique [ZEK 11a] où nous avons identifié diverses problématiques telles que : l‘identification de fonctions de protéines, la prédiction de structures et de localisation de protéines ainsi que les interactions protéine-protéine. Ce qui nous a permis de nous orienter vers la prédiction de fonctions de protéines, qui est considérée comme tâche majeure en protéomique et qui peut être réalisée à partir de la séquence primaire de la protéine considérée ou à partir de sa structure, sa localisation ou de ses interactions avec les autres protéines, une fois ces dernières identifiées. Notre seconde étude bibliographique a porté sur les différentes méthodes computationnelles développées et utilisées pour la classification des récepteurs couplés aux protéines G [ZEK 11b, ZEK 12b]. Cette étude nous a permis de constater, en premier lieu, que les techniques les plus utilisées à ce jour restent les machines à vecteurs de support, les k- plus proches voisins et les arbres de décision. En second lieu, nous avons constaté que les approches bio-inspirées sont très peu utilisées pour cette problématique, ce qui nous a motivées à les exploiter. Un autre point important est ressorti de cette étude, c‘est le choix de la méthode de sélection de caractéristique qui peut être déterminant, car une méthode appropriée permet d‘améliorer grandement les performances de la classification.

L‘objectif final de notre travail est d‘étudier l‘apport des approches bio-inspirées immunologiques et issues de la swarm intelligence pour l‘identification des RCPGs. Afin d‘atteindre cet objectif, nous avons entrepris une étude expérimentale pour la conception, l‘implémentation et l‘évaluation de classifieurs bio-inspirés assez performants pour identifier les récepteurs couplés aux protéines G avec une précision fiable. Pour y parvenir, nous avons pris en compte trois points cruciaux :

1. Un ensemble de données valide

2. Une bonne représentation des données (méthode de sélection des caractéristiques) 3. Un algorithme de prédiction puissant

Le choix d‘un ensemble de données valide et approprié est nécessaire pour évaluer et comparer les performances des classifieurs proposés. Nous avons donc sélectionné l‘ensemble de données GDS, un des ensembles de données les plus utilisés dans le domaine de l‘identification des RCPGs afin de pouvoir comparer nos résultats avec les méthodes publiées utilisant ce même ensemble. Les séquences contenues dans l‘ensemble GDS sont sous forme d‘enchaînements des 20 lettres d‘acides aminés natifs variant en longueur (de 250 à 1200 acides aminés), ce qui rend leur utilisation, telles quelles, ardue. Une phase de prétraitement est nécessaire afin de transformer les séquences primaires des RCPGs en des vecteurs d‘entrée de longueur fixe. Pour cela, nous avons choisi la composition en pseudo acide aminés (Pseudo Amino Acid Composition – PseAAC) pour représenter les séquences RCPGs. Cette méthode de sélection des caractéristiques introduite par Chou en 2001 [CHO 01], se base sur la

sélection des caractéristiques physico-chimiques des acides aminés ainsi que sur leur position dans l‘enchaînement pour les transformer en séquence numérique de longueur fixe tout en ne retenant que les attributs pertinents. Une fois les vecteurs de caractéristiques obtenus, une seconde étape de prétraitement est réalisée afin de réduire l‘intervalle des valeurs numériques en utilisant une méthode de normalisation. Le troisième et dernier point concerne le choix des algorithmes de prédiction. Comme notre intérêt s‘est porté sur deux grandes familles des approches bio-inspirées, nous avons divisé notre étude expérimentale en deux parties.

La première partie de notre étude expérimentale a porté sur l‘élaboration de classifieurs basés sur trois algorithmes immunitaires différents en utilisant l‘ensemble de données GDS [ZEK 15a]. Les trois algorithmes immunitaires choisis sont le système immunitaire artificiel de reconnaissance (Artificial Immune Recognition System – AIRS), l‘algorithme de sélection clonale (CLONal selection ALGorithm – CLONALG) et sa version améliorée, l‘algorithme de classification de sélection clonale (Clonal Selection Classification Algorithm – CSCA). Le choix de ces algorithmes se justifie par leur inspiration des caractéristiques de mémorisation et d‘apprentissage de la théorie de la sélection clonale. Les résultats des expérimentations ont montré que les algorithmes immunitaires représentent une approche prometteuse pour la prédiction de fonctions de RCPGs, en particulier l‘algorithme AIRS qui a fourni les meilleurs résultats et qui a prouvé sa capacité à gérer les petits ensembles tout autant que les grands ensembles grâce à sa particularité de généraliser à partir de peu de données d‘apprentissage. La deuxième partie concerne l‘élaboration de classifieurs se basant sur les deux algorithmes les plus connus de la swarm intelligence en utilisant le même ensemble de données GDS [ZEK 15b]. Les deux approches choisies de la swarm intelligence sont l‘optimisation par colonies de fourmis (Ant Colony Optimization – ACO) et l‘optimisation par essaims particulaires (Particle Swarm Optimization – PSO). Nous avons sélectionné cAnt-Miner, une version pour les attributs continus de l‘algorithme Ant-Miner, le premier algorithme basé ACO conçu spécifiquement pour la découverte des règles de classification et CPSO, une version de PSO, également élaborée pour la tâche de classification. En plus de ces deux algorithmes, nous avons sélectionné l‘hybridation PSO/ACO dans le but d‘évaluer la combinaison des deux algorithmes. Au cours de nos expérimentations, nous avons testé plusieurs jeux de paramètres pour chacun de ces trois classifieurs afin de les adapter au mieux à nos données et à la problématique posée, ce qui a grandement amélioré les résultats finaux par rapport aux résultats obtenus avec les paramètres par défaut. Cependant, les résultats étaient encore loin des résultats escomptés en comparaison à ceux obtenus avec les classifieurs immunitaires.

Au cours de notre étude bibliographique et de la comparaison de nos résultats avec ceux de la littérature, nous avons noté un manque de travaux important sur l‘utilisation des approches bio-inspirées dans le domaine de la bioinformatique en général, et dans la prédiction de fonctions de protéines en particulier. Bien que ces approches soient prometteuses et de plus en plus utilisées dans de nombreux domaines, elles restent encore largement inexploitées dans le domaine de la biologie computationnelle.