Chapitre IV : Applications et résultats

2.2. Algorithme de conception de sondes

Le logiciel présenté ici est un logiciel de conception de sondes oligonucléotidiques pour biopuces phylogénétique (PhylArray). Il permet de déterminer pour un genre donné, les oligonucléotides qui vérifient les critères suivants implémentés dans le logiciel :

La longueur de sonde : c‘est la longueur des oligonucléotides qui seront sur la puce.

Le seuil de spécificité (threshold): c‘est le seuil de similarité au dessus duquel une séquence est considérée comme provoquant une hybridation croisée.

Le nombre maximum d’hybridations croisées : est le nombre autorisé d‘hybridations croisées.

La première étape est basée sur la construction de séquence consensus à partir de l‘alignement CLUSTAL des séquences d‘un genre préalablement obtenu. La séquence consensus utilise le code IUB1. Par exemple, si l‘on considère le genre Yarrowia, nous avons obtenu l‘alignement suivant (une fenêtre pour l‘exemple):

AB018158| TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAGGG DQ486711| TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAGGG DQ438177| TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAGGG EU434621| TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAGGG DQ438182| TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAGGG EF190312| TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAGGG DQ437080| TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGTTAT DQ437079| TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAGGG ***********************************

Mohieddine MISSAOUI Page 179 La séquence consensus est donnée par :

CONSENSUS TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGWKRK

Les autres séquences (seqx) sont utiles pour garantir un aspect exploratoire de nos biopuce : Seq1 TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAGGG Seq2 TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGTTAT Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAAAA Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAAAC Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAAGA Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGAAGC Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGACAA Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGACAC Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGACGA Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGACGC Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGTAAA Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGTAAC Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGTAGA Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGTAGC Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGTCAA Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGTCAC Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGTCGA Seqx TGAATGGTTTAGTGAGACCTTGGGAGGGCGAGATGTCGC

Cette sélection permet de garantir de cibler le groupe (le genre) ou un niveau taxonomique plus haut (famille, ordre, etc.…) pour lequel on réalise la conception de sondes. D‘un point de vue expérimental, le spot contant les oligonucléotides dégénérés sera composé d‘un mélange de tous les oligonucléotides possibles. L‘utilisateur obtient alors une sortie contenant la séquence dégénérée et les séquences spécifiques correspondantes utilisées pour la conception, ainsi il peut construire des biopuces avec des oligonucléotides dégénérés et/ou des oligonucléotides spécifiques.

2.2.1. Les étapes de la conception

L‘algorithme proprement dit est composé, entre autre, de 2 principales étapes qui seront détaillées dans la suite :

La fragmentation de la séquence consensus

La recherche de spécificité pour les hybridations croisées 2.2.1.1. Fragmentation de la séquence consensus

Il s‘agit ici de générer à partir de la séquence consensus construite auparavant tous les oligonucléotides dégénérés. Le nouvel algorithme décompose la séquence en plusieurs fragments (fenêtres en bleu dans le schéma de la Figure 60) pour la parallélisation du calcul. On obtient alors pour chaque fragment correspondant aux positions de début des oligonucléotides une tâche

—————————

Mohieddine MISSAOUI Page 180 qui sera exécutée sur la grille. Cela permet alors de paralléliser le calcul. Par exemple, pour créer 2 tâches de la séquence consensus de 69 mers suivante, on obtient la décomposition de la Figure 60.

Figure 60: Exemple de décomposition d’une séquence en sondes 18 mers.

Il s‘agit donc de reconstruire la conception complète en recomposant les différentes sous-séquences. En effet, chaque tâche traite un fragment de la séquence en recherchant les hybridations croisées pour chaque sonde potentielle contre la base de référence exceptée le genre en cours de conception.

2.2.1.2. La recherche de spécificité

Cette partie permet de tester pour toutes les sondes générées pour une position donnée les hybridations croisées potentielles en utilisant les paramètres choisis par l‘utilisateur (en particulier, le seuil de spécificité et le nombre d‘hybridations croisées). Le test de spécificité se fait en comparant à la base de données les oligonucléotides spécifiques avec le programme BLAST. Les paramètres utilisés sont la taille du mot (W=7), le filtrage de la complexité (F=F) et l‘e-value égale à 100. Les critères de Kane (75% d‘identité avec les cibles potentielles et une séquence continue de 15 nucléotides représentent une hybridation croisée) sont ensuite appliqués aux sondes. Seules les sondes vérifiant ces critères sont conservées.

La Figure 61 récapitule les différentes étapes de la conception de sondes à l‘aide de notre logiciel. La comparaison BLAST n‘est réalisée que contre le reste de la base de données pour un genre donné.

Mohieddine MISSAOUI Page 181 Figure 61: Etapes de conception de sondes avec le logiciel PhylArray.

2.2.2. Matériels et architecture

Le logiciel implémentant notre nouvel algorithme est une application Web développée avec PHP 5 et utilise des scripts Perl pour la conception de sondes. Elle utilise une base de données de conception et de gestion d‘utilisateur sous MySQL 5.1. L‘application est installée sur une UI de la grille de calcul EGEE entièrement configurée au laboratoire. Il s‘agit d‘une machine virtuelle installée sous Xen (www.xen.org) reposant sur 2 cœurs à 1.8 GHz et avec 1 Go de RAM. L‘utilisation du logiciel se fait avec un accès par « login » et mot de passe. Les calculs sont entièrement faits sur la grille EGEE notamment la recherche de spécificité.

L‘interface permet de sélectionner les genres en choisissant de faire une seule conception ou de soumettre une liste de conceptions à la grille de calcul comme le montre la Figure 62. L‘utilisateur est capable de choisir également la base de données de référence sur laquelle s‘effectuera la recherche de spécificité.

Mohieddine MISSAOUI Page 182 Figure 62: Interface de sélection des critères de conception de sondes pour biopuces ADN phylogénétiques

sur la grille EGEE.

Les différents stades de conceptions des sondes sur la grille sont affichés à l‘utilisateur suivant leurs états respectifs (en cours d‘exécution ou terminée). Le résultat est disponible dès que la conception est terminée et peut être téléchargée à partir de l‘interface. Afin d‘optimiser le temps de calcul, nous avons parallélisé l‘application sur la grille EGEE et nous l‘avons testée pour tous les genres des champignons.

Dans le document Contributions algorithmiques à la conception de sondes pour biopuces à ADN en environnements parallèles (Page 179-183)