La comparaison entre notre algorithme évolutionnaire quantique et celui de Han et kim

Une approche quantique évolutionnaire pour l'alignement multiple de séquences

QUANTALIGN CLUSTAL DIALIGN MAFFT PROALIGN

4.7 La comparaison entre notre algorithme évolutionnaire quantique et celui de Han et kim

Notre approche est généralement basé sur le modèle standard d'algorithme évolutionnaire quantique proposé initialement par Han et Kim [Han et al, 01]. Cependant, on a apporté plusieurs améliorations à cet algorithme pour le rendre plus adapté, rapide et efficace pour le problème d'alignement multiple de séquences. Dans l'expérience du knapsack, Han et Kim ont utilisé seulement l'interférence et la mesure quantique pour créer la diversité. Cependant, se limiter seulement à ces deux opérations dans le cas de l'alignement multiple est dérisoire. Nous avons utilisé plusieurs types de mutations bien définies afin d'explorer d'autres solutions et bien guider la recherche. Un apport très important qui a permet de réduire efficacement le temps de convergence est la possibilité de faire un retours en arrière vers la matrice quantique précédente dans le cas d'une mauvaise solution. Vu que les opérations quantiques sont réversibles alors on peut annuler un changement effectué par une mutation qui a donné une mauvaise solution. Cet apport a l'avantage d'accélérer d'interférence vers la meilleure solution courante. Par exemple, supposant que les scores de toutes les solutions sont représentés par la courbe de la figure 4.31 et la meilleure solution courante est B. Apres la mutation de la matrice quantique QM(t) on aura une nouvelle matrice quantique QM(t+1). La mesure de cette dernière et l'évaluation de la solution correspondante donnent une mauvaise solution par rapport à celle obtenue par QM(t) (figure 4.31). Cependant, dans chaque étape on doit interférer vers la bonne solution courante (B). On aura un perte de temps considérable pour passer de la configuration QM(t+1) a la matrice quantique QM(B) correspondante à la meilleure solution courante B. Pour cela, on propose d'annuler le changement fait sur la matrice QM est revenir donc à la configuration QM(t). Ce rebroussement de chemin va réduit considérablement le temps de convergence vers la meilleure solution et évite de faire et répéter vainement des recherches non significatives. On maintien donc la recherche dans le voisinage de la solution courante.

Pour démonter la robustesse de cette approche, nous avons implémenté l'approche utilisée par Han et Kim dans leur expérience du knapsack [Han et al, 01], pour le problème d'alignement multiple. Les résultats obtenus par cette méthode sont comparés à ceux produits par notre approche. Dans cette expérience on a utilisé une solution non alignée pour voir l'efficacité de chaque méthode. En plus, on a utilisé les mêmes paramètres de l'algorithme évolutionnaire quantique et les paramètres d'alignement multiple pour les deux méthodes. Dans cette expérience on a fixé le nombre d'itérations à 5000. Pour chaque test on a pris la moyenne de cinq exécutions consécutives.

Les résultats obtenus au cours de cette expérience (table 4.15) montrent clairement que notre méthode est largement supérieure à celle proposée par Han et Kim dans le problème du

knapsack. Dans les deux derniers tests contenant des séquences de taille supérieure à 260 avec une moyenne d'identité entre les séquences est inférieure à 32%, l'approche de Han et Kim n'a pu améliorer la solution initiale d'un cran (table 4.15).

Figure 4.31. L'avantage de rebroussement de chemin dans le cas d'une mauvaise solution.

Solution initiale Notre approche L'approche de HAN Score BALiBASE SPS CS SPS CS SPS CS 2trx_ref1 0.193 0.000 0.449 0,245 0,221 0,000 1aab_ref1 0.000 0.000 0.630 0.419 0,222 0,000 1idy_ref1 0.038 0.000 0.258 0,054 0,154 0,000 1ar5a_ref1 0.061 0.000 0,615 0,380 0,326 0,084 Kinase_ref1 0.240 0.139 0,341 0,139 0,240 0,139 Glg_ref1 0.075 0.000 0,299 0,064 0,075 0,000

Table 4.15. La comparaison entre notre approche et l'approche de Han et Kim pour le MSA. 4.8 L'effet de l'augmentation de la taille de la population

Au cours de toutes les expériences précédentes, la population de chromosomes de l'algorithme évolutionnaire quantique contient seulement un seul chromosome quantique. La question qui se pose : l'augmentation du nombre de chromosomes quantiques va-t-elle diminuer le nombre d'itérations nécessaire pour avoir un bon alignement? Pour répondre à cette question, on a effectuer l'expérience suivante: on a comparé les résultats obtenus en utilisant un seul chromosome avec ceux obtenus par l'utilisation de quatre chromosomes. Dans cette expérience on a fixé le nombre d'itérations à 2000. Pour chaque test on a pris la moyenne de cinq exécutions consécutives. L'expérience à montré (table 4.16) que les résultats trouvés par l'approche utilisant 4 chromosomes quantiques est nettement meilleurs que ceux obtenus par un seul chromosome quantiques. Cette expérience prouve que le temps d'exécution de notre approche peut être considérablement réduit en utilisant une implémentation parallèle de notre approche. X B X B X t X t+1 X t Retours à la matrice QM (t) Apres la mutation de la matrice QM(t)

Chapitre 4 une approche quantique évolutionnaire pour l'alignement multiple 105 Taille de la population 4 chromosomes Un seul chromosome Score BALiBASE SPS CS SPS CS 2trx_ref1 0,388 0,127 0,360 0,094 1aab_ref1 0,604 0,319 0,392 0,175 1idy_ref1 0,274 0,077 0,192 0.000 1ar5a_ref1 0,719 0,541 0,640 0,372 Kinase_ref1 0,377 0,185 0,352 0,158

Table 4.16. L'effet de la taille de la population sur la précision de la solution (La moyenne de cinq exécutions consécutives pour 2000 itérations). 4.9 Le rôle de l'interférence dans le processus d'optimisation par AQE

Dans cette expérience, on démontre l'impact de l'opération d'interférence dans le processus d'optimisation par les algorithmes quantiques évolutionnaires. La table 4.17 suivante montre les résultats obtenus en utilisant QEAMSA avec interférence et sans interférence.

Solution initiale Avec interférence Sans interférence Score BALiBASE SPS CS SPS CS SPS CS 2trx_ref1 0.193 0.000 0.444 0.195 0,193 0,000 1hava_ref1 0.033 0.000 0.054 0.000 0.033 0.000 1idy_ref1 0.038 0.000 0.241 0.077 0,038 0,000 1gdoa_ref1 0.189 0.000 0.499 0.294 0.220 0.110 Kinase_ref1 0.240 0.067 0.464 0.235 0,240 0,139

Table 4.17. Le rôle de l'interférence dans le processus d'optimisation. 4.10 La complexité de notre approche

Pour aligner un ensemble de m séquence dont la taille de la plus grande séquence est n, la complexité de notre programme est dépendante de plusieurs facteurs. Les étapes qui consomment considérablement le temps CPU sont les suivantes:

1. La complexité pour calculer une solution initiale est égale à m*(m-1)/2*n² où n² est la complexité de l’algorithme de Needleman pour l’alignement de paires de séquences et m*(m-1)/2 et le nombre de toutes les paires possibles de séquences.

2. La complexité de l'évaluation de la fonction objectif WSPS est m∗(m−1)/2∗n. 3. La complexité des opérations d'interférences, de mesure et de traduction est

approximativement égale à m*n.

4. La complexité d’une boucle de k itérations est égale à la somme des complexités de (2) et (3 ) multipliée par k : k∗(m∗(m−1)/2∗n+m∗n).

Donc la complexité totale est approximativement égale à la somme des complexités précédentes :

2 2 2 n m n m k n m k complexité= ∗ ∗ + ∗ ∗ + ∗ (4.2)

Où m : nombre de séquences, n : la taille de la plus grande séquence, et k: le nombre d’itérations de l’algorithme quantique évolutionnaire.

Donc le temps CPU de nos résultats est dépendant de la taille des séquences, le nombre de séquences et le nombre d’itérations. Ce dernier est très dépendant de la dureté de l’ensemble de séquences à aligner. En effet on peut aligner un ensemble de 5 séquences en 2 minute parce qu’il contient des séquences faciles à aligner or on a besoin de 10 minutes ou plus pour aligner un autre ensemble de 5 séquences vu la dureté de ses séquences. Concernant la complexité spatiale des approches développées, QUANTALIGN et QEAMSA ne sont pas gourmande en matière de ressource mémoire. Tous les résultats précédents sont obtenus sur une machine avec 128 MO de mémoire. Dans toutes les expériences, même avec les larges tests comme les tests Kinase2_ref4 (17 séquences, taille de l'alignement >1000 et une moyenne d'identité de 20%), 1Pama_ref3 (19 séquences, taille de l'alignement >600 et une moyenne d'identité de 29%), le problème d'espace mémoire ne s'est pas posé. En effet, MATLAB nécessite simplement moins de 64 MO pour qu'il fonctionne correctement pour ce problème.

Dans le document Approche quantique évolutionnaire pour l'alignement multiple de séquences en bioinformatique (Page 111-114)