• Aucun résultat trouvé

3.4 Pondérer les séquences d’apprentissage pour maximiser l’informativité du

3.4.1 Pondération sans construction d’arbre

La première méthode de pondération des séquences à partir de distances d’édition a été publiée par Vingron & Argos [Vingron et Argos, 1989]. Les auteurs établissent une ma- trice de distances entre séquences, constituée simplement des distances d’édition deux à deux d(si, sj). Ils calculent ensuite pour chaque séquence d’apprentissage sa distance aux

autres séquences, et la somme de telles distances donne le poids relatif de cette séquence, après normalisation : wi = P k6=id(si, sk) P jPk6=jd(j,k) (3.10) Selon cette première méthode, plus une séquence diffère des autres et plus on lui accor- dera d’importance lorsqu’il s’agira d’estimer sa contribution à l’ensemble pendant la phase d’apprentissage des paramètres du modèle. Mais comme on peut s’en rendre compte ra- pidement, une telle méthode n’est pas assez«sévère»pour réduire le poids de séquences

plus ou moins identiques. Prenons par exemple une famille de cinq séquences a, b, c, d et e dans laquelle deux séquences figurent chacune en double exemplaire, en dehors de quoi les séquences sont équidistantes entre elles (a = b, c = d et d(a,c) = d(a,e) = d(c,e)).

3.4. PONDÉRER LES SÉQUENCES D’APPRENTISSAGE POUR MAXIMISER

L’INFORMATIVITÉ DU MODÈLE 57

On obtient alors pour les séquences présentes en double un poids individuel de 163 contre seulement14 pour la séquence e qui est singulière. Or on s’attendrait plutôt à voir 16pour chacune des séquences en double contre13pour la séquence unique.

La méthode dite de Voronoï

Ultérieurement, d’autres algorithmes de pondération par méthodes de distance ont été conçues pour tenter de corriger de tels problèmes. Sibbald et Argos ont ainsi publié en 1990 une autre méthode, basée sur les diagrammes de Voronoï [Sibbald et Argos, 1990]. L’idée de tels diagrammes est de partir d’un ensemble de points xidans un espace multidimension-

nel E pour partitionner ensuite cet espace en un certain nombre de polyèdres Ωi centrés

chacun en un des points xi. Les partitions Ωisont déterminées de telle manière que :

∀i, Ωi= {s ∈ E , ∀j 6= i d(s, xi) < d(s,xj)} (3.11)

Le volume du polyèdre Ωiest ensuite pris comme poids affecté à xi.

Ici l’espace E est l’ensemble des séquences biologiques et les points xi sont les sé-

quences d’apprentissage. E n’étant pas naturellement défini comme un espace métrique de dimension finie, il est très difficile d’estimer mathématiquement les frontières entre les Ωi et donc les volumes ou poids affectés aux séquences. L’idée de [Sibbald et Argos,

1990] est d’échantillonner très partiellement l’espace E en effectuant des altérations élé- mentaires des séquences d’apprentissage xi : les auteurs construisent ainsi l’ensemble

de toutes les séquences possibles obtenues par une mutation par rapport à l’une des séquences d’apprentissage. Pour travailler avec un ensemble de séquences virtuelles qui soit à la fois de taille raisonnable et composé de séquences ayant une certaine chance d’apparaître dans la réalité, ils se cantonnent à fabriquer des séquences virtuelles en sé- lectionnant aléatoirement pour chaque position un caractère vu au moins une fois dans l’alignement sur le site en question. L’ensemble des combinaisons possibles est examiné. Pour chacune des séquences virtuelles ainsi créées, on calcule sa distance d’édition avec chacune des séquences de l’ensemble d’apprentissage, après quoi celle des séquences d’apprentissage qui est la plus proche de la séquence mutée gagne un point : celle-ci rentre dans son voisinage Ω. En cas d’ex-æquo, le point est partagé. Après normalisation, la somme des points gagnés par une séquence donne son poids relatif.

Cette méthode présente l’attrait d’une description théorique de l’espace des séquences accompagnée de l’idée de son partitionnement, mais en pratique, la chose devient vite computationnellement impraticable lorsque les séquences sont nombreuses et très di- vergentes. Le recours à des méthodes de Monte Carlo pour échantillonner l’espace E est possible, mais la pauvreté de l’échantillonnage peut rendre contestable toute la méthode.

58 CHAPITRE 3. DES MODÈLES POUR DÉCRIRE UN ALIGNEMENT

Clustering des séquences

Henikoff et Henikoff ont publié en 1992 le jeu de matrices sans doute le plus populaire jusqu’ici parmi les structuralistes et très largement utilisé dans de nombreux logiciels d’ali- gnement, les matrices BLOSUM [Henikoff et Henikoff, 1992]. Celles-ci ont été construites à partir de blocs de sites extraits d’alignements multiples. Pour réduire l’importance de séquences très proches lors du processus de comptage des paires d’acides aminés alignés, Henikoff & Henikoff ont proposé de grouper les séquences les plus proches en un certain nombre de clusters pour ensuite attribuer un poids de 1 à chacun de ces clusters.

Cette approche a perduré et a été notamment retenue pour être implémentée dans la suite HMMER, de la façon suivante : un seuil de similarité est défini tout d’abord par l’uti- lisateur (s = 0,62 par défaut). On forme ensuite des groupes de séquences en regroupant progressivement celles présentant une proportion au moins égale à s de sites identiques l’une par rapport à l’autre. Ce processus itératif d’agglomération est dit«à simple lien»

(single linkage) car on intègre une séquence x dans le cluster C en formation dès lors qu’il existe au moins une séquence y de C avec laquelle x présente au moins une proportion s de sites identiques. Enfin, le poids d’un cluster est réparti uniformément entre toutes les séquences le composant.

Henikoff & Henikoff : poids basés sur les positions

Dans un papier de 1994, Henikoff et Henikoff [Henikoff et Henikoff, 1994] ont pro- posé une méthode rapide de pondération des séquences qui ne partirait pas de distances deux-à-deux calculées globalement sur toute la longueur de l’alignement, mais plutôt d’un schéma consistant à mesurer site par site la diversité constatée dans l’alignement d’apprentissage, et à«récompenser»chacune des séquences proportionnellement à leur

apport à la diversité du site. Pour ce faire, ils attribuent le même«crédit unitaire»à chacun

des résidus vus sur un site donné. Par exemple, sur un site composé uniquement de I, de L et de V, l’isoleucine, la leucine et la valine ont chacune un crédit de 13. Ce crédit est ensuite partagé à égalité entre les séquences qui présentent une isoleucine, tandis que celles qui présentent une leucine se partagent également entre elles le crédit«leucine». Au bout du

compte, une séquence qui aura été la seule à présenter une isoleucine recevra l’intégralité du crédit de 13, alors que les autres séquences se partageront les crédits accordés à L et à V. On obtient le poids relatif pour une séquence en sommant les crédits ainsi attribués position par position, tout le long de la séquence.

Ce schéma de pondération des séquences est celui qui est adopté par défaut par HM- MER3.

3.4. PONDÉRER LES SÉQUENCES D’APPRENTISSAGE POUR MAXIMISER

L’INFORMATIVITÉ DU MODÈLE 59

Approche basée sur la maximisation de l’entropie

Enfin, pour clore le chapitre concernant les méthodes de pondération sans construc- tion d’arbre, signalons le travail de Krogh et Mitchison [Krogh et Mitchison, 1995], qui ont publié en 1995 une méthodologie de pondération des séquences dont le but était de maxi- miser l’entropie informationnelle (entropie de Shannon) des distributions pondérées d’a- cides aminés observés sur les différents sites de l’alignement. Proposée dans HMMER2, cette méthode a été abandonnée dans HMMER3.