• Aucun résultat trouvé

5.4 Donn´ees artificielles

5.4.1 Le g´en´erateur Rose

Rose permet de produire `a partir d’une s´equence ancestrale un ensemble de s´equences

“homologues” en simulant un processus ´evolutionnaire. Le programme propose un choix de param`etres importants. Nous ne d´ecrirons cependant que les fonctionnalit´es que nous avons utilis´ees. Le programme commence par construire un arbre ´evolutionnaire uniforme

binaire de profondeur 9 soit 29+1−1 = 1023 noeuds. Une s´equence ancestrale de longueur choisieLest associ´ee `a la racine de l’arbre. Cette s´equence sera l’ancˆetre commun de toutes les s´equences qui seront g´en´er´ees. Cette s´equence ancestrale est g´en´er´ee al´eatoirement en utilisant une distribution de probabilit´e pour les acides amin´es. La distribution utilis´ee est celle d´ecrite dans (Dayhoff et al., 1978). Une distance ´evolutive est associ´ee aux branches (la mˆeme distance pour toutes les branches). L’unit´e utilis´ee est le PAM ((Percent Ac-cepted Mutation). Une distance de 1 PAM correspond `a une mutation attendue par 100 acides-amin´es. La distance associ´ee aux branches est approxim´ee `a partir d’un param`etre appel´e dav, de fa¸con `a ce que la distance entre deux feuilles prises au hasard corresponde en moyenne `a dav. L’arbre ainsi construit comporte 512 feuilles. Afin d’obtenir le nombre de s´equencesT requis,T feuilles sont choisies al´eatoirement et les autres sont supprim´ees.

Les noeuds internes qui ne sont plus n´ecessaires (ne poss`edent plus qu’un seul fils) sont

´egalement supprim´es, mais en conservant les distances ´evolutionnaires initiales. Les noeuds inutiles disparaissent mais les longueurs des branches restent identiques. L’arbre ainsi ob-tenu servira de guide de mutation pour g´en´erer les s´equences filles et repr´esentera donc l’histoire de l’´evolution de l’ensemble de s´equences homologues qui sera g´en´er´e. La Figure 5.5 pr´esente un exemple d’arbre g´en´er´e par Rose avec T = 16 et dav = 1000.

Une fonction :sf ille =evolue(smere) est appliqu´ee r´ecursivement dans l’arbre afin de g´en´erer une s´equence (fille) dans chaque noeud `a partir de son ancˆetre direct (m`ere). Cette fonction fait subir trois types de transformation `a smere : lessubstitutions, les insertions et les d´el´etions.

• Les substitutions : une fonction,sf ille(i) =subst(smere(i), d) est appliqu´ee sur toutes les positions ide smere afin de g´en´erer la s´equence fille `a une distance ´evolutive d souhait´ee. Le programme utilise une matrice D, de taille 20X20, o`u chaque entr´ee D(i, j) donne la probabilit´e que σj (le jeme symbole de l’alphabet), soit substitu´e par σi, et pour une unit´e de distance (PAM 1). La somme des probabilit´es d’une colonne vaut 1.0 : ∀j ∈ 1..K,PK

i=1D(i, j) = 1.0. Les probabilit´es D(i, i) situ´ees sur la diagonale repr´esentent le degr´e de stabilit´e. Si par exemple, pour toutes les valeursD(i, i) = 0.99, il en r´esultera que pour une unit´e de distance, seul un pourcent des symboles subiront une substitution. Le programme utilise par d´efaut la matrice de probabilit´e de distance PAM 1 d´ecrite dans (Dayhoff et al., 1978), et r´ep`ete la proc´edure autant de fois que n´ecessaire jusqu’`a atteindre la distance d sp´ecifi´ee par la longueur de la branche concern´ee dans l’arbre. Le fait d’utiliser des probabilit´es de substitution biais´ees simule implicitement le ph´enom`ene de s´election naturelle. En effet, dans la nature, les probabilit´es de mutations ne sont pas biais´ees en fonction des symboles, mais sont plus ou moins al´eatoires dans l’ADN. Une mutation impliquant la substitution d’un acide amin´e et alt´erant de ce fait gravement la fonction d’une prot´eine sera ´elimin´ee d’elle mˆeme car l’organisme concern´e ne pourra pas survivre et la transmettre `a d’´eventuels descendants. Le programme ne peut ´evidement pas simuler cette s´election explicitement, mais il la mod´elise directement par les biais d´ecrits dans la matrice de substitution utilis´ee.

• Les insertions et les d´el´etions : le processus de cr´eation d’indels est plus empirique.

L’utilisateur sp´ecifie les probabilit´es pins (insertion) et pdel (d´el´etion), avec laquelle chaque position desmeresubira une insertion ou une d´el´etion pour une distance PAM 1. L’utilisateur sp´ecifie ´egalement une distribution de longueurs attendues pour les insertions et les d´el´etions.

5.4. DONN ´EES ARTIFICIELLES 93

Fig. 5.5 : Un exemple d’arbre ´evolutionnaire g´en´er´e par le programme Rose avec les param`etres T = 16 et dav = 1000. Chaque noeud de l’arbre repr´esente une s´equence et les branches entre les noeuds ont une longueur proportionelle `a la distance ´evolutive qu’ils repr´esentent. Les plus petites branches repr´esentent une distance de 125 PAM. La lon-gueur de toutes les branches est un multiple entier de 125 PAM. Ces distances sont d´etermin´ees par le programme de fa¸con `a approximer une distance moyennedav entre les feuilles prises deux `a deux. La racine de l’arbre est sp´ecifi´ee par le rond noir. Elle contient la s´equence ancestrale commune. Une simulation d’´evolution `a partir de cette s´equence ancestrale permet de g´en´erer r´ecursivement des s´equences filles dans les noeuds internes, jusqu’aux feuilles. Celles-ci contiendront les s´equences de l’ensemble homologue g´en´er´e. Les s´equences prises deux `a deux dans cet ensemble pr´esenteront des degr´es de divergence variables selon la distance `a laquelle se trouve leur ancˆetre commun le plus proche, mais elles seront toutes `a la mˆeme distance de la s´equence ancestrale, situ´ee `a la racine de l’arbre.

Le programme propose ´egalement la possibilit´e de modifier plus ou moins la pression

´evolutive sur chaque site de la s´equence ancestrale. Il faut pour cela sp´ecifier une valeur r´eelle tei qui permet d’augmenter ou de diminuer lin´eairement le taux d’´evolution `a une position donn´ee smere(i) de la s´equence m`ere. Une valeur inf´erieure `a 1.0 diminue la dis-tance PAM et supprime les mutations de type indels pour le symbole sp´ecifi´e. On peut de cette mani`ere en sp´ecifiant des tei <1.0 pouri∈ {1..W}, forcer le processus ´evolutif

`a conserver un motif de largeur W sans indels, dont les occurrences prises deux `a deux auront une distance ´evolutive moyenne plus petite que pour le reste des s´equences. Ces valeurstei doivent ˆetre sp´ecifi´ees pour toutes les positions de la s´equence ancestrale. Elles sont ensuite reproduites pour les s´equences filles. Dans le cas d’une d´el´etion, lestei corres-pondants sont supprim´es, et des tei = 1 sont ajout´es aux positions correspondant `a une insertion.