Nombre maximum d’it´ erations dans un graphe

Dans l’implantation de la méthode, il y a une option pour arrêter la construction de graphes trop longs (selon le nombre d’étapes). Quand la construction d’un graphe est stoppée de cette manière, la vraisemblance associée à ce graphe de- vient nulle, autrement dit le poids de ce graphe est 0, mais on tient évidemment compte de “l’annulation” de ce graphe dans le calcul de la vraisemblance. Soit ν le nombre maximum d’´evénements permis pour la construction d’un graphe.

Dans l’application de la méthode, nous prenons une valeur tellement grande de ν qu’en pratique la construction d’un graphe n’est jamais arrˆetée. Notons que le résultat du programme précise le nombre de graphes ainsi abandonnés.

Dans la construction des graphes, il y a de grandes différences entre les poids des différents graphes, de telle sorte que seulement une faible proportion des graphes contribuent réellement à la vraisemblance. Bien qu’il n’existe pas de relation directe entre le poids d’un graphe et le nombre d’étapes nécessaires à sa construction, nous pouvons tenter d’améliorer la vitesse du programme en arrêtant tôt la construction des graphes contenant trop d’étapes. Notons qu’un procédé similaire est utilisé dans Griffiths et Marjoram (1996), mais le procédé pour arrêter la construction des graphes n’est pas clairement précisé.

Une des fa¸cons les plus simples d’évaluer l’effet d’une telle méthode est de la simuler. Nous prendrons trois exemples, et pour chacun d’eux, nous calculerons la vraisemblance de fa¸con usuelle, mais aussi pour diff´erents niveaux de ν, et ceci sur les mêmes graphes. Soit ¯ν le pourcentage des graphes dont le nombre d’étapes est inférieur ou égal `a ν. Nous allons choisir 10 valeurs de ν correspon- dant approximativement à des valeurs de ¯ν de 90%, 80%, 70%, 60%, 50%, 40%, 30%, 20%, 10%, et 5%. Le tableau 5.4.2 présente pour chacun des trois exemples, les valeurs de ν, les valeurs correspondantes de ¯ν, et les temps de calcul qui en découlent. La dernière ligne du tableau est une référence afin de pouvoir com- parer les temps de calcul; cette référence est calculée avec une grande valeur de ν de telle sorte que ¯ν = 100%. Notons que pour l’exemple D, la r´eférence utilisée est ¯ν ≈ 70%; pour cet exemple, ρ est très grand, les graphes peuvent être très longs, et la version rapide du programme est utilisée (cf. section 4.7), ce qui a pour conséquence que 30% des graphes ont des poids inférieurs à la précision de la machine, et ne peuvent être calculés. Dans la colonne du temps, on trouvera un petit graphique indiquant le gain de temps que l’on réalise à utiliser une valeur particuli`ere de ν: une barre compl`etement noire indique la référence, et une barre entièrement blanche exprime que deux fois moins de temps est nécessaire pour

faire le même nombre d’itérations. Les estimations de ¯ν sont bas´ees sur 5M de simulations pour les exemples B et C, et sur 500m simulations pour l’exemple D; notons que ces proportions sont très stables, quel que soit le nombre de simulations. Ensuite, 10 évaluations de la vraisemblance ont été effectuées pour chacune des valeurs de ν, et une autre ´evaluation pour servir de référence de telle sorte que l’on ait ¯ν = 100%.

Tableau 5.4.2. Évaluation du pourcentage de graphes rejetés (¯ν) et du gain de temps de calcul en modifiant le nombre d’it´erations permis (ν) pour reconstruire un graphe pour les exemples B, C et D.

B C D

ν ¯ν Temps ν ¯ν Temps ν ¯ν Temps

45 91.2 7m32s 136 91.1 9m8s · · · 40 77.9 7m20s 131 83.0 9m5s · · · 37 71.0 7m10 128 70.1 8m47s · · · 35 62.7 6m59s 125 61.9 8m46s 630 61.34 15m55s 33 53.2 6m47s 123 52.6 8m27s 515 49.31 14m22s 31 42.7 6m32s 121 42.7 8m18s 442 40.07 13m6s 30 31.9 6m25s 120 32.8 8m11s 378 30.41 11m46s 27 21.7 5m54s 118 23.6 7m56s 319 19.92 10m34s 25 13.0 5m31s 114 9.5 7m24s 263 9.41 9m4s 23 6.4 5m32s 112 5.1 7m7s 232 4.39 8m4s Ref 100 7m46s Ref 100 9m9s 9000 69.07 16m59s

Le nombre moyen d’étapes nécessaires pour la construction des graphes est 33.5 ± 8.1 pour l’exemple B, 123.3 ± 8.4 pour C, et 424.5 ± 143,6 pour D (moyennes calculées sur des graphes construits sans contrainte). On peut voir que le gain de temps commence à être appréciable seulement pour de petites valeurs de ν, c’est-`a-dire quand on stoppe très tôt la construction des graphes. Le gain est de l’ordre d’une fois et demi pour les deux premiers exemples, mais le gain peut être fort appréciable (deux fois) pour le dernier exemple.

La figure 5.4.1 montre les évaluations de la même vraisemblance pour l’exemple B effectuées pour les diff´erentes valeurs de ν du tableau 5.4.2. Nous avons pour cela modifi´e le programme afin qu’il calcule la vraisemblance selon ν; ainsi,

on peut apprécier exactement l’effet de cette approximation. Onze courbes sont représentées sur chacun des graphiques (a) et (b), mais certaines ne sont pas visibles, car elles sont surimposées sur la courbe la plus foncée, qui est la courbe référence. Chacune de ces courbes est une évaluation de la même vraisemblance. Les trois courbes les plus basses de (a) correspondent respectivement aux valeurs de ¯ν de 5%, 10% et 20%. Plus ¯ν est petit, plus le nombre de graphes abandonn´es est grand, et plus la vraisemblance est basse. Il est intéressant de noter que les courbes correspondant aux valeurs de ¯ν sup´erieures à 30% sont assez semblables `

a la courbe de référence. À ¯ν = 30%, cela signifie qu’environ 70% des graphes sont abandonnés, donc que seulement 30% d’entre eux contribuent réellement à la vraisemblance. Si l’on observe la figure (b) qui correspond à 5M d’itérations, on observe qu’à partir de ¯ν ≈ 70%, la vraisemblance est la même. Elle montre donc un profil légèrement différent. Seules les courbes correspondant aux valeurs 70%, 80% et 90% de ¯ν sont similaires `a la courbe de référence. Cela signifie que 70% des graphes contribuent à la vraisemblance. Il est intéressant de noter que les courbes pour des valeurs de ¯ν d’au moins 20% sont quand mˆeme assez proches de la courbe de référence, en ce qui concerne la hauteur et la position du maximum. -21.3 -21 -20.7 -20.4 -20.1 -19.8 -19.5 -19.2 -18.9 -18.6 0.001 0.003 0.005 0.007 0.009 0.011 (a) -22 -21.6 -21.2 -20.8 -20.4 -20 -19.6 -19.2 -18.8 0.001 0.003 0.005 0.007 0.009 0.011 (b)

Figure 5.4.1. Courbes de vraisemblance pour l’exemple B, pour les 10 niveaux de ν du tableau 5.4.2: a) 1M d’it´erations, b) 5M d’it´erations.

Les figures 5.4.2 (a) et (b) présentent des profils très similaires pour l’exemple C: seules les courbes correspondant aux valeurs de 5% et 10% de ¯ν sont visi- bles: les 8 autres courbes sont confondues avec la courbe de référence. On peut donc en déduire que l’on pourrait utiliser une valeur de ¯ν de 20% sans affecter l’estimation, c’est-à-dire omettre 80% des graphes.

-93.6 -93 -92.4 -91.8 -91.2 -90.6 -90 -89.4 -88.8 -88.2 0 0.012 0.024 0.036 0.048 (a) -94.2 -93.6 -93 -92.4 -91.8 -91.2 -90.6 -90 -89.4 -88.8 0 0.012 0.024 0.036 0.048 (b)

Figure 5.4.2. Courbes de vraisemblance pour l’exemple C, pour les 10 niveaux de ν du tableau 5.4.2: a) 1M d’it´erations, b) 5M d’itérations. Pour notre dernier exemple (D), nous avons une profil un peu différent: pour les deux cas, 100m et 1M d’itérations, toutes les sept courbes sont confondues avec notre courbe de référence; la vraisemblance est ainsi la même pour ¯ν ≈ 70% que pour ¯ν≈ 5%, ce qui veut dire que peu de graphes, moins de 5%, contribuent en fait à la vraisemblance (cf. fig. 5.4.3 (a) et (b)). Ceci peut s’expliquer en partie par le type de l’exemple: ce sont des données réelles, et la distribution proposée qui construit les graphes est probablement moins efficace dans ce cas: ainsi, on génère beaucoup de graphes ayant un grand nombre d’étapes et un petit poids associé, et peu de graphes courts ayant des poids plus grands. La vraisemblance ´

etant définie par la moyenne des poids, on voit ainsi que si l’on abandonne en cours d’évaluation les graphes ayant un grand nombre d’étapes, et qu’on leur assigne un poids nul, cela ne fait pratiquement aucune différence, c’est comme si on avait continué la construction des ces graphes jusqu’au MRCA afin d’avoir une juste évaluation de la vraisemblance. Donc, à toute fin pratique, le poids de

ces longs graphes abandonnés est nul par rapport au poids des autres graphes. En conclusion, on constate que peu de graphes contribuent en fait à la vraisemblance. L’utilisation de cette option peut nous faire gagner un temps important. On a vu que pour l’ensemble de données D, par exemple, nos estimations peuvent ˆetre obtenues deux fois plus rapidement en utilisant une valeur de ν

-373.2 -372.6 -372 -371.4 -370.8 -370.2 -369.6 -369 -368.4 -367.8 -367.2 0.3 0.34 0.38 0.42 0.46 (a) -367.2 -366.3 -365.4 -364.5 -363.6 -362.7 -361.8 -360.9 -360 0.3 0.34 0.38 0.42 0.46 (b)

Figure 5.4.3. Courbes de vraisemblance pour l’exemple D, pour les 7 niveaux de ν du tableau 5.4.2: a) 100m d’it´erations, b) 1M d’itérations.. menant à ¯ν ≈ 5%. Compte tenu que plusieurs jours, voire plusieurs semaines, peuvent être nécessaires pour obtenir des résultats stables, il est plus que tentant de restreindre le nombre d’étapes des graphes. La valeur de ¯ν `a utiliser n’est cependant pas facile à déterminer. Plusieurs essais comme l’on vient de le faire montrent assez clairement la valeur maximum à ne pas utiliser.

Dans le document Cartographie génétique fine par le graphe de recombinaison ancestral (Page 185-190)