• Aucun résultat trouvé

Description des ensembles de donn´ ees

Trois ensembles de donn´ees ont ´et´e simul´es selon un mod`ele neutre de Wright- Fisher (voir, par exemple Neuhauser (2001) ou Nordborg (2001)) par le pro- gramme ms (Hudson, 2002) en supposant une taille de population constante. Ce programme suppose une infinit´e de sites, et des mutations se produisent sur ces sites; seuls les sites polymorphiques sont alors consid´er´es. Un ´echantillon de n s´equences est g´en´er´e avec un certain ρ, de sorte que l’on ait L marqueurs. Un de ces marqueurs est alors suppos´e ˆetre la mutation causant la maladie. On suppose donc que ce marqueur est `a un emplacement inconnu, `a une distance inconnue, et est en linkage complet avec le g`ene causant la maladie. Ce marqueur devient en fait le TIM, et le but de l’analyse est de trouver pr´ecis´ement son emplacement. Notons qu’une hypoth`ese doit ˆetre faite pour convertir ρ en distance g´en´etique, c’est-`a-dire en Morgans: nous supposons, comme on le fait habituellement que la taille effective de la population N est 10000 (Wall, 2003). De plus, les distances

g´en´etiques sont converties en distances physiques tel que 1cM = 1 Mb. Donc, `

a partir de ρ, nous pouvons d´eduire r = ρ/(4N ), puis le nombre de kb (kilo bases) est obtenu en multipliant r par 1× 105. Ces trois exemples ont ´et´e choisis au hasard, mais on s’est assur´e que la proportion des cas dans l’´echantillon soit entre 5% et 95%, afin d’´eliminer les ´echantillons qui n’auraient pas assez de cas et qui seraient difficiles `a analyser; par ailleurs, notons que l’´echantillonnage des s´equences pour de telles ´etudes ne se fait jamais vraiment au hasard, puisque l’on ´

echantillonne les individus en fonction de leur statut par rapport `a une maladie ou un trait de caract`ere quelconque. Ces trois exemples pr´esentent tous trois des difficult´es diff´erentes, comme nous allons le voir.

i ni S´equence TIM 1 15 2 3 3 6 4 2 5 1 6 2 7 1

Figure 3.7.1. Exemple A de donn´ees simul´ees: multiplicit´e de chaque s´equence i (ni) pour i = 1, . . . , 7, les s´equences 3, 4 et 6 ´etant pour des

cas, les autres pour les t´emoins. Le TIM occupe en fait la troisi`eme position.

Le premier ´echantillon consiste en 30 s´equences de 7 types diff´erents, avec quatre marqueurs, en plus du TIM. On a 20 s´equences de t´emoins et 10 s´equences de cas. Les donn´ees sont illustr´ees `a la figure 3.7.1. La position de la mutation est ici par construction au centre des autre marqueurs, dans le second intervalle. La longueur des s´equences est ρ = 60. Nous r´ef´ererons `a ces donn´ees en parlant de l’exemple, ou des donn´ees, A.

i ni S´equence TIM 1 5 2 1 3 1 4 1 5 1 6 1

Figure 3.7.2. Exemple B de donn´ees simul´ees: multiplicit´e de chaque s´equence i (ni) pour i = 1, . . . , 6, les s´equences 1, 3, 4 et 5 ´etant

pour des cas, les autres pour les t´emoins. Le TIM occupe en fait la troisi`eme position.

Le second exemple, que nous noterons B, est constitu´e de 10 s´equences de quatre marqueurs en plus du TIM, avec 6 types diff´erents de s´equences, tel que ρ = 5, ce qui donne r = 0.0125cM. Les trois distances entre marqueurs sont r1= 0.0007382cM, r2= 0.0096382cM et r3= 0.0021236cM. La mutation cherch´ee est par construction dans le second intervalle, `a une distance approximative de 0.007 cM du premier marqueur (rT = 0.0069008993).

Le troisi`eme exemple, que nous noterons C, est constitu´e de 100 s´equences de deux marqueurs encadrant le TIM, tel que ρ = 20. Alors, r = 0.0005, et la mutation est `a la distance rT = 0.0096997351 ≈ 0.0097.

i ni S´equence TIM 1 78 2 9 3 6 4 6 5 1

Figure 3.7.3. Exemple C de donn´ees simul´ees: multiplicit´e de chaque s´equence i (ni) pour i = 1, . . . , 5, les s´equences 1, 4 et 5 ´etant pour

les cas, les autres pour les t´emoins. Le TIM occupe en fait la seconde position.

Dans l’exemple A, la proportion des cas est faible (30% de l’´echantillon), et la s´equence est assez grande (environ 150 kb). L’exemple B pr´esente 80% de cas, mais pour un effectif total tr`es faible, seulement 10 haplotypes. Le TIM se trouve dans le second intervalle, pas tr`es loin du centre de la s´equence, donc de la valeur

conductrice. La s´equence est ici plus petite, de l’ordre de 12.5 kb. Le troisi`eme exemple, C, se constitue de 100 s´equences, dont 85% de cas. La s´equence est d’environ 20 kb, et le TIM peut ˆetre difficile `a trouver car tr`es proche du d´ebut de la s´equence.

Nous utiliserons ´egalement un exemple r´eel (que nous noterons D), celui de l’´epilepsie myoclonique progressive. Il s’agit de donn´ees publi´ees dans Virtaneva et al. (1996). Nous avons 88 haplotypes cas et aucun t´emoin. Ces donn´ees sont orig- inellement des microsatellites, que nous avons convertis en marqueurs binaires, en utilisant la s´equence la plus fr´equente dans l’´echantillon comme repr´esentative de l’´etat ancestral. Chaque haplotype contient cinq marqueurs autres que le TIM couvrant une r´egion de 895 kb. Le g`ene de la maladie est maintenant connu, et a ´et´e clon´e (Pennachio et al, 1996); il est situ´e `a 30kb apr`es le second marqueur, c’est-`a-dire que rT = 0.33cM. Les distances entre les marqueurs de position con-

nue sont, d’apr`es Virtaneva et al. (1996), 300kb, 176kb, 276kb et 143kb. Nous avons assum´e, comme on le fait habituellement, que 1cM ≈ 1Mb. La valeur de ρ est ici de 358, et r = 0.00895. L’avantage de travailler sur ces donn´ees est que d’autres m´ethodes d’analyse les ont d´ej`a utilis´ees, et qu’il est tout `a fait int´eressant de comparer nos r´esultats avec d’autres m´ethodes.

i ni S´equence TIM 1 65 2 10 3 4 4 1 5 1 6 1 7 2 8 2 9 1 10 1

Figure 3.7.4. Exemple D de l’´epilepsie myoclonique progressive. Mul- tiplicit´e de chaque s´equence i (ni) pour i = 1, . . . , 10, toutes les

Enfin, nous utiliserons un autre exemple, not´e E, qui correspond `a des donn´ees de patients atteints de fibrose kystique. Ces donn´ees sont constitu´ees de 94 haplo- types cas et de 92 t´emoins. Pour chacun d’eux, nous disposons de 23 marqueurs microsatellites. Nous d´ecrirons ces donn´ees plus en d´etail† quand nous abor- derons les marqueurs microsatellites (chapitre 5); nous utiliserons pour l’instant cet exemple seulement dans le but d’obtenir des ordres de grandeur de nombre d’´ev´enements impliqu´es dans les calculs (dans le chapitre 4 par exemple, o`u nous comparons plusieurs algorithmes).

Documents relatifs