• Aucun résultat trouvé

Proximité entre microsatellites et éléments Alu

3.3 Discussion

4.2.3 Proximité entre microsatellites et éléments Alu

La gure 4.2 donne la distribution des distances entre les microsatellites et les séquences Alu. Elle montre très nettement une position préférentielle (280-281) correspondant au 3' de Alu, conr- mant l'importance primordiale de la queue polyA dans les relations entre Alu et microsatellites. Les (A)nreprésentent les 3/4 de ces associations, mais même lorsqu'on les retire de l'analyse, la position

en 3' de Alu reste proéminente. En comparaison, le linker est associé à près de 10 fois moins de microsatellites que la queue polyA (distance 117), les 3/4 de ces derniers étant là encore des (A)n.

Un certain nombre de microsatellites sont aussi à proximité directe (moins de 5 nt) du 5' des Alu.

Fig. 4.2 Distribution cumulative des distances entre (A)net autres microsatellites, et séquences Alu pour l'ensemble du génome humain, toutes familles Alu confondues. Le nombre de détections par distance est présenté selon une échelle logarithmique. Les positions des éléments Alu particulièrement associées à des microsatellites sont indiquées d'une èche rouge.

Nous avons ensuite évalué la proportion de ces microsatellites associés aux séquences Alu par rapport à la totalité. Nous avons compté le nombre de microsatellites commençant à moins de 10 nt du 3', du 5', ou dans le linker d'un élément Alu. Les microsatellites chevauchant les Alu sur 5 nt au maximum ont aussi été comptabilisés, pour prendre en compte ceux qui commencent ou nissent

dans la séquence Alu. De même, comme les Alu sont légèrement variables en taille (selon les fa- milles), les microsatellites considérés dans le linker sont ceux compris entre les positions 110 et 130. Ces calculs ont été eectués pour diverses classes de microsatellites, et les résultats sont présentés dans le tableau 4.5.

Plus de 10% de l'ensemble des microsatellites sont à proximité directe du 3' d'un Alu, et presque 3% sont présents dans le linker, ces proportions étant hautement signicatives. Cette association est en grande partie causée par les séquences (A)n, dont environ 50% (soit plus de 500 000 locus)

sont proches d'éléments Alu. De manière générale, tous les motifs riches en A (i.e., qui possèdent strictement plus de A que d'autres bases) sont plus proches des 3' et linker de Alu qu'attendu aléa- toirement. Les AAT et AAC sont particulièrement associés aux séquences Alu, tant dans la queue polyA (21,3 et 16,3% respectivement) que dans le linker (5 et 3,4%), alors que la proportion de GAA associés est beaucoup plus faible (2,7 et 0,46% dans le polyA et le linker respectivement). Les microsatellites pauvres en A présentent la tendance inverse, avec moins d'associations qu'attendu aléatoirement, tant en 3' que dans le linker. Les polyG/C représentent toutefois une exception avec presque 4,5% d'association avec le 3' ou le linker d'un élément Alu. Les dinucléotides AT, AC ou AG ne sont ni riches, ni pauvres en A, et sont positivement associés aux 3' et linker des séquences Alu dans une proportion de 5,15%, 2,23% et 4,04%, respectivement.

Enn, les microsatellites associés aux 5' des Alu sont là aussi signicativement plus nombreux que l'attendu aléatoire, même s'ils ne représentent que 1,12% de l'ensemble des microsatellites. Cette sur-représentation est causée uniquement par les motifs riches en A, plus les (AT)n.

Présence de microsatellites à l'intérieur des Alu

Les résultats les plus inattendus que nous montre le graphique 4.2 sont toutefois les multiples pics à diverses positions internes des Alu (positions 43, 50, 73, 142, 178, 207 et 242). L'analyse des distances a donc été reconduite motif par motif pour déterminer si ces pics étaient produits par des motifs particuliers. Les résultats sont présentés dans la gure 4.3.1. La position 43 des séquences Alu est associée à trois motifs de manière équivalente ((GAGGCX)n, avec X égal à C, G ou T), tandis

que les autres positions sont préférentiellement associées à un seul motif.

La séquence consensus Alu a été analysée aux positions données pour déterminer si ces micro- satellites sont présents par défaut dans les éléments Alu. Aucun microsatellite n'a été détecté, mais la séquence présente presque à chaque fois un quasi-microsatellite favorisant la création d'un mi-

Tab. 4.5 Nombre total de microsatellites mono à hexanucléotides dans le génome humain, pour diérentes classes de motifs, et la proportion qui est associée au 3', au linker, au 5', ou à une position interne d'un Alu (à lire par ligne). L'association est limitée aux microsatellites présents au maximum à 10 bases de l'extrémité du Alu, ou à 5 bases à l'intérieur, pour les régions 3' et 5'. Le linker est délimité par les positions 110 et 130 du Alu, et les diverses zones internes sont dépendantes du motif : zone 36-53 pour les AGGC, 124-155 pour les TGG, 167-183 pour les AGGCTG, 173-228 pour les AGGTGG et 229-248 pour les ACTGC. Les motifs riches en A sont ceux possédant strictement plus de A que de n'importe quelle autre base. La diérence entre la proportion observée et celle attendue aléatoirement a été calculée à partir des formules 4.1 et 4.2, pour chaque type de motifs.+++: proportion plus importante que l'attendu aléatoire avec p-value < 0.00001,−−−: proportion moins importante avec p-value < 0.00001,−−: proportion moins importante avec p-value < 0.001, n.s. : pas de diérence signicative.

crosatellite (gure 4.3.2). L'apparition du motif répété ne nécessite en général qu'une substitution, sauf pour les (AGGC)n en position 50 qui ont besoin de deux mutations. On peut remarquer que les associations les plus importantes sont créées par des mutations CpG (aux positions 50, 142, et 207). La position 73 est principalement associée aux microsatellites (GAGGTG)n, mais la séquence consensus à cette position est peu susceptible de produire ce type de motif. La suite des analyses présentées dans ce chapitre ne concerneront que les positions avec les cinq plus fortes associations microsatellite-Alu (positions 50, 142, 178, 207 et 242).

Ces locus présents dans les séquences Alu représentent en moyenne 50% du total de ces motifs dans le génome, à l'exception de (GAGGTG)n, dont presque 90% sont associés aux séquences Alu

(tableau 4.5) ; toutes les associations sont signicatives.

Fig. 4.3  1- Distribution de certains microsatellites en fonction de leur position dans les séquences Alu. Le nombre de microsatellites est présenté sur une échelle logarithmique. 2- Séquence consensus Alu pour les diérentes positions d'association caractéristique avec des microsatellites. L'apparition des locus microsatellites est provoquée par la mutation aux bases représentées en gras, les mutations aux sites CpG étant de plus soulignées.