• Aucun résultat trouvé

Recherche de nouvelles r´ep´etitions de g`enes d’ARN C/D

1.5 ARN non-codants et contrˆole transcriptionnel

2.1.2 Recherche de nouvelles r´ep´etitions de g`enes d’ARN C/D

Les ARN C/D MBII-48, MBII-78 et RBII-36, dont la localisation subcellulaire a ´et´e d´etermi- n´ee par hybridation in situ, sont nucl´eolaires (J´erˆome Cavaill´e, communication personnelle) : ces ARN sont donc des snoRNA (petits ARN nucl´eolaires), et il semble probable que les autres ARN C/D exprim´es `a partir de ce locus le soient aussi.

Il est particuli`erement remarquable que trois caract´eristiques, in´edites jusqu’alors pour des g`enes de snoRNA (la r´ep´etition en tandem ; l’expression restreinte au cerveau ; l’empreinte g´enomique parentale), se retrouvent dans deux loci distincts (15q11-13 et 14q32 chez l’Homme) ; l’association de ces particularit´es refl´etait peut-ˆetre une relation de causalit´e entre elles (voir discussion, page 152). Si tel ´etait le cas, d’autres loci des g´enomes de Mammif`eres pourraient, `a la fois, contenir des g`enes de snoRNA r´ep´et´es, et ˆetre soumis `a l’empreinte g´enomique parentale. J’ai donc ´ecrit un programme, dans le langage fortran, qui recherche les g`enes de snoRNA `a boˆıtes C et D dont la structure est la plus canonique :

– il recherche les boˆıtes C potentielles (de consensus : RUGAUGA), en tol´erant une d´eviation ; – il recherche les boˆıtes D potentielles (de consensus : CUGA), en tol´erant une d´eviation ; – il assemble les boˆıtes C et D par paires : lorsqu’une boˆıte D potentielle suit une boˆıte C

potentielle (`a une distance comprise entre deux limites fix´ees par l’utilisateur), et que les deux boˆıtes totalisent au maximum une d´eviation `a elles deux, par rapport aux consensus, il poursuit l’analyse sur cette paire de boˆıtes potentielles ;

– parmi les paires de boˆıtes potentielles retenues, il s´electionne celles qui sont flanqu´ees de r´egions compl´ementaires (i.e. : la s´equence en amont du nucl´eotide qui pr´ec`ede la premi`ere purine du consensus de la boˆıte C doit ˆetre compl´ementaire de la s´equence imm´ediatement en aval de la boˆıte D) ; l’utilisateur fixe la qualit´e minimale de cette compl´ementarit´e. Un deuxi`eme programme d´ecoupe toute la s´equence du g´enome humain en tranches de 25 kb, et recherche les candidats g`enes de snoRNA dans chacune de ces tranches1, avec le premier pro-

gramme. Le r´esultat de cette recherche se pr´esente donc sous la forme d’histogrammes, pr´esentant pour chaque tranche de 25 kb le nombre de candidats identifi´es ; un fichier annexe contient les s´equences de ces candidats.

La plupart des pics de ces histogrammes sont dus `a des s´equences de faible complexit´e (souvent des r´ep´etitions (TGA)npeu d´eg´en´er´ees), o`u le programme trouve de nombreux candidats

chevauchants. Ces pics ne repr´esentent donc pas des r´ep´etitions de g`enes de snoRNA C/D, mais plutˆot un unique g`ene-candidat, poss´edant plusieurs boˆıtes C ou D alternatives. Afin d’´eliminer ces faux positifs, j’ai compar´e les candidats de chacune des fenˆetres de 25 kb contenant au moins 10 candidats (en incluant les candidats totalisant une d´eviation par rapport aux consensus pour leurs boˆıtes C et D) : apr`es ´elimination de ces candidats chevauchants, aucun locus ne contient de r´ep´etitions de candidats apparent´es entre eux, sauf les deux loci d´ej`a connus, 14q32 et 15q11- 13 : alors que les loci 14q32 et 15q11-13, sont tr`es riches en g`enes-candidats sans d´eviation sur les boˆıtes C et D (jusqu’`a 15 candidats sans d´eviation par 25 kb pour le locus 14q32, et jusqu’`a 17 pour le locus 15q11-13), aucun autre locus n’en contient plus de 8 par 25 kb.

Aucun autre locus que 14q32 et 15q11-13 ne contient donc de g`enes de snoRNA C/D r´ep´et´es dans les mˆemes proportions que ces deux loci.

La figure 2.1 donne, `a titre d’exemple, le r´esultat de l’analyse du chromosome 14 (en orien- tation sens, selon les conventions de polarit´e des s´equences du NCBI), et la figure 2.2 donne le r´esultat de l’analyse du chromosome 14 en orientation antisens (les g`enes des snoRNA du locus 14q32 sont dans cette orientation).

1Param`etres utilis´es pour cette analyse : distance entre le premier U de la boˆıte C et le C de la boˆıte D comprise

entre 50 et 120 pb ; la compl´ementarit´e entre les 5 nt de s´equences flanquantes des boˆıtes doit ˆetre longue d’au moins 4 pb, en tol´erant un appariement G-U .

5

2.10 Nombre de candidats sno par tranche de 25 kb

coordonnée le long du chromosome (pb) 0 10 15 20 25 30 0 7 1.10 7 3.107 4.107 5.107 6.107 7.107 8.107 9.107 1.108

Fig. 2.1 – Recherche de g`enes de snoRNA C/D dans le chromosome 14 humain (orientation sens). Les pics bleus indiquent les nombres de candidats par 25 kb pr´esentant une d´eviation par rapport aux consensus, pour l’ensemble de leurs deux boˆıtes. Les pics rouges indiquent les nombres de candidats par 25 kb ne pr´esentant aucune d´eviation par rapport aux consensus.

5

2.10 7

Nombre de candidats sno par tranche de 25 kb

coordonnée le long du chromosome (pb) 0 10 15 20 25 30 0 7 1.10 7 3.10 4.107 5.107 6.107 7.107 8.107 9.107 1.108

*

Fig. 2.2 – Recherche de g`enes de snoRNA C/D dans le chromosome 14 humain (orientation antisens). Les pics bleus indiquent les nombres de candidats pr´esentant une d´eviation par rapport aux consensus, pour l’ensemble de leurs deux boˆıtes. Les pics rouges in- diquent les nombres de candidats ne pr´esentant aucune d´eviation par rapport aux consensus. Le locus 14q32 est signal´e par l’ast´erisque. Le pic de candidats signal´e par une fl`eche est un faux positif, dˆu `a des r´ep´etitions (TGA)n, o`u le programme trouve de nombreux candidats chevau-

2.1. UN DEUXI `EME LOCUS DE G `ENES D’ARN C/D R ´EP ´ET ´ES 117

Par ailleurs, le programme de d´etection des g`enes d’ARN C/D (i.e. le premier des deux programmes d´ecrits page 115) a ´et´e utilis´e dans une autre ´etude (voir article « Identification of 13 novel human modification guide RNAs », en annexe 1, page 163), o`u il a permis de d´ecouvrir trois nouveaux g`enes de snoRNA C/D humains : U96a, U101 et U102 (Vitali et al., 2003).

Une recherche de compl´ementarit´es entre les ARN C/D du locus 14q32 humain (ainsi que ceux du locus humain 15q11-13) et le pr´ecurseur de 45S de l’ARN ribosomique humain ne met en ´evidence aucune compl´ementarit´e qui ne soit pas statistiquement attendue : cette analyse est pr´esent´ee en annexe 2, page 173.