3.2 Utilisation du biais de omposition pour déte ter des ARNn : métho-
3.2.2 Utiliser le biais en omposition pour segmenter le génome
Pour séle tionner les régions d'un génome présentant un biais de omposition or-
respondantaux ARNn trois plusieursappro hes ont été utilisées.
Fenêtres glissantes Pour dis riminerlessegmentsdanslegénomeprésentantun
biais en omposition,S hattner (2002) etUpadhyay et al. (2005) utilisent des fenêtres
glissantes.
Cette appro he est peu ompliquée et rapide. Néanmoins, il s'agit d'une méthode
manquantdefondementthéoriquepermettantd'évaluerlasigni ativitéstatistiquedes
résultatsobtenus. Un autre in onvénient de ette appro he est que lesfrontières entre
lessegments de ompositiondiérentene sontpas déterminéesave pré ision.
Modèles de Markov a hés Klein et al. (2002) onsidèrent le G+C% omme
ritèrede biaisde ompositionetproposentunmodèlede Makov a hé (HMM,pour la
dénitionvoirlase tion5.1) àdeux états :un état G+Cri he modélisantlaséquen es
des ARNn etun étatA+T ri he modélisantle restede génome. Cettedémar he s'ins-
rit dans un adrethéorique de modélisationdes séquen es génomiques et permet une
éventuelle omplexi ation du modèle dont le but serait une modélisation plus réa-
listede laséquen e génomique.
Au ours de e travail de thèse, une généralisation des modèles de Markov a hés
aété utilisée dans Tjaden (2007). Ce travail présente un modèle d'intégration de don-
nées hétérogènes tenant ompte du biais de omposition, des données d'expression et
de l'information sur la onservation en stru ture déduite de l'analyse omparative. La
orrespondants, entre autres, aux promoteurs et aux terminateurs adja ents à l'ARN
putatif. La performan e de e modèle a été testé sur l'ensemble des ARNn onnus
d'E. oli et l'e a ité du modèle de biais de omposition seul, sans tenir ompte des
données d'expression etde al onservation, n'a pas pu être démontrée pour e génome.
Critère visuel Dans Pi hon et Felden (2005) les régions G+C ri hes ont été
déterminées à l'aide d'un outil de visualisation, e qui onstitue une démar he peu
Tester la dieren e en ompostion
La omposition des séquen es génomiques peut être étudiée à plusieurs niveaux
diérents :
1. en G+C%, où deux paramètres sont onsidérés : le taux des nu léotides G ou C
(notéG+C%) etle tauxdes nu léotides A ouT (noté A+T%)
2. ennu léotides A,C, GetToùquatreparamètressont onsidérés :lestauxdeA,
C, G etT
3. en di-nu leotides AA, AC, ..., TT où 16paramètres sont onsidérés
4. les
n
-nu léotides où la fréquen e d'o uren e de diérents mots de longueurn
àpartirde l'alphabet
{A, C, G, T }
est onsidéréeLa façon la plus on ise de dé rire la omposition d'une séquen e génomique est
son G+C% : il résume par un paramètre la omposition de la séquen e, le deuxième
paramètre A+T% se déduisant omme A+T%
= 100−
G+C%. Par ailleurs, la ompo- sitiondes génomes est traditionnellementdé ritepar lavaleur de son G+C%; en eet,avant les séquençages massifs où les séquen es des génomes n'étaient pas disponibles,
leG+C% pouvaitêtre al uléà l'aide de la températurené essaire pour dénaturer les
deux brins d'ADN (Vinogradov (1994)).
Dansleprésent hapitrenous abordonslaquestionde lamise en éviden ede l'exis-
ten e d'un biais de omposition au sein des séquen es d'ARNn ave appli ation au
génomede Ralstonia solana earum.Dansun premiertemps,nousétudionsleG+C%,à
l'aidede la théoriedes modèleslinéairesgénéralisés (GLM). Dans un deuxième temps,
4.1 Utilisation du G+C% pour ara tériser les ARNn
Lorsque nous voulons on lure si le G+C% dière entre plusieurs groupes de sé-
quen es (par exemple : les séquen es d'ARN, le odant et le reste du génome) il ne
sut pas de omparer les valeurs moyennes des G+C% dans es groupes. En eet, la
questionest de savoiràpartir de quelseuil de diéren ede G+C%entre deux groupes
ettediéren eest signi ativeetnonpas lerésultatd'uneu tuationaléatoiredue au
hoixde l'é hantillon.
Lestravaux ités, portantsur la omposition des ARNn (se tion3.2), n'ee tuent
pas, pour laplupart, de test statistique démontrant ladiéren e de omposition entre
lesséquen es des ARNn et le reste du génome, et sont essentiellement basés sur l'ob-
servation empirique.Dans S hattner(2002)letest de Studentdes moyennes est utilisé.
Plusieurs ritiques peuvent être adressées à ette appro he. Tout d'abord, pour utili-
ser le test de Student, les observations des populations dont les moyennes sont testées
doivent être tirées d'une seule distribution qui doit être normale. Or, les valeurs de
G+C% sont omprises entre 0 et 1 et ne sont don pas distribuées normalement. De
plus, dans la population d'ARNn les longueurs des séquen es sont variables, e qui
induit des varian es diérentes des G+C% à l'intérieur d'un même groupe. Ce point
n'est pas pris en ompte dans l'appro he proposée. Un dernier point on ernant ette
solutionestqu'ellenégligel'éventuelle ompositionnon-homogèneauseindesdiérents
groupes.
Dansle ontexte plus générald'étude de ompositiondes génomes, l'homogénéitéa
étéétudiéeparKarlinetal.(1994),Karlinetal.(1998)ouLietal.(1998).Toutefois, es
travauxne donnentpas une méthode dire te pour répondre ànotre question d'intérêt.
Une solution onsiste à utiliser la théorie des modèles linéaires généralisés (GLM,
M Cullaghet Nelder (1989a)). Elle nous a été suggérée par Sophie S hbath de l'unité
MIG et par Stéphane Robin d'AgroParisTe h. An d'étudier le G+C%, on modélise
haque nu léotide dans la séquen e par une variable binaire, valant 1 si le nu léotide
est un G ou un C et 0 sinon. Selon ette modélisation le G+C% est identique à la
probabilité d'observer un 1 dans la séquen e. Il s'agit d'un adre formel bien étudié
de séquen es est prise en ompte par le modèle. De plus, e adre permet une analyse
détailléedelastru turede ha undesgroupesetl'identi ationd'éventuellesséquen es
atypiques.
Dans la suite nous présenterons d'abord le modèle de regresssion logistique, un
modèle de la lasse des GLM, ensemble ave les outils d'analyse de données qui lui
sont asso iés. Enuite nous présenterons les résultatsde son appli ationsur lesdonnées
génomiques.