Utiliser le biais en omposition pour segmenter le génome

3.2 Utilisation du biais de omposition pour déte ter des ARNn : métho-

3.2.2 Utiliser le biais en omposition pour segmenter le génome

Pour séle tionner les régions d'un génome présentant un biais de omposition or-

respondantaux ARNn trois plusieursappro hes ont été utilisées.

Fenêtres glissantes Pour dis riminerlessegmentsdanslegénomeprésentantun

biais en omposition,S hattner (2002) etUpadhyay et al. (2005) utilisent des fenêtres

glissantes.

Cette appro he est peu ompliquée et rapide. Néanmoins, il s'agit d'une méthode

manquantdefondementthéoriquepermettantd'évaluerlasigni ativitéstatistiquedes

résultatsobtenus. Un autre in onvénient de ette appro he est que lesfrontières entre

lessegments de ompositiondiérentene sontpas déterminéesave pré ision.

Modèles de Markov a hés Klein et al. (2002) onsidèrent le G+C% omme

ritèrede biaisde ompositionetproposentunmodèlede Makov a hé (HMM,pour la

dénitionvoirlase tion5.1) àdeux états :un état G+Cri he modélisantlaséquen es

des ARNn etun étatA+T ri he modélisantle restede génome. Cettedémar he s'ins-

rit dans un adrethéorique de modélisationdes séquen es génomiques et permet une

éventuelle omplexi ation du modèle dont le but serait une modélisation plus réa-

listede laséquen e génomique.

Au ours de e travail de thèse, une généralisation des modèles de Markov a hés

aété utilisée dans Tjaden (2007). Ce travail présente un modèle d'intégration de don-

nées hétérogènes tenant ompte du biais de omposition, des données d'expression et

de l'information sur la onservation en stru ture déduite de l'analyse omparative. La

orrespondants, entre autres, aux promoteurs et aux terminateurs adja ents à l'ARN

putatif. La performan e de e modèle a été testé sur l'ensemble des ARNn onnus

d'E. oli et l'e a ité du modèle de biais de omposition seul, sans tenir ompte des

données d'expression etde al onservation, n'a pas pu être démontrée pour e génome.

Critère visuel Dans Pi hon et Felden (2005) les régions G+C ri hes ont été

déterminées à l'aide d'un outil de visualisation, e qui onstitue une démar he peu

Tester la dieren e en ompostion

La omposition des séquen es génomiques peut être étudiée à plusieurs niveaux

diérents :

1. en G+C%, où deux paramètres sont onsidérés : le taux des nu léotides G ou C

(notéG+C%) etle tauxdes nu léotides A ouT (noté A+T%)

2. ennu léotides A,C, GetToùquatreparamètressont onsidérés :lestauxdeA,

C, G etT

3. en di-nu leotides AA, AC, ..., TT où 16paramètres sont onsidérés

4. les

n

-nu léotides où la fréquen e d'o uren e de diérents mots de longueur

n

partirde l'alphabet

{A, C, G, T }

est onsidérée

La façon la plus on ise de dé rire la omposition d'une séquen e génomique est

son G+C% : il résume par un paramètre la omposition de la séquen e, le deuxième

paramètre A+T% se déduisant omme A+T%

= 100−

G+C%. Par ailleurs, la ompositiondes génomes est traditionnellementdé ritepar lavaleur de son G+C%; en eet,

avant les séquençages massifs où les séquen es des génomes n'étaient pas disponibles,

leG+C% pouvaitêtre al uléà l'aide de la températurené essaire pour dénaturer les

deux brins d'ADN (Vinogradov (1994)).

Dansleprésent hapitrenous abordonslaquestionde lamise en éviden ede l'exis-

ten e d'un biais de omposition au sein des séquen es d'ARNn ave appli ation au

génomede Ralstonia solana earum.Dansun premiertemps,nousétudionsleG+C%,à

l'aidede la théoriedes modèleslinéairesgénéralisés (GLM). Dans un deuxième temps,

4.1 Utilisation du G+C% pour ara tériser les ARNn

Lorsque nous voulons on lure si le G+C% dière entre plusieurs groupes de sé-

quen es (par exemple : les séquen es d'ARN, le odant et le reste du génome) il ne

sut pas de omparer les valeurs moyennes des G+C% dans es groupes. En eet, la

questionest de savoiràpartir de quelseuil de diéren ede G+C%entre deux groupes

ettediéren eest signi ativeetnonpas lerésultatd'uneu tuationaléatoiredue au

hoixde l'é hantillon.

Lestravaux ités, portantsur la omposition des ARNn (se tion3.2), n'ee tuent

pas, pour laplupart, de test statistique démontrant ladiéren e de omposition entre

lesséquen es des ARNn et le reste du génome, et sont essentiellement basés sur l'ob-

servation empirique.Dans S hattner(2002)letest de Studentdes moyennes est utilisé.

Plusieurs ritiques peuvent être adressées à ette appro he. Tout d'abord, pour utili-

ser le test de Student, les observations des populations dont les moyennes sont testées

doivent être tirées d'une seule distribution qui doit être normale. Or, les valeurs de

G+C% sont omprises entre 0 et 1 et ne sont don pas distribuées normalement. De

plus, dans la population d'ARNn les longueurs des séquen es sont variables, e qui

induit des varian es diérentes des G+C% à l'intérieur d'un même groupe. Ce point

n'est pas pris en ompte dans l'appro he proposée. Un dernier point on ernant ette

solutionestqu'ellenégligel'éventuelle ompositionnon-homogèneauseindesdiérents

groupes.

Dansle ontexte plus générald'étude de ompositiondes génomes, l'homogénéitéa

étéétudiéeparKarlinetal.(1994),Karlinetal.(1998)ouLietal.(1998).Toutefois, es

travauxne donnentpas une méthode dire te pour répondre ànotre question d'intérêt.

Une solution onsiste à utiliser la théorie des modèles linéaires généralisés (GLM,

M Cullaghet Nelder (1989a)). Elle nous a été suggérée par Sophie S hbath de l'unité

MIG et par Stéphane Robin d'AgroParisTe h. An d'étudier le G+C%, on modélise

haque nu léotide dans la séquen e par une variable binaire, valant 1 si le nu léotide

est un G ou un C et 0 sinon. Selon ette modélisation le G+C% est identique à la

probabilité d'observer un 1 dans la séquen e. Il s'agit d'un adre formel bien étudié

de séquen es est prise en ompte par le modèle. De plus, e adre permet une analyse

détailléedelastru turede ha undesgroupesetl'identi ationd'éventuellesséquen es

atypiques.

Dans la suite nous présenterons d'abord le modèle de regresssion logistique, un

modèle de la lasse des GLM, ensemble ave les outils d'analyse de données qui lui

sont asso iés. Enuite nous présenterons les résultatsde son appli ationsur lesdonnées

génomiques.

Dans le document Détection des ARNnc dans les séquences génomiques. Application au génome de Ralstonia solanacearum (Page 57-62)