• Aucun résultat trouvé

1.2 DiOGenes, une ´ etude sur l’ob´ esit´ e

2.1.2 Transformation des donn´ ees

Les donn´ees de comptage sont des donn´ees discr`etes, tr`es h´et´erog`enes. Leur distribution est asym´etrique et des valeurs extrˆemes sont g´en´eralement pr´esentes dans ce type de donn´ees [246]. Des mod`eles bas´es sur des lois discr`etes comme la loi de Poisson ou la loi binomiale n´egative ont donc ´et´e propos´es afin de les mod´eliser le plus correctement possible (section2.1.1). N´eanmoins, une autre approche est possible. En effet, des transformations plus ou moins complexes peuvent ˆetre appliqu´ees sur ces donn´ees afin de se ramener `a des mod`eles plus connus, fond´es sur des lois gaussiennes.

Les transformations de variables sont souvent utilis´ees pour induire des propri´et´es

d´esirables(par exemple, la normalit´e, l’homosc´edasticit´e, la lin´earit´e) afin de visualiser

les donn´ees, d’utiliser des tests param´etriques ou des proc´edures d’estimation de param`etres. Le principe de la transformation est de g´en´erer une nouvelle variable X0 `a partir de la

variable X, cette derni`ere ne respectant pas les propri´et´es souhait´ees (distribution normale par exemple). La variable X0 est d´efinie comme une fonction de X :

X0 = f (X)

o`u f est une fonction `a choisir de telle sorte que les donn´ees transform´ees aient les propri´et´es recherch´ees. Dans le cas o`u l’objectif est d’obtenir des donn´ees suivant une distribution normale, le choix de cette fonction f va d´ependre de l’allure de la distribution des fr´equences des donn´ees brutes X.

Transformations classiques

Dans le cadre de l’analyse de donn´ees de comptage (´epid´emiologie, ´ecologie, etc.), trois types de transformation sont couramment utilis´es : la transformation logarithmique, la transformation racine-carr´ee et la transformation arcsin. Pour des donn´ees de comptage suivant une distribution de Poisson, la litt´erature [196, 141, 199] recommande d’utiliser la fonction racine-carr´ee. Lorsque le nombre de comptages nuls est important, [196] conseillent une fonction logarithmique ou la transformation suivante :

f (x) =p(x + c)

o`u c vaut 0,5 ou encore 3/8. En outre, lorsque la variance est corr´el´ee positivement avec la moyenne, il est conseill´e d’utiliser la transformation logarithmique.

En ce qui concerne les donn´ees d’expression RNA-Seq, la transformation g´en´eralement utilis´ee est la transformation logarithmique. Les donn´ees RNA-Seq pouvant ˆetre nulles, la transformation logarithmique utilis´ee est la suivante :

f (x) = log(x + c)

o`u c est une constante (et vaut g´en´eralement 1). Les donn´ees transform´ees ont une distribu- tion qui se rapproche d’une distribution plus sym´etrique, proche de celle d’une distribution normale. La variabilit´e peut n´eanmoins encore ˆetre tr`es importante apr`es cette transforma- tion [78]. La transformation Box-Cox [28], appartenant `a la famille des transformations puissances, permet de g´en´eraliser la transformation logarithmique. Elle se d´efinit comme suit : f (x) =      − 1 δ si δ 6= 0 log(x)si δ = 0

o`u la valeur de δ est choisie de fac¸on `a maximiser la log-vraisemblance des donn´ees transform´ees. Pour la mˆeme raison que la transformation logarithmique, la m´ethode est l´eg`erement modifi´ee pour prendre en compte les valeurs nulles. Ainsi, `a la place de log(x), nous utilisons log(x + 1).

Transformation normale inverse bas ´ee sur le rang1

Les transformations pr´esent´ees ci-dessus sont des transformations param´etriques. Il est ´

egalement possible d’utiliser des transformations non param´etriques telles que les transfor- mations bas´ees sur le rang. Cette approche consiste `a rendre des distributions comparables en les transformant en rang permettant ainsi d’´eliminer les unit´es de mesures, les ordres de gran- deur et les diff´erences de dispersion. Ces transformations peuvent donc ˆetre vues comme des m´ethodes de normalisation puisqu’elles permettent d’aligner les densit´es des divers ´

echantillons et par cons´equent de ramener les ´echantillons `a des niveaux comparables. La premi`ere ´etape consiste donc `a convertir une variable en rangs :

rij=rangi=1,...,n(xij)

1. Rank-based inverse normal transformation

Diff´erentes m´ethodes existent mais elles sont toutes bas´ees sur le mod`ele suivant : f (xij) = Φ−1  r ij− c n − 2c + 1 

o`u Φ−1 correspond `a la fonction quantile (ou probit dans certain cas). La diff´erence

eside dans le choix de la valeur de la constante c [23]. Parmi ces transformations, la transformation Blom [27] est g´en´eralement la plus utilis´ee. La valeur de la constante c pour la transformation Blom vaut 3/8.

[246, 158] ont compar´e diff´erentes transformations des donn´ees RNA-seq respective- ment pour am´eliorer la performance de pr´ediction et la classification utilisant des mod`eles gaussiens. [158] montrent que la transformation Blom est celle qui permet d’obtenir des donn´ees transform´ees se rapprochant le plus de donn´ees suivant une distribution normale. En ce qui concerne les performances de la classification, les r´esultats montrent qu’il est pr´ef´erable d’utiliser une transformation logarithmique, voire la transformation VST plutˆot que la transformation Blom ou de travailler avec des donn´ees non transform´ees. [246] montrent que le choix de la transformation appropri´ee est essentielle et a une influence importante sur les g`enes ´etant s´electionn´es comme diff´erentiellement exprim´es, sur le nombre de vrais positifs et sur les performances de la pr´ediction du mod`ele. Dans les simulations, la transformation la plus appropri´ee semble ˆetre la transformation bas´ee sur les rangs. Elle est suivie par la transformation logarithmique et celle de Box-Cox sur donn´ees r´eduites. Ils montrent ´egalement l’importance de r´eduire la variance des covariables (quelle que soit la transformation utilis´ee).

Selon l’analyse que l’on souhaite effectuer, il est possible que ces transformations ne soit pas adapt´ees ou ne permettent pas d’obtenir exactement les propri´et´es d´esir´ees. Diverses transformations, utilis´ees dans un cadre sp´ecifique, ont alors ´et´e propos´ees pour les donn´ees de comptage RNA-Seq.

Transformations pour stabiliser la variance

L’objectif de ces approches est de stabiliser la variance, notamment en limitant, voire supprimant la relation existant entre la moyenne et la variance.

Deux approches sont disponibles dans le packageDESEq2. Dans ce package, les comp- tages Xij pour le g`ene j dans l’´echantillon i sont d´ecrits avec un mod`ele lin´eaire g´en´eralis´e en utilisant une famille binomiale n´egative avec un lien logarithmique :

Xij∼ N B(µij, φj),

avec µij = siλij et log2(λij) = Di.βj.

o`u siest le facteur de normalisation (voir section2.1.3), λij est un param`etre proportionnel `

a l’expression du g`ene j dans l’´echantillon i. Le vecteur βj mod´elise les variations de l’expression du g`ene j en fonction des conditions exp´erimentales de chaque ´echantillon. Ces derni`eres sont r´esum´ees dans la matrice D (matrice de plan d’exp´erience, `a n lignes). Les deux transformations sont :

la transformation VST (Variance stabilizing transformation, en anglais) propos´ee par [10] : une transformation VST est une fonction dont l’objectif est d’obtenir des donn´ees

transform´ees, ˜x = f (x), telle que la variance des valeurs ˜x ne soit pas li´ee `a leur moyenne. Il s’agit d’une transformation bas´ee sur une r´eduction qui est d´efinie par :

f (x) =

Z x

0

1 pw(λ)dλ

o`u w(λ) est la d´ependance entre la variance et la moyenne, estim´ee par une approche param´etrique (mod`ele lin´eaire g´en´eralis´e) ou non param´etrique (r´egressions locales) impl´ement´ees dansDESeq2. Cette transformation est appliqu´ee sur les donn´ees de comptage normalis´ees (voir section2.1.3pour les m´ethodes de normalisation) ; — la transformation rlog (regularized logarithmic transformation, en anglais) propos´ee

par [139] : l’id´ee de cette m´ethode est de r´eduire les diff´erences entre ´echantillons lorsque les comptages sont petits et de pr´eserver les diff´erences lorsque les comptages sont ´elev´es. C’est une transformation bas´ee sur une approche logarithmique qui donne des r´esultats similaires `a une transformation log2pour les comptages ´elev´es et r´eduit les valeurs vers l’expression moyenne entre ´echantillons pour les g`enes dont l’expression est faible.

Ces deux transformations utilisent la tendance exp´erimentale de la variance sur la moyenne afin de transformer les variables pour supprimer cette tendance.

La transformation VST est plus rapide que la transformation rlog. Cependant si les tailles de librairies des ´echantillons (et par cons´equent les facteurs d’´echelle) sont tr`es h´et´erog`enes, il est conseill´e d’utiliser la transformation rlog. Ces transformations sont utiles pour visualiser les donn´ees afin de v´erifier l’absence d’individus aberrants ou lorsque l’objectif est d’analyser les donn´ees `a l’aide de m´ethodes de classification ou d’analyse lin´eaire discriminante.

Dans le contexte de l’analyse diff´erentielle, [128] ont propos´e une transformation, appel´ee voom. L’objectif est d’obtenir des donn´ees plus susceptibles d’ˆetre analys´ees par des m´ethodes bas´ees sur des distributions gaussiennes (qui ont notamment ´et´e d´evelopp´ees dans le cadre des puces `a ADN). Comme les transformations VST et rlog, elle permet de stabiliser la variance et de supprimer le lien de d´ependance entre la variance et la moyenne.

La transformation voom estime la relation variance/moyenne et g´en`ere des poids de pr´ecision pour chaque observation. La relation variance/moyenne est mod´elis´ee par une r´egression LOWESS et permet de donner un poids `a chaque g`ene. Les poids obtenus sont alors incorpor´es dans la suite de l’analyse en utilisant les mod`eles lin´eaires cr´e´es pour l’analyse des puces `a ADN.

Transformation pour la classification

L’objectif de la classification est de d´etecter des modules de g`enes co-exprim´es. Comme expliqu´e dans l’introduction de cette section, deux approches sont possibles :

— appliquer une transformation pour utiliser des mod`eles de m´elange de lois gaussiennes ; — utiliser des mod`eles de m´elange de Poisson [169].

[88] ont propos´e une transformation simple pour les donn´ees RNA-Seq permettant d’utiliser les mod`eles de m´elange gaussien (qui sont des m´ethodes de classification bien ´

etablies dans le cas des donn´ees issues de puces `a ADN [239]). Les donn´ees sont suppos´ees ˆ

etre des r´ealisations d’un m´elange de variables al´eatoires suivant des lois gaussiennes (apr`es

transformation) ou des lois de Poisson. Les travaux incluent une approche permettant de faire de la comparaison de mod`eles entre ces deux choix.

La transformation propos´ee est d´efinie comme suit :

f (xji) = log  xji/Ni+ 1 mj+ 1  avec mj= 1 n n X i0 xji0 Ni0

o`u Niest la taille de librairie pour l’´echantillon i et mj correspond `a l’expression moyenne du g`ene j `a travers les n ´echantillons.

[168] proposent d’utiliser des m´ethodes de classification (k-means et mod`ele de m´elange gaussien) sur des profils d’expression normalis´es de donn´ees RNA-Seq. Les profils normalis´es d’expression sont d´efinis par :

pij = xij si + 1 P l xlj sl + 1

o`u si correspond au facteur d’´echelle permettant de normaliser les donn´ees (voir sec- tion2.1.3). Les donn´ees pij, sont des donn´ees compositionnelles (i.e. d´ependance lin´eaire des pj) et il est n´ecessaire de les transformer avant d’utiliser des m´ethodes de classification bas´ees sur des distributions gaussiennes. Selon la m´ethode utilis´ee (k-means ou mod`ele de m´elange gaussien), [168] proposent diverses transformations. Par exemple, pour les mod`eles de m´elange gaussien, des transformations classiques de type arcsinus ou logarithmique sont utilis´ees. Ces transformations sont disponibles dans le packagecoseq.

Transformation pour approcher une distribution de Poisson

Les donn´ees RNA-Seq sont des donn´ees de comptage. Il est donc naturel de vouloir utiliser des mod`eles bas´es sur des distributions de Poisson. Cependant, les donn´ees RNA-Seq sont surdispers´ees et ne respectent pas la propri´et´e de donn´ees suivant une distribution de Poisson. La transformation puissance peut ˆetre utilis´ee afin de transformer l´eg`erement les donn´ees pour que leur distribution s’approche de celle d’une distribution de Poisson et a l’avantage de la simplicit´e :

f (x) = xα

avec α ∈]0, 1]. Ce coefficient est choisi de fac¸on `a maximiser le crit`ere d’ad´equation entre la distribution des donn´ees transform´ees, xαet une distribution de Poisson. Les exemples d’application de cette transformation pour les donn´ees RNA-Seq sont diverses : classification [233] ou encore l’inf´erence de r´eseau [6].

Le tableau 2.1 r´ecapitule les diff´erentes transformations et donne les packages R as- soci´es.