Transformation des donn´ ees - DiOGenes, une ´ etude sur l’ob´ esit´ e

1.2 DiOGenes, une ´ etude sur l’ob´ esit´ e

2.1.2 Transformation des donn´ ees

Les données de comptage sont des données discrètes, très hétérogènes. Leur distribution est asymétrique et des valeurs extrêmes sont généralement présentes dans ce type de données [246]. Des modèles basés sur des lois discrètes comme la loi de Poisson ou la loi binomiale négative ont donc été proposés afin de les modéliser le plus correctement possible (section2.1.1). Néanmoins, une autre approche est possible. En effet, des transformations plus ou moins complexes peuvent être appliquées sur ces données afin de se ramener à des modèles plus connus, fondés sur des lois gaussiennes.

Les transformations de variables sont souvent utilisées pour induire des propriétés

désirables(par exemple, la normalité, l’homoscédasticité, la linéarité) afin de visualiser

les données, d’utiliser des tests paramétriques ou des procédures d’estimation de paramètres. Le principe de la transformation est de gén´erer une nouvelle variable X0 _`_{a partir de la}

variable X, cette derni`ere ne respectant pas les propriétés souhaitées (distribution normale par exemple). La variable X0 _{est d´}_{efinie comme une fonction de X :}

X0 = f (X)

o`u f est une fonction `a choisir de telle sorte que les données transformées aient les propriétés recherchées. Dans le cas où l’objectif est d’obtenir des données suivant une distribution normale, le choix de cette fonction f va d´ependre de l’allure de la distribution des fréquences des donn´ees brutes X.

Transformations classiques

Dans le cadre de l’analyse de données de comptage (épidémiologie, écologie, etc.), trois types de transformation sont couramment utilisés : la transformation logarithmique, la transformation racine-carrée et la transformation arcsin. Pour des données de comptage suivant une distribution de Poisson, la littérature [196, 141, 199] recommande d’utiliser la fonction racine-carrée. Lorsque le nombre de comptages nuls est important, [196] conseillent une fonction logarithmique ou la transformation suivante :

f (x) =p(x + c)

o`u c vaut 0,5 ou encore 3/8. En outre, lorsque la variance est corr´el´ee positivement avec la moyenne, il est conseill´e d’utiliser la transformation logarithmique.

En ce qui concerne les données d’expression RNA-Seq, la transformation généralement utilisée est la transformation logarithmique. Les données RNA-Seq pouvant être nulles, la transformation logarithmique utilisée est la suivante :

f (x) = log(x + c)

o`u c est une constante (et vaut g´enéralement 1). Les données transformées ont une distribution qui se rapproche d’une distribution plus symétrique, proche de celle d’une distribution normale. La variabilité peut néanmoins encore être très importante après cette transformation [78]. La transformation Box-Cox [28], appartenant à la famille des transformations puissances, permet de généraliser la transformation logarithmique. Elle se définit comme suit : f (x) =      xδ_{− 1} δ si δ 6= 0 log(x)si δ = 0

o`u la valeur de δ est choisie de façon `a maximiser la log-vraisemblance des données transformées. Pour la même raison que la transformation logarithmique, la méthode est légèrement modifiée pour prendre en compte les valeurs nulles. Ainsi, `a la place de log(x), nous utilisons log(x + 1).

Transformation normale inverse bas ´ee sur le rang1

Les transformations présentées ci-dessus sont des transformations paramétriques. Il est ´

egalement possible d’utiliser des transformations non paramétriques telles que les transformations basées sur le rang. Cette approche consiste à rendre des distributions comparables en les transformant en rang permettant ainsi d’éliminer les unités de mesures, les ordres de gran- deur et les différences de dispersion. Ces transformations peuvent donc être vues comme des méthodes de normalisation puisqu’elles permettent d’aligner les densités des divers ´

echantillons et par conséquent de ramener les échantillons à des niveaux comparables. La première étape consiste donc à convertir une variable en rangs :

rij=rangi=1,...,n(xij)

1. Rank-based inverse normal transformation

Différentes méthodes existent mais elles sont toutes basées sur le modèle suivant : f (xij) = Φ−1 _r ij− c n − 2c + 1

o`u Φ−1 _{correspond `}_{a la fonction quantile (ou probit dans certain cas). La diff´}_erence

r´eside dans le choix de la valeur de la constante c [23]. Parmi ces transformations, la transformation Blom [27] est g´en´eralement la plus utilis´ee. La valeur de la constante c pour la transformation Blom vaut 3/8.

[246, 158] ont comparé différentes transformations des données RNA-seq respective- ment pour améliorer la performance de prédiction et la classification utilisant des modèles gaussiens. [158] montrent que la transformation Blom est celle qui permet d’obtenir des données transformées se rapprochant le plus de données suivant une distribution normale. En ce qui concerne les performances de la classification, les résultats montrent qu’il est préférable d’utiliser une transformation logarithmique, voire la transformation VST plutôt que la transformation Blom ou de travailler avec des données non transformées. [246] montrent que le choix de la transformation appropriée est essentielle et a une influence importante sur les gènes étant sélectionnés comme différentiellement exprimés, sur le nombre de vrais positifs et sur les performances de la prédiction du modèle. Dans les simulations, la transformation la plus appropriée semble être la transformation basée sur les rangs. Elle est suivie par la transformation logarithmique et celle de Box-Cox sur données réduites. Ils montrent également l’importance de réduire la variance des covariables (quelle que soit la transformation utilisée).

Selon l’analyse que l’on souhaite effectuer, il est possible que ces transformations ne soit pas adaptées ou ne permettent pas d’obtenir exactement les propriétés désirées. Diverses transformations, utilisées dans un cadre spécifique, ont alors été proposées pour les données de comptage RNA-Seq.

Transformations pour stabiliser la variance

L’objectif de ces approches est de stabiliser la variance, notamment en limitant, voire supprimant la relation existant entre la moyenne et la variance.

Deux approches sont disponibles dans le packageDESEq2. Dans ce package, les comp- tages Xij pour le g`ene j dans l’échantillon i sont d´ecrits avec un modèle linéaire généralisé en utilisant une famille binomiale négative avec un lien logarithmique :

Xij∼ N B(µij, φj),

avec µij = siλij et log2(λij) = Di.βj.

o`u siest le facteur de normalisation (voir section2.1.3), λij est un param`etre proportionnel `

a l’expression du g`ene j dans l’échantillon i. Le vecteur βj modélise les variations de l’expression du g`ene j en fonction des conditions exp´erimentales de chaque échantillon. Ces dernières sont résum´ees dans la matrice D (matrice de plan d’exp´erience, `a n lignes). Les deux transformations sont :

— la transformation VST (Variance stabilizing transformation, en anglais) propos´ee par [10] : une transformation VST est une fonction dont l’objectif est d’obtenir des donn´ees

transformées, ˜x = f (x), telle que la variance des valeurs ˜x ne soit pas liée à leur moyenne. Il s’agit d’une transformation basée sur une réduction qui est définie par :

f (x) =

Z x

1 pw(λ)dλ

o`u w(λ) est la d´ependance entre la variance et la moyenne, estimée par une approche paramétrique (modèle linéaire généralisé) ou non paramétrique (régressions locales) implémentées dansDESeq2. Cette transformation est appliquée sur les données de comptage normalisées (voir section2.1.3pour les méthodes de normalisation) ; — la transformation rlog (regularized logarithmic transformation, en anglais) propos´ee

par [139] : l’idée de cette méthode est de réduire les différences entre échantillons lorsque les comptages sont petits et de préserver les différences lorsque les comptages sont élevés. C’est une transformation basée sur une approche logarithmique qui donne des résultats similaires à une transformation log₂pour les comptages élevés et réduit les valeurs vers l’expression moyenne entre échantillons pour les gènes dont l’expression est faible.

Ces deux transformations utilisent la tendance exp´erimentale de la variance sur la moyenne afin de transformer les variables pour supprimer cette tendance.

La transformation VST est plus rapide que la transformation rlog. Cependant si les tailles de librairies des échantillons (et par conséquent les facteurs d’échelle) sont très hétérogènes, il est conseillé d’utiliser la transformation rlog. Ces transformations sont utiles pour visualiser les données afin de vérifier l’absence d’individus aberrants ou lorsque l’objectif est d’analyser les données à l’aide de méthodes de classification ou d’analyse linéaire discriminante.

Dans le contexte de l’analyse différentielle, [128] ont proposé une transformation, appelée voom. L’objectif est d’obtenir des données plus susceptibles d’être analysées par des méthodes basées sur des distributions gaussiennes (qui ont notamment été développées dans le cadre des puces à ADN). Comme les transformations VST et rlog, elle permet de stabiliser la variance et de supprimer le lien de dépendance entre la variance et la moyenne.

La transformation voom estime la relation variance/moyenne et génère des poids de précision pour chaque observation. La relation variance/moyenne est modélisée par une régression LOWESS et permet de donner un poids à chaque gène. Les poids obtenus sont alors incorporés dans la suite de l’analyse en utilisant les modèles linéaires créés pour l’analyse des puces à ADN.

Transformation pour la classification

L’objectif de la classification est de détecter des modules de gènes co-exprimés. Comme expliqué dans l’introduction de cette section, deux approches sont possibles :

— appliquer une transformation pour utiliser des modèles de mélange de lois gaussiennes ; — utiliser des modèles de mélange de Poisson [169].

[88] ont proposé une transformation simple pour les données RNA-Seq permettant d’utiliser les modèles de mélange gaussien (qui sont des méthodes de classification bien ´

etablies dans le cas des données issues de puces à ADN [239]). Les données sont supposées ˆ

etre des réalisations d’un mélange de variables aléatoires suivant des lois gaussiennes (après

transformation) ou des lois de Poisson. Les travaux incluent une approche permettant de faire de la comparaison de mod`eles entre ces deux choix.

La transformation propos´ee est d´efinie comme suit :

f (xji) = log  xji/Ni+ 1 mj+ 1 avec mj= 1 n n X i0 xji0 Ni0

o`u Niest la taille de librairie pour l’´echantillon i et mj correspond `a l’expression moyenne du g`ene j `a travers les n ´echantillons.

[168] proposent d’utiliser des méthodes de classification (k-means et modèle de mélange gaussien) sur des profils d’expression normalisés de données RNA-Seq. Les profils normalisés d’expression sont définis par :

pij = xij si + 1 P l xlj sl + 1

o`u si correspond au facteur d’échelle permettant de normaliser les données (voir sec- tion2.1.3). Les donn´ees pij, sont des données compositionnelles (i.e. dépendance linéaire des pj) et il est nécessaire de les transformer avant d’utiliser des méthodes de classification basées sur des distributions gaussiennes. Selon la méthode utilisée (k-means ou modèle de mélange gaussien), [168] proposent diverses transformations. Par exemple, pour les modèles de mélange gaussien, des transformations classiques de type arcsinus ou logarithmique sont utilisées. Ces transformations sont disponibles dans le packagecoseq.

Transformation pour approcher une distribution de Poisson

Les données RNA-Seq sont des données de comptage. Il est donc naturel de vouloir utiliser des modèles basés sur des distributions de Poisson. Cependant, les données RNA-Seq sont surdispersées et ne respectent pas la propriété de données suivant une distribution de Poisson. La transformation puissance peut être utilisée afin de transformer légèrement les données pour que leur distribution s’approche de celle d’une distribution de Poisson et a l’avantage de la simplicité :

f (x) = xα

avec α ∈]0, 1]. Ce coefficient est choisi de façon `a maximiser le critère d’adéquation entre la distribution des données transform´ees, xα_{et une distribution de Poisson. Les exemples} d’application de cette transformation pour les données RNA-Seq sont diverses : classification [233] ou encore l’inférence de réseau [6].

Le tableau 2.1 récapitule les différentes transformations et donne les packages R as- sociés.

Dans le document Intégration de données complexes et hétérogènes à partir de tableaux de tailles différentes (Page 35-39)