• Aucun résultat trouvé

3. Détection de gènes co-abondants

3.2 Impact de la transformation des comptages

3. Détection de gènes co-abondants

3.1 Coefficients de corrélations traditionnels

3.1.1 Corrélation de Pearson

La corrélation de Pearson est le coefficient le plus couramment utilisé pour détecter des gènes co-abondants. Ce coefficient évalue une relation linéaire du type 𝑦 = 𝑎 ∙ 𝑥 + 𝑏 entre deux variables 𝑥 et

𝑦 (Formule 1). Pour rappel, le coefficient de corrélation de Pearson s’échelonne entre -1 et 1. Plus le coefficient est proche de 1 en valeur absolue, plus la relation linéaire est forte. Un coefficient positif (respectivement négatif) indique une relation linéaire croissante (respectivement décroissante) donc une constante 𝑎 positive (respectivement négative). Dans le contexte de la recherche de gènes co-abondants, seuls les coefficients positifs nous intéressent.

𝑟 = (𝑥𝑖− 𝑥̅) 𝑛 𝑖=1 ∙ (𝑦𝑖− 𝑦̅) √∑𝑛 (𝑥𝑖− 𝑥̅)2 𝑖=1 ∙ √∑𝑛 (𝑦𝑖− 𝑦̅)2 𝑖=1

Formule 1 : Coefficient de corrélation de Pearson de deux jeux de données {𝑥1, … , 𝑥𝑛} et {𝑦1, … , 𝑦𝑛}

où :

𝑛 correspond aux nombres d’observations

𝑥𝑖 et 𝑦𝑖 correspondent respectivement à la 𝑖-ème observation des variables 𝑥 et 𝑦

𝑥̅ =𝑛1∙ ∑𝑛𝑖=1𝑥𝑖 et 𝑦̅ =1𝑛∙ ∑𝑛𝑖=1𝑦𝑖

Le coefficient de corrélation de Pearson n’est pas idéal pour comparer des vecteurs de comptages bruts de gènes. Premièrement, une étude sur des données simulées montre qu’il sous-estime la « véritable » corrélation lorsque la majorité des comptages sont nuls [135]. Deuxièmement, il est peu robuste lorsque les données traitées ne suivent pas une distribution normale et a fortiori asymétrique. Lors du calcul du coefficient, les comptages forts auront un poids plus important que les comptages faibles ce qui augmente le risque de détecter de fausses associations [136]. De plus, il est sensible à l’hétéroscédasticité [137]. En effet, son calcul nécessite d’estimer des écarts types (c.f. dénominateur dans la Formule 1) à partir d’un estimateur qui suppose que la variance des comptages est constante (homoscédasticité). Enfin, le coefficient de corrélation de Pearson sera sous-estimé en présence de valeurs aberrantes et ce d’autant plus qu’elles seront nombreuses et éloignées des valeurs attendues [138].

3.1.2 Corrélation de Spearman

D’autres auteurs utilisent le coefficient de corrélation de Spearman pour détecter des gènes co-abondants [15,41]. Ce coefficient consiste à calculer une corrélation de Pearson sur les rangs des comptages plutôt que sur les comptages eux-mêmes. Contrairement au coefficient de corrélation de Pearson, il n’est pas impacté par l’asymétrie de la distribution et beaucoup moins par l’hétéroscédasticité. Néanmoins, il sous-estime lui aussi la « véritable » corrélation lorsque les valeurs nulles sont surreprésentées [135]. Il est aussi impacté par la présence de valeurs aberrantes même si l’écart entre la valeur observée et la valeur attendue a potentiellement moins d’importance en travaillant sur des rangs. Enfin, il permet de détecter n’importe quelle relation monotone alors que l’on ne s’intéresse ici qu’aux relations de proportionnalité directe.

3.2 Impact de la transformation des comptages

Certains auteurs proposent de transformer les données de comptage avant de calculer des corrélations pour limiter l’asymétrie et/ou l’hétéroscédasticité.

34

3.2.1 Transformation logarithmique

L’application d’une fonction log (généralement de base 10) sur des données de comptage est couramment utilisée pour limiter l’asymétrie de la distribution [130]. Cette transformation « étale » les comptages et permet, si on omet les valeurs nulles, de s’approcher d’une distribution normale (Figure 8.B et Tableau 4). La relation de proportionnalité entre deux gènes notée 𝑔2= 𝛼 ∙ 𝑔1 devient en log10(𝑔2) = log10(𝛼 ∙ 𝑔1) ↔ log10(𝑔2) = log10(α) + log10(𝑔1) . Cependant, la fonction log ne stabilise pas la variance et introduit un biais important pour les comptages faibles [133]. Après la transformation, il y a toujours hétéroscédasticité car la variance est d’autant plus grande que les comptages sont faibles (Figure 9.B). De plus, on doit introduire un pseudo-comptage car la fonction

log n’est pas définie en 0. Or, si l’on ajoute 1 à tous les comptages, la relation de proportionnalité n’est plus vérifiée car log10(𝑔2+ 1) ≠ log10(𝛼) + log10(𝑔1+ 1) . La différence est négligeable lorsque les comptages sont élevés mais est importante lorsqu’ils sont proches de 1.

3.2.2 Transformation racine carrée

La fonction racine carrée est une transformation simple où la relation de proportionnalité entre deux gènes 𝑔2= 𝛼 ∙ 𝑔1 devient √𝑔2 = √𝛼 ∙ 𝑔1↔ √𝑔2 = √𝛼√𝑔1. Comme expliqué en 2.2.1, les données de comptage suivent en première approximation une distribution de Poisson. Or, on démontre que la fonction racine carrée transforme une loi de Poisson de moyenne 𝜆 et de variance 𝜆2 en une loi normale de moyenne √𝜆 et de variance 1 4⁄ [139]. Après transformation, la variance est une constante qui ne dépend plus de 𝜆: il y a donc homoscédasticité. Cependant, les comptages de gènes sont surdispersés car la variance croit plus vite que le moyenne. Par conséquent, il y a toujours hétéroscédasticité après application de la racine carrée. Comme illustré par la Figure 9.B, la variance est stable lorsque les comptages sont faibles puis croit lorsque ceux-ci augmentent. Néanmoins, l’hétéroscédasticité est beaucoup moins marquée qu’avec des comptages bruts ou log-transformés. Deuxièmement, la transformation racine carrée est adaptée aux distributions asymétriques à droite car elle « compresse » la distribution vers la gauche (Figure 8.C et Tableau 4). Même si la fonction log semble plus efficace pour limiter une asymétrie à gauche, la performance de la fonction racine carrée reste acceptable.

35

Figure 8 : Distribution du nombre de lectures alignées sur les gènes core de 9 espèces du microbiote intestinal humain. Les 1267 échantillons du catalogue IGC ont été utilisés. Pour chaque gène, les échantillons avec un comptage nul ont été filtrés.

A.Comptages bruts. La distribution des comptages est fortement biaisée à gauche. On a une majorité de comptages faibles et peu de comptages forts.

B.Comptages log transformés. La transformation « étale » les comptages. On s’approche d’une distribution normale.

C.Comptages ayant subi un transformation racine carrée. La transformation étale les comptages même si la distribution reste biaisée à gauche.

36

Figure 9 : Comparaison des comptages de deux gènes core de l’espèce Parabacteroides distasonis. (Axe des abscisses : MH0020_GL0053675 ; axes des ordonnées : V1.UC58-4_GL0199806) dans les 1267 échantillons du catalogue IGC.

37

A.Comptages bruts. A gauche (A1) : nuage de points des comptages des deux gènes. A droite (A2) : résidus en valeur absolue de la régression 𝑔2= 𝛼 ∙ 𝑔1. Plus les comptages sont forts, plus l’erreur est importante.

B.Comptages log transformés. A gauche (B1) : nuage de points des comptages des deux gènes. A droite (B2) : résidus en valeur absolue de la régression 𝑙𝑜𝑔10(𝑔2) = 𝑙𝑜𝑔10(𝛼) + 𝑙𝑜𝑔10(𝑔1). Plus les comptages sont faibles, plus l’erreur est importante.

C.Comptages ayant subi un transformation racine carrée. A gauche (C1) : nuage de points des comptages des deux gènes. A droite (C2) : résidus en valeur absolue de la régression √𝑔2= √𝛼 ∙ √𝑔1. Plus les comptages sont forts, plus l’erreur est importante même si elle croit moins vite qu’avec les comptages bruts. Asymétrie des comptages bruts Asymétrie des comptages log10 Asymétrie des comptages √ Prevotella copri 1.48 -0.80 0.50 Bacteroides vulgatus 3.23 -0.88 1.20 Bacteroides uniformis 2.80 -0.77 1.01 Bacteroides coprocola 3.15 -0.68 1.16 Bacteroides plebeius 3.05 -0.55 1.10 Bacteroides massiliensis 4.38 -0.57 1.47 Dialister invisus 3.88 -0.83 1.06 Alistipes putredinis 4.11 -0.96 1.02 Bacteroides stercoris 3.27 -0.37 1.27

Tableau 4 : Asymétrie de la distribution des comptages des gènes core de 9 espèces du microbiote intestinal humain

L’asymétrie est estimée avec le coefficient d'asymétrie de Pearson. Une valeur nulle indique une distribution symétrique, une valeur positive une asymétrique à gauche et une valeur négative une asymétrie à droite. Plus la valeur absolue est importante, plus l’asymétrie est forte [140]. La transformation log10 limite plus fortement l’asymétrie que la transformation racine carrée.

3.2.3 Raréfaction

Pour atténuer la variabilité technique des comptages, certains auteurs ont suggéré de procéder à leur raréfaction (ou downsizing) [112]. Cette méthode consiste à ramener l’ensemble des échantillons à une même profondeur de séquençage en tirant des lectures dans chacun d’eux aléatoirement sans remise. Le seuil de raréfaction doit être inférieur ou égal au nombre de lectures de l’échantillon ayant la profondeur de séquençage la plus faible. Cependant, la raréfaction diminue de façon limitée l’asymétrie de la distribution (Figure 10.A) car la variabilité des comptages est essentiellement d’origine biologique. De plus, en omettant une partie des données disponibles dans les échantillons où la profondeur excède le seuil fixé, la raréfaction ajoute artificiellement de l’incertitude. Le regroupement par co-abondance sera moins performant [132], en particulier pour les gènes provenant d’espèces sous dominantes car leur signal sera plus faible voire nul (Figure 10.B).