• Aucun résultat trouvé

3. Détection de gènes co-abondants

3.4 Evaluation des mesures de proportionnalité sur un jeu de données simulées

3.4.1 Création du jeu de données simulées

Pour évaluer les mesures de proportionnalité, nous avons généré une table d’abondance simulant les comptages des gènes d’une espèce virtuelle. Le pan-génome de cette espèce est composé de 1 000 gènes core détectés dans toutes les souches et de 6 000 gènes accessoires présents chez seulement certaines. Les longueurs des gènes ont été tirées aléatoirement (min = 100, max = 5 000 paires de bases) ainsi que la prévalence des gènes accessoires (min = 2,5%, max = 99,5%).

200 échantillons porteurs d’une souche différente d’une même espèce ont été générés. La couverture de séquençage d’une souche a été tirée à partir d’une loi uniforme (min=0.6, max=20). La longueur des lectures a été fixée à 100 paires de bases. Dans un échantillon donné, le nombre théorique de lectures alignées sur un gène est non nul s’il est présent dans la souche et est proportionnel à la longueur du gène et à la couverture de séquençage. Finalement, les comptages de gènes observés ont été tirés à partir de distributions de Poisson de moyennes égales aux comptages théoriques.

3.4.2 Comparaison aux coefficients de corrélation de Pearson et Spearman

Cette table a été utilisée pour comparer les performances du coefficient de corrélation de Pearson, du coefficient de corrélation de Spearman et de la mesure non-robuste de proportionnalité (𝑝𝑛𝑟) pour

47 détecter une relation entre le vecteur d’abondance du core génome de l’espèce et les vecteurs d’abondance de chacun de ses gènes, accessoires compris.

Cette simulation montre que les coefficients de corrélation Pearson et de Spearman décroissent d’autant plus que la prévalence du gène testé est faible tandis que 𝑝𝑛𝑟 reste élevée (supérieure à 0,8) et relativement stable (Figure 17). En effet, 𝑝𝑛𝑟 est calculée uniquement sur le sous-ensemble d’échantillons où le gène testé et le core génome de l’espèce sont simultanément détectés alors que les coefficients de corrélation prennent en compte tous les échantillons. Or, les échantillons où l’espèce est présente mais où le gène accessoire testé est absent génèrent des zéros structurels qui font décroitre le coefficient de corrélation d’autant plus que la prévalence du gène est faible. Par conséquent, des associations pertinentes entre le core génome d’une espèce et de nombreux gènes accessoires seront manquées en utilisant les coefficients de corrélations usuels. Dans l’exemple ci-dessous, les gènes accessoires dont la prévalence est inférieure à 75% ne seront pas associés au core génome de l’espèce si l’on fixe un seuil minimal d’inclusion à 0,8.

Néanmoins, les performances des coefficients de corrélation auraient été comparables à celle de 𝑝𝑛𝑟

si les zéros avaient été filtrés. Cependant, 𝑝𝑛𝑟 ne détecte que des relations de proportionnalité directe tandis que les coefficients de corrélation identifient soit des relations linéaires (corrélation de Pearson) soit n’importe quelle relation monotone (corrélation de Spearman). Ainsi, les relations identifiées grâce à 𝑝𝑛𝑟 le seront aussi avec les coefficients de corrélations usuels mais la réciproque n’est pas vraie. En effet, de fausses relations peuvent être détectées avec les coefficients de corrélation lorsque la prévalence des gènes comparés est faible. A l’inverse, la mesure de proportionnalité reconstitue le répertoire de gènes d’espèces rares et détecte des gènes accessoires peu prévalents tout en garantissant une spécificité élevée.

Figure 17 : Comparaison des performances de la mesure non-robuste de proportionnalité (rouge), du coefficient de corrélation de Pearson (vert) et du coefficient de corrélation de Spearman (bleu) pour détecter un lien entre le vecteur d’abondance médian de l’espèce simulée et les vecteurs d’abondance de chacun de ses gènes.

48

L’axe des abscisses correspond à la prévalence du gène, c’est-à-dire le pourcentage d’échantillons dans lequel il est détecté. Les gènes core ont une prévalence de 100% tandis que les autres sont des gènes accessoires d’autant plus rares que leur prévalence est faible.

L’axe des ordonnées correspond à l’intensité du lien détecté entre le vecteur d’abondance du gène et le vecteur d’abondance du core génome de l’espèce. Plus la valeur est proche de 1, plus l’intensité du lien est forte.

3.4.3 Impact de la longueur des gènes et de la couverture de séquençage

Dans un second temps, nous avons fait varier les paramètres de la simulation pour évaluer l’impact de la longueur des gènes et de la couverture de séquençage sur 𝑝𝑛𝑟. Cette simulation montre que la sensibilité de 𝑝𝑛𝑟 est plus élevée pour les gènes longs et ceux ayant une couverture de séquençage variant fortement d’un échantillon à l’autre (Figure 18).

Figure 18 : Impact de la longueur des gènes et de la couverture de séquençage sur 𝑝𝑛𝑟

Ce graphique représente l’intensité du lien détecté entre le vecteur d’abondance d’un gène core de l’espèce et le vecteur d’abondance médian de son core génome (axe des ordonnées) en fonction de la longueur du gène core testé (axe des abscisses). La couverture de séquençage des gènes core varie soit de 1x à 5x (rouge), soit de 5x à 10x (vert) ou soit de 1x à 10x (bleu).

𝑝𝑛𝑟 est plus élevée pour les gènes longs car leurs comptages sont plus « étalés » et moins dispersés (Figure 19 et Tableau 6). Remarquablement, une normalisation par la longueur des gènes n’atténue pas cet effet.

49

Figure 19 : Comparaison du vecteur d’abondance médian du core génome de l’espèce virtuelle (axe des abscisses) avec les vecteurs d’abondance de 3 gènes core (axe des ordonnées) en échelle racine carrée. Les gènes core représentés en A, B et C ont pour longueurs respectives 5000, 1000 et 200 paires de bases. Plus les gènes sont courts, plus l’étendue de leurs comptages est faible et plus 𝑝𝑛𝑟 est faible. On remarque que le gène le plus court (C) a des comptages nuls dans certains échantillons où il est présent (points jaunes) : il s’agit de zéros d’échantillonnage.

Comparaison Longueur du gène

Comptage minimum

Comptage

maximum Ecart type

Mesure de la proportionnalité (𝒑𝒏𝒓) A 1000 pb 5,1 22,8 4,7 0,99 B 5000 pb 2,4 10,3 2,1 0,97 C 200 pb 0 5,1 1,1 0,89

Tableau 6 : On indique pour chacun des gènes décrits ci-dessus le comptage le plus faible, le comptage le plus fort, l’écart type des comptages et la mesure de proportionnalité. Plus le gène est long, plus l’écart type des comptages est grand et plus 𝑝𝑛𝑟 est élevée.

De même, la mesure de proportionnalité est plus élevée pour les gènes dont la couverture est hautement variable car leurs comptages sont plus « étalés » (Figure 20 et Tableau 7).

Figure 20 : Comparaison du vecteur d’abondance médian du core génome de l’espèce (axe des abscisses) avec le vecteur d’abondance d’un gène core (axe des ordonnées) en échelle racine carrée. On fait varier la couverture de séquençage de l’espèce dans les différents échantillons (A = 1x – 5x ; B = 5x -10x ; C = 1x – 10x). Plus la couverture est variable, plus 𝑝𝑛𝑟 est forte.

50

Comparaison Couverture Comptage minimum Comptage maximum Ecart type Mesure de la proportionnalité (𝒑𝒏𝒓) A 1x – 5x 2,6 7,8 1,3 0,92 B 5x – 10x 6,2 10,9 0,99 0,85 C 1x – 10x 3 10,8 1,9 0,96

Tableau 7 : On indique pour chacun des gènes décrits ci-dessus le comptage le plus faible, le comptage le plus fort, l’écart type des comptages et la mesure de proportionnalité. Plus la couverture est variable, plus l’écart type des comptages est grand et plus 𝑝𝑛𝑟 est élevée.

3.4.4 Comparaison de la version non-robuste et de la version robuste de la mesure de

proportionnalité

Finalement, nous avons comparé les capacités de la mesure robuste (𝑝𝑟) et de la mesure non robuste (𝑝𝑛𝑟) à identifier une relation de proportionnalité directe malgré des valeurs aberrantes. Pour ce faire, nous avons ajouté un pourcentage croissant de valeurs aberrantes (5%, 10% puis 20%) dans les vecteurs d’abondance de chaque gène core de l’espèce. Les valeurs aberrantes ont été générées en multipliant les comptages des gènes par ¼, ⅓, 2 ,3 ou 4. Pour un pourcentage de valeurs aberrantes donné, nous avons comparé le vecteur d’abondance bruité de chaque gène core au vecteur d’abondance médian non bruité du core de l’espèce en utilisant soit 𝑝𝑟 soit 𝑝𝑛𝑟.

Cette simulation montre que 𝑝𝑛𝑟 décroit d’autant plus que le pourcentage de valeurs aberrantes est important alors que 𝑝𝑟 reste élevée (Figure 21). Ainsi, 𝑝𝑟 permet de détecter un lien de proportionnalité malgré la présence de valeurs aberrantes.

Figure 21 : Capacités de la mesure non-robuste (boxplots bleus) et de la mesure robuste (boxplots rouges) pour identifier une relation de proportionnalité directe entre les vecteurs d’abondance bruité des gènes core de l’espèce simulée et le vecteur d’abondance médian non bruité du core.

On augmente progressivement la proportion de valeurs aberrantes à 5%, 10% puis 20% (axe des abscisses). L’axe des ordonnées correspond à l’intensité du lien détecté entre le vecteur d’abondance bruité du gène et le vecteur d’abondance non bruité du core génome de l’espèce.

51