4.4.1 Les différentes analyses multivariées

Le but des analyses multivariées est de réduire la complexité des données pour révéler leurs structurations sous-jacentes. Une façon simple d’estimer la similarité entre deux points est le calcul de la distance euclidienne entre ces deux points : si elle est faible cela signifie que les points sont similaires cependant si cette distance est grande on ne peut rien conclure sur ce qui cause cette forte dissimilarité. J’ai testé trois analyses multivariées différentes, une méthode de réduction de dimensionnalité linéaire : (1) l’analyse en composante principale (PCA) et deux méthodes de réduction de dimensionnalité non-linéaire : (2) t-SNE [Maaten & Hinton, 2008] et (3) diffusion map [Coifman et al. , 2005, 2008; Angerer et al. , 2015].

La PCA a pour but de reconstruire la cartographie linéaire entre un objet à haute dimension

(n × p, où n est le nombre de gènes exprimés et p est le nombre d’échantillons par exemple) et un sous espace à d dimensions (où d < n × p) tout en capturant le maximum de variabilité dans

les données. Ce sous-espace est défini par d vecteurs orthogonaux : les composant principaux (PCs), qui sont les axes de la PCA [De la Porte et al. , 2008] (voir box PCA p. 26).

Les méthodes non-linéaires partent du principe que les données d’un objet à forte dimension (nxp) sont souvent intégrées dans une structure à faible dimension. Il serait alors possible de caractériser les données ainsi que les relations entre chaque points en utilisant moins de dimensions (2 à 3), en mesurant les distances entre chaque point dans cette structure à faible dimension plutôt que dans l’espace euclidien.

t-SNE (t-distributed Stochastic Neighbor Embeding) ou intégration stochastique du voisinage

par distribution t de Student, permet d’estimer la distribution du voisinage de deux points. Concrètement, deux matrices sont calculées : (1) la matrice de probabilité pi jconstituée de la distance des points xi et xj dans l’espace à haute dimension, ceci mesure la proximité de xj

de xi, en considérant une distribution gaussienne autour de xiavec une variance donnéeσ2

j, (2) la matrice de similarité qi j qui mesure la distance des points xiet xjdans l’espace à faible dimension permettant d’évaluer la proximité des points en considérant une distribution t de Student [Rossant, 2015]. Enfin, le meilleur espace à faible dimension est l’espace dans lequel la distance entre pi jet qi jest la plus faible. Cette méthode à tendance à séparer les données en paquets.

Le principe de la diffusion map est le suivant : la connectivité entre deux points x et y, est la probabilité de sauter de x à y en une seule étape le long d’une marche aléatoire (définie par une gaussienne). Cette étape permet de définir des noyaux de similarité (kernel) à l’intérieur desquels la connectivité entre les points composant le noyau est forte et diminue rapidement lorsque l’on sort de ce noyau [De la Porte et al. , 2008]. À partir de la matrice de diffusion, qui contient la connectivité entre deux points, la distance de diffusion est calculée à partir du processus de diffusion qui correspond à la marche aléatoire le long des noyaux de connectivité pour aller du point x au point y. Un nouvel espace de diffusion est alors défini dans lequel la distance euclidienne entre les points correspond à la distance de diffusion. Cette méthode a plutôt tendance à organiser les données en gradient. C’est pourquoi cette méthode est plus appropriée pour les analyse de données différentiation cellulaire et d’engagement du destin cellulaire.

Le problème de la PCA est qu’elle a tendance à donner beaucoup de poids aux points très éloignés et donc à amoindrir les différences faibles (bien que ces différences existent), alors que les deux méthodes non-linéaires présentées ici vont chercher à conserver à la fois ces fortes différences (structure globale) tout en conservant l’information de ces faibles différences (structure locale). Cependant, la PCA a un aspect quantitatif que t-SNE et diffusion map n’ont pas. De plus, la PCA permet d’avoir des informations sur les variables, dans notre cas c’est-à-dire les gènes, ce qui permet de récupérer les coordonnées des gènes sur les axes ainsi que d’identifier les gènes qui contribuent le plus à ces différent axes. C’est pourquoi j’ai principalement utilisé la PCA pour estimer la structuration de mes données.

Chapitre 4. Analyse des données RNA-seq

4.4.2 Identifier les axes majeurs de variations et caractériser la participation de chaque tissu à cette variation

J’ai réalisé des analyses multivariées, et majoritairement des analyses en composantes princi-pales, à l’aide du paquet ade4 [Dray & Dufour, 2007] (version 1.7.4) afin d’identifier les axes majeurs de variation dans les différents jeux de données RNA-seq. J’ai aussi interrogé la par-ticipation de chaque compartiment tissulaire du bourgeon de molaire (eg. le mésenchyme, l’épithélium et le nœud d’émail) en réalisant des PCA uniquement sur des sous-ensembles de gènes marqueurs de ces trois compartiments (cf. chapitres 8 et 10). De plus, afin de découpler les effets entre la proportion relative de tissu dans le bourgeon et l’état de maturation du tissu, j’ai réalisé ces PCA soit en conservant les données normalisées sur l’ensemble des gènes, conser-vant ainsi l’information de proportion de tissu, soit en re-normalisant les niveaux d’expression uniquement sur mon sous-ensemble de gènes marqueurs, éliminant ainsi les informations de proportions relatives des tissus et conservant uniquement l’information de nature du tissu. Une représentation schématique de l’influence de cette re-normalisation sur un sous-groupe de gènes marqueurs d’un compartiment tissulaire est présenté dans l’annexe A (figure supplémen-taire 6a). La façon dont j’ai sélectionné ces marqueurs est décrite dans la section déconvolution ci-dessous (p. 78)

4.4.3 Analyses between : identifier la variation associée à un facteur

Un axe de PCA représente un axe de variance dans les données et non pas un facteur biologique. Une façon de connaitre le pourcentage de variation associé à un facteur donné est l’utilisation d’une analyse multivariée supplémentaire/complémentaire appelée between-group. La between va estimer un individu moyen pour chaque groupe, ces individus moyens sont ensuite utilisés pour effectuer une analyse multivariée puis les échantillons originaux sont projetés dans sur cette analyse (voir figure 4.2). De la sorte, l’analyse en between-group va permettre d’identifier le pourcentage de variance associé spécifiquement à un facteur biologique. Ainsi, j’ai pu estimer le pourcentage de variation associé à l’identité buccale ou linguale dans le jeu de données BL (chapitre 10) ainsi que la variation associée au type de molaire (inférieure vs. supérieure) dans le jeu de données BL et le jeu de données souris-hamster (chapitre 9) ou encore la variation associé à identité des tissus (épithélium vs. mésenchyme) dans le jeu de données tissus purs exploité lors des analyses bucco-linguales (chapitre 10).

Cette approche est complémentaire à l’analyse des gènes différentiellement exprimé (DE) car les très faibles différences de niveaux d’expression vont pouvoir être capturées par l’analyse multivariée alors qu’elle ne le seront pas par l’analyse DE qui ce concentre sur les gènes dont le niveaux d’expression varie plus fortement.

FIGURE4.2 – Principe de l’analyse multivariée en between-group. Représentation schématique du principe de l’analyse multivariée between-group. Un hypothétique jeu de données composé de 9 variables (les rectangles pleins) et de 6 échantillons (les cercles pleins) répartis dans deux groupes : orange et bleu. Les cercles vides représentent le niveaux d’expression moyen de chaque variables par groupes.

4.4.4 Distance BL sur PCA et Bootstrapping

Cette partie se réfère au chapitre 10 : l’étude de l’asymétrie bucco-linguale dans les germes de molaires de souris.

4.4.4.1 La distance BL est-elle la même entre la molaire inférieure et la molaire supérieure ?

J’ai estimé la distance entre les librairies buccales et linguales des molaires supérieures et infé-rieures. Afin de tester si cette distance est statistiquement différente entre la molaire supérieure et la molaire inférieure j’ai réalisé un grand nombre d’analyse PCA (itérations = 1000) sur un sous-ensemble de 500 gènes tirés au hasard à chaque analyse puis j’ai vérifié que l’axe 1 correspondait bien à un axe qui sépare les échantillons buccaux des échantillons linguaux, enfin j’ai mesuré la distance entre les librairies buccales et linguales sur PC1 pour chaque type de molaire (inf. vs sup.). Cependant, la comparaison d’une distance directement entre différentes PCA n’est pas possible, j’ai donc pallié à ce problème en comparant le ratio de la distance BL pour la molaire supérieure et inférieure. De la sorte j’ai obtenu la distribution du ratio BL entre molaire inf. et sup., que j’ai pu modéliser par une loi normale dont j’ai estimé les paramètres.

4.4.4.2 L’excès de différence BL est-il dû à une différence de progression du programme dé-veloppemental ?

Afin d’estimer si une différence de progression du programme de développement entre la molaire supérieure et la molaire inférieure est responsable de la plus grande distance entre les transcrip-tomes buccaux et linguaux de la molaire supérieure, j’ai réalisé le même genre d’analyse que celui décrit dans le paragraphe précédent. Je me suis servie de la PCA obtenue sur les données de bourgeons de molaires entières à différents temps de développement (le jeu de données large échelle). J’ai ensuite projeté les échantillons BL sur cette PCA et mesuré la distance BL sur PC1,

Chapitre 4. Analyse des données RNA-seq

un sous-ensemble de 1000 gènes tirés au hasard à chaque analyse en ne gardant que les PCA pour lesquels PC1 ordonne correctement les échantillons, c’est-à-dire que l’ordonnancement temporel des échantillons de germes entiers est conservé. Enfin j’ai mesuré la distance entre les librairies buccales et linguales sur PC1 pour chaque type de molaire (inf. ou sup.). Puis j’ai extrait les ratios des distances BL entre la molaire supérieure et inférieure, ce qui m’a permis d’ajuster une loi normale et d’en estimer les paramètres.

4.5 Analyse des gènes différentiellement exprimés (DE)

Dans le document Évolution et Développement d'un organe sériel - la molaire : Transcriptomique comparée des bourgeons de molaire chez les rongeurs (Page 89-93)