Rapport de stage Master 1 MAPI
3Int ´ egration de donn ´ ees omiques
multi-niveaux pour expliquer l’efficacit ´ e alimentaire chez les agneaux
24 Chemin Borde Rouge 31320 Auzeville Tolosane
Tuteurs : Nathalie VIALANEIX et J´erˆome MARIETTE Professeur encadrant : Luca AMODEI
Annaleah JOHANNY
03 Mai 2021 — 31 Ao ˆut 2021
Remerciements
Je tiens `a remercier mes encadrants de stage Nathalie VIALANEIX et J ´er ˆome MARIET TE, pour leur disponibilit ´e et la confiance qu’ils m’ont accord ´ee tout au long de mon stage. Leur implication m’a permis d’approfondir mes connaissances et de d ´evelopper mes comp ´etences en analyses de donn ´ees.
Je remercie l’universit ´e Toulouse III - Paul Sabatier de m’avoir donn ´e l’opportunit ´e de r ´ealiser ce stage.
Enfin je remercie l’ensemble de l’unit ´e MIAT pour son accueil chaleureux pendant ces 4 mois de stage.
Table des mati ` eres
1 INRAe et l’unit´e MIAT 4
2 Contexte et objectif du stage 6
2.1 Projet MILAGE . . . 6
2.2 Plan exp ´erimental . . . 6
2.3 Probl ´ematique du stage . . . 7
2.4 Organisation . . . 7
3 M´ethodes 9 3.1 Pr ´esentation des donn ´ees . . . 9
3.2 M ´ethodes de pr ´e-traitement de donn ´ees . . . 11
3.2.1 Performances en ´elevage et m ´etabolome : donn ´ees num ´eriques . . . 11
3.2.2 Microbiote : donn ´ees de comptages . . . 11
3.3 M ´ethodes d’analyse des donn ´ees . . . 12
4 R´esultats 13 4.1 Pr ´e-traitement des donn ´ees . . . 13
4.1.1 Performances en ´elevage et m ´etabolome . . . 13
4.1.2 Microbiote . . . 14
4.2 Analyses des performances en ´elevage et du m ´etabolome . . . 18
4.2.1 Analyse d ´etaill ´ee du m ´etabolome en DAF . . . 18
4.2.2 Synth`eses des autres analyses . . . 19
4.3 Analyses du microbiote . . . 21
4.3.1 Analyses en DAC . . . 21
4.3.2 Synth`ese des analyses en DAF . . . 22
5 Conclusions 24
6 Annexes 25
1
INRAe et l’unit ´ e MIAT
L’Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)
L’Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE) est un organisme public de recherche scientifique, plac ´e sous la double tutelle du minist`ere de l’En- seignement sup ´erieur et de la Recherche, et du minist`ere de l’Alimentation, de l’Agriculture et de la P ˆeche. Il est constitu ´e de 14 d ´epartements scientifiques, r ´epartis sur 18 centres de recherche r ´egionaux. INRAE organise ses recherches selon 5 grandes orientations scientifiques :
•
r ´epondre aux enjeux environnementaux et g ´erer les risques associ ´es ;•
acc ´el ´erer les transitions vers des syst`emes agricoles et alimentaires agro ´ecologiques en tenant compte des enjeux ´economiques et sociaux ;•
une bio ´economie bas ´ee sur une utilisation sobre et circulaire des ressources ;•
favoriser une approche globale de la sant ´e ;•
mobiliser la science des donn ´ees et les technologies du num ´erique au service des transitions.Trois orientations de politique g ´en ´erale fournissent un cadre pour la r ´ealisation des recherches selon les orientations scientifiques et pour la vie collective :
•
Placer la science, l’innovation et l’expertise au cœur de nos relations avec la soci ´et ´e pour renfor- cer notre culture de l’impact ;•
ˆetre un acteur engag ´e dans les sites universitaires en France et un leader dans les partenariats europ ´eens et internationaux ;•
la strat ´egieResponsabilit ´e Sociale et Environnementale(RSE) : une priorit ´e collective.Il m`ene des recherches sur les th`emes de l’agriculture, l’alimentation, la s ´ecurit ´e des aliments, l’en- vironnement et la gestion des territoires. Toutes ces recherches sont effectu ´ees dans une perspective de d ´eveloppement durable.
L’Unite de Mathematiques et Informatique Appliqu´ees de Toulouse (MIAT)
L’unit ´e MIAT est charg ´ee de mettre au point des m ´ethodes math ´ematiques et informatiques et de les mettre `a disposition d’INRAE, favorisant ainsi les collaborations entre d ´epartements. Le domaine de comp ´etence de l’unit ´e s’ ´etend de la statistique, aux probabilit ´es, `a l’algorithmique, l’intelligence artificielle et aux sciences de la d ´ecision. L’unit ´e comporte, depuis janvier 2011, deux ´equipes de recherches th ´ematiques :
•
SCIDYN (Simulation, Contr ˆole et Inf ´erence de Dynamiques Agro-environnementales et Biolo- giques) : mod ´elisation des syst`emes complexes dans les champs de l’agriculture, de l’environne- ment, de l’analyse des risques alimentaires et des proc ´ed ´es industriels.•
SaAB (Statistique et Algorithmique pour la Biologie) : d ´eveloppement de m ´ethodes relevant des math ´ematiques, de la statistique et de l’informatique destin ´ees `a l’exploitation de donn ´ees de g ´enomique et de post-g ´enomique. Mon activit ´e est rattach ´ee `a cette ´equipe.L’unit ´e s’appuie aussi sur l’activit ´e de trois plateformes :
•
Plateforme GENOTOUL : Plateforme bioinformatique du GIS GENOTOUL, dont l’activit ´e est centr ´ee sur la bioinformatique et l’analyse de s ´equences.•
Plateforme RECORD (R ´Enovation et COORDination de la mod ´elisation des cultures pour la ges- tion des agro- ´ecosyst`emes) : Plateforme issue du partenariat des d ´epartements Environnement et Agronomie (EA) et MIA. Elle vise `a offrir un cadre et des outils informatiques communs aux mod ´elisateurs des diff ´erentes disciplines (agronomie, bioclimatologie, sciences de gestion, math ´ematiques, …) pour la mod ´elisation et la simulation des syst`emes de culture.•
Plateforme SIGENAE (Syst`eme d’Information des GENomes des Animaux d’Elevage). Elle se compose d’ing ´enieurs en bio-informatique qui accompagnent les biologistes des d ´epartementsanimaux (G ´en ´etique Animale, Physiologie Animale et Syst`eme d’Elevage, Sant ´e Animale) d’INRAE dans le traitement de leurs donn ´ees `a haut d ´ebit.
Ce stage a ´et ´e encadr ´e par Mme Nathalie VIALANEIX, Directrice de Recherche au sein de l’unit ´e MIAT, dans l’ ´equipe SaAB, ainsi que par Mr J ´er ˆome MARIET TE, Ing ´enieur d’ ´Etude en bioinforma- tique dans l’ ´equipe GENOTOUL Bioinfo.
2
Contexte et objectif du stage
2.1 Projet MILAGE
Ce stage s’inscrit dans le cadre du projet MILAGE (financement m ´etaprogrammeM ´eta-omiques et ´ecosyst`emes microbiens (MEM)d’INRAE). L’unit ´e portant le projet est GenPhyse avec laquelle mon unit ´e (MIAT) collabore. Les deux biologistes de l’unit ´e GenPhyse avec qui j’ai ´et ´e en contact pendant mon stage sont : Flavie TORTEREAU et Christel MARIE-ETANCELIN.
L’objectif du projet est de comprendre et pr ´edire l’efficacit ´e alimentaire chez les agneaux. Celle-ci se d ´efinit comme la capacit ´e `a bien grandir/grossir avec une alimentation r ´eduite. En effet, l’ ´elevage d’agneaux dont l’efficacit ´e alimentaire est bonne permet de r ´eduire le co ˆut de l’alimentation des animaux tout en ayant la m ˆeme production finale. Par cons ´equent, cela r ´eduit ´egalement l’impact environnemental de la production de nourriture.
2.2 Plan exp´erimental
Un dispositif a ´et ´e mis en place permettant de collecter plusieurs types de donn ´ees sur deux lign ´ees divergentes : RFI+ et RFI-. Les animaux de lign ´ee RFI- ont une bonne efficacit ´e alimentaire contrai- rement aux animaux de la lign ´ee RFI+ : un agneau de lign ´ee RFI- consommera moins de nourriture qu’un agneau de lign ´ee RFI+ tout en ayant la m ˆeme vitesse de croissance ainsi que la m ˆeme pro- duction finale. Pour obtenir les deux lign ´ees, les parents et grands-parents des animaux concern ´ees avaient ´et ´e pr ´ealablement s ´electionn ´es : ceux de la lign ´ee RFI- ´etaient parmi les animaux les plus efficaces parmi un ensemble d’animaux sur lesquels la valeur g ´en ´etique rfi avait ´et ´e calcul ´ee (et inversement pour deux de la lign ´ee RFI+). Au fur et `a mesure des g ´en ´erations sur lequel ce pro- cessus est r ´ep ´et ´e, on obtient des animaux (descendants des animaux de la g ´en ´eration pr ´ec ´edente, s ´electionn ´es sur le caract`ere d’int ´er ˆet qui est ici l’efficacit ´e alimentaire) de plus en plus extr ˆemes et diff ´erents entre les deux lign ´ees. On appelle ce type d’exp ´eriences deslign ´ees divergentes. Les mesures ont et ´´ e r ´ealis ´ees sur des animaux de deux ann ´ees diff ´erentes (2018 et 2019). Les animaux de 2019 sont, en grande partie, des descendants des animaux de 2018. Quelques semaines apr`es leur naissance les agneaux suivent un premier r ´egime alimentaire contr ˆol ´e (DAC) pendant lequel une premi`ere s ´erie de mesures est effectu ´ee. Durant cette p ´eriode, les animaux sont nourris `a base de concentr ´e. `A l’issue de ce r ´egime alimentaire, seuls les animaux extr ˆemes de chaque lign ´ee sont gard ´es pour la deuxi`eme phase d’alimentation : le DAF. Une nouvelle s ´erie de mesures a ´et ´e r ´ealis ´ee lors de ce second r ´egime alimentaire (voir figure 2.1).
Figure 2.1 – Plan d’exp ´erience.
Les donn ´ees collect ´ees repr ´esentent des informations g ´enotypiques, m ´etabolomiques, m ´etag ´enomiques et ph ´enotypiques pour les deux types de r ´egimes alimentaires (DAC et DAF). De mani`ere plus pr ´ecise, les donn ´ees correspondent `a des mesures r ´ealis ´ees sur les m ˆemes animaux :
• performances en ´elevage,
• m ´etabolites du sang,
• m ´etabolites du rumen (toutes obtenues par technique haut d ´ebit de r ´esonance magn ´etique nucl ´eaire1H RMN),
• microbiote du rumen (par s ´equenc¸age haut-d ´ebit bas ´e sur le g`ene 16S),
• mesures infra-rouge des f`eces,
• g ´enotypes (obtenus par une technique de puces).
2.3 Probl´ematique du stage
Le but du stage est de comparer les deux lign ´ees (les animaux d’une m ˆeme lign ´ee seront analys ´es ensemble mais les animaux en DAC et en DAF seront analys ´es s ´epar ´ement) en int ´egrant les infor- mations provenant de toutes les donn ´ees.
Les objectifs de ce stage sont de s ´electionner des variables explicatives des deux lign ´ees, pour cela des mod`eles pr ´edictifs int ´egrant ces diff ´erents omiques ont ´et ´e utilis ´es et pour finir de trouver les relations entre les diff ´erents jeux de donn ´ees.
2.4 Organisation
Mon travail s’est organis ´e selon un cycle hebdomadaire de 5 jours et un volume horaire de 35h. Une r ´eunion avec mes encadrants de stage avait lieu chaque semaine le Mardi matin. Cela me permettait d’exposer l’avanc ´ee de mes analyses et de discuter des diff ´erents r ´esultats obtenus. `A l’issue de cette r ´eunion nous d ´efinissions une direction `a suivre pour la suite de mes travaux.
L’ensemble des analyses a ´et ´e r ´ealis ´e `a l’aide du langage R et de l’interface graphique RStudio. Plus pr ´ecis ´ement, j’ai r ´edig ´e un ensemble de scripts RMarkdown permettant de g ´en ´erer des rapports de mani`ere dynamique en m ´elangeant textes mis en forme et r ´esultats produits par du code R, voir un exemple de rapport en Annexe 6. Le partage de mes travaux avec mes encadrants s’effectuait via Git, un syst`eme de contr ˆole de version, auquel j’ai du me former pendant mes premi`eres semaines de stage.
Au cours de mon stage, il m’a ´egalement ´et ´e demand ´e de pr ´esenter mes analyses aux biologistes du projet MILAGE (Flavie TORTEREAU et Christel MARIE-ETANCELIN) afin de discuter avec elles des r ´esultats obtenus.
3
M ´ ethodes
Dans cette section, je vais d ´ecrire et pr ´esenter l’ensemble des donn ´ees ainsi que les m ´ethodes de pr ´e-traitements et d’analyses qui ont ´et ´e effectu ´ees tout au long de ce stage.
3.1 Pr´esentation des donn´ees
L’ensemble des donn ´ees correspond `a des mesures r ´ealis ´ees `a plusieurs niveaux de l’ ´echelle du vivant : microbiote du rumen (par s ´equenc¸age haut-d ´ebit bas ´e sur le g`ene 16S), performances en
´
elevage, m ´etabolites du sang, m ´etabolites du rumen (toutes obtenues par technique haut d ´ebit de r ´esonance magn ´etique nucl ´eaire1H RMN), mesures infra-rouges des f`eces, g ´enotypes (obtenus par une technique de puces). Madame Vialaneix et Monsieur Mariette ont nettoy ´e et mis au propre les donn ´ees en amont de mon stage. Ainsi, seuls les animaux pour lesquels nous avions l’ensemble des mesures ont ´et ´e gard ´es pour les analyses. Au total 196 animaux sont conserv ´es pour le premier r ´egime alimentaire (DAC) et 120 pour le deuxi`eme r ´egime (DAF).
Durant ces quatre mois de stage, j’ai pu analyser quatre jeux de donn ´ees en DAC et en DAF : les performances en ´elevage, les m ´etabolites du plasma, les m ´etabolites du rumen ainsi que le microbiote du rumen.
Les performances en ´elevage correspondent `a des mesures qui ´evaluent le physique des animaux : poids en d ´ebut milieu et fin de r ´egime, poids `a ˆage type (145 jours ici), ´epaisseur de muscle et de gras en milieu et fin de r ´egime, consommation moyenne et r ´esiduelle de nourriture ainsi que le gain de poids moyen par jour.
Les deux jeux de donn ´ees contenant les informations sur le m ´etabolome du rumen et du plasma sont des tables donnant la concentration des m ´etabolites pr ´esents pour chaque individu. Les m ´etabolites sont soit produits `a partir d’autres m ´etabolites gr ˆace `a des r ´eactions chimiques, soit ils proviennent de l’ext ´erieur en ´etant, par exemple, ing ´er ´es. L’ensemble des m ´etabolites constitue le m ´etabolome.
Nous avons les concentrations de 40 m ´etabolites dans le rumen en DAC et 19 en DAF, contre 26 m ´etabolites dans le plasma en DAC et 19 en DAF.
Le jeu de donn ´ees du micriobiote est une table de comptages contenant le nombre de fois qu’un OTU est observ ´e pour chaque ´echantillon. Un OTU (Unit ´e Taxonomique Op ´erationnelle) peut ˆetre d ´efini par un regroupement de micro-organismes d’une m ˆeme esp`ece dont les s ´equences d’ARNr 16S pr ´esentent une similitude de plus de 97,5%.
Un fichierdesigncontenant le plan d’exp ´erience m’a ´egalement ´et ´e mis `a disposition. Les informa- tions pr ´esentes dans ce fichier sont les suivantes :
— l’ann ´ee,
— le lot,
— la lign ´ee,
— la valeur g ´en ´etique rfi,
— la date, l’heure et l’ordre des pr ´el`evements dans le rumen,
— l’ ˆage au jour des pr ´el`evements,
— la plaque, la profondeur et le run de s ´equenc¸age (pour les donn ´ees de microbiote).
Afin d’optimiser leur acc`es `a la nourriture, les agneaux ont ´et ´e s ´epar ´es en plusieurs lots, ´elev ´es dans des lieux diff ´erents : 6 en 2018, 5 en 2019 en DAC (voir figure 3.1 ) et 4 en 2018, 4 en 2019 en DAF (voir figure 3.2 ). Les lots ont ´et ´e r ´ealis ´es en fonction du poids des animaux pour garantir la bonne nutrition des plus petits. Lors du second r ´egime alimentaire (DAF) la valeur g ´en ´etique rfi a ´egalement ´et ´e prise en compte pour la s ´eparation en lots : les extr ˆemes de chaque lign ´ee sont s ´epar ´es des animauxinterm ´ediaires(voir figure 3.3).
Nous avons au total 11 lots diff ´erents en DAC et 8 en DAF directement li ´es au poids et `a l’efficacit ´e alimentaire des animaux.
Figure 3.1 – Lots DAC en fonction de l’ann ´ee.
Figure 3.2 – Lots DAF en fonction de l’ann ´ee. Figure 3.3 – Lots DAF en fonction du groupe.
3.2 M´ethodes de pr´e-traitement de donn´ees
3.2.1 Performances en ´elevage et m´etabolome : donn´ees num´eriques
Afin d’observer au mieux les effets de la lign ´ee sur les diff ´erentes donn ´ees il faut s’assurer qu’aucun effet technique li ´e au plan d’exp ´erience n’influence les donn ´ees. Pour cela, j’ai utilis ´e une Analyse en Composantes Principales (ACP) qui m’a permis d’observer les ´eventuels effets ind ´esirables.
L’ACP est une m ´ethode de r ´eduction de dimension qui va permettre de transformer des variables tr`es corr ´el ´ees en nouvelles variables d ´ecorr ´el ´ees les unes des autres. Autrement dit, on cherche `a d ´efinir de nouvelles variables, combinaisons lin ´eaires des variables initiales, qui feront perdre un minimum d’informations. Il s’agit en fait de r ´esumer l’information qui est contenue dans un jeu de donn ´ees en variables synth ´etiques appel ´ees composantes principales. Cela va permettre de repr ´esenter le jeu de donn ´ees, de mani`ere simple, sur 2 ou 3 axes. La r ´eduction de dimension entraˆıne obligatoirement une perte d’information et celle ci est minimis ´ee par optimisation d’un crit`ere d’inertie reproduite.
Les ACP ont ´et ´e ex ´ecut ´ees avec la fonctionPCAdu packageFactoMineR. Cette analyse multi-vari ´ee a ´et ´e r ´ealis ´ee sur les 6 jeux de donn ´ees : performances DAC et DAF, m ´etabolome du rumen DAC et DAF et m ´etabolome du plasma DAC et DAF, crois ´ee avec les variables du plan d’exp ´erience.
Si un effet technique li ´e au plan d’exp ´erience est d ´etect ´e gr ˆace `a l’ACP, celui-ci est corrig ´e avec la fonctionComBat du packagesva. Cette correction se fait par mod`ele linaire multivari ´e : les r ´esidus sont r ´ecup ´er ´es une fois les effets techniques supprim ´es. Par la suite, les analyses sont r ´ealis ´ees sur les r ´esidus.
3.2.2 Microbiote : donn´ees de comptages
Les donn ´ees du microbiote sont des donn ´ees de comptage d’OTUs qu’on peut assimiler `a une esp`ece bact ´erienne. Le nombre total de lectures `a l’issue du s ´equenc¸age, aussi appel ´e profondeur de s ´equenc¸age, peut varier d’un ´echantillon `a l’autre. Cette diff ´erence emp ˆeche la comparaison di- recte de plusieurs ´echantillons. Un pr ´e-traitement suppl ´ementaire est obligatoire afin d’analyser correctement ce type de donn ´ees.
La premi`ere ´etape a ´et ´e de filtrer les OTUs et de supprimer celles dont le nombre d’apparitions total est inf ´erieur `a un certain seuil. Ce dernier est calcul ´e par rapport au nombre total d’OTUs compt ´es.
Ce filtre permet d’ ´eviter des analyses erron ´ees par des variables peu pr ´esentes dans le jeu de donn ´ees.
Dans un deuxi`eme temps, j’ai appliqu ´e une transformation CLR (Log-Ratio Centr ´ee). Cette strat ´egie consiste `a normaliser et projeter les comptages dans un espace euclidien :
y0ij = log yij
qp
Qp k=1yik.
Cela permet de traiter le probl`eme des donn ´ees compositionelles. Le donn ´ees compositionelles sont obtenues apr`es la normalisation. Ce sont des donn ´ees positives ou nulles dont la somme des valeurs pour chaque individu est ´egale `a 1 (ou 100, ou un nombrek).
Pour appliquer cette transformation j’ai utilis ´e la fonctionlogratio.transfoavec le param`etrelogratio
= ”CLR” du packageMixOmics.
Apr`es ce premier pr ´e-traitement, j’applique des ACP comme pr ´ec ´edemment afin d’identifier et cor- riger les ´eventuels effets techniques. Les corrections ont ´egalement ´et ´e r ´ealis ´ees avec la fonction ComBat du packagesva.
3.3 M´ethodes d’analyse des donn´ees
Les deux m ˆemes analyses ont ´et ´e r ´ealis ´ees sur chaque jeu de donn ´ees : une PLS-DA ainsi que deux tests statistiques (test de Wilcoxon et test de Student).
La PLS-DA
La r ´egression des moindres carr ´es partiels (PLS) g ´en ´eralise et combine les caract ´eristiques de l’ACP et de la r ´egression multiple. Elle est notamment utilis ´ee lorsque l’on veut pr ´edire un ensemble de variables d ´ependant d’un nombre tr`es grand de variables explicatives (pr ´edicteurs) qui peuvent ˆetre fortement corr ´el ´ees entre elles. La PLS-DA (Partial Least Squares Discriminant Analysis) est une extension de la r ´egression PLS d ´edi ´ee `a la pr ´ediction d’une variable cat ´egorielle. C’est une analyse multivari ´ee descriptive et pr ´edictive. Je l’ai ex ´ecut ´ee avec la fonctionplsdadu packageMixOmics. Les tests statistiques
Les tests d’hypoth`eses sont des proc ´edures de d ´ecision entre deux hypoth`eses. Il s’agit d’une technique consistant `a rejeter ou `a ne pas rejeter une hypoth`ese statistique, appel ´ee hypoth`ese nulle, en fonction d’un ´echantillon de donn ´ees. Les tests appartiennent `a la statistique inf ´erentielle :
`
a partir de calculs r ´ealis ´es sur des donn ´ees observ ´ees, on g ´en ´eralise les conclusions sur toute la population, en leur rattachant un risque de rejet `a tord de l’hypoth`ese nulle, appel ´e p-valeur.
J’ai appliqu ´e le test de Wilcoxon (non param ´etrique) et le test de Student (param ´etrique) avec un seuil de confiance `a 95%. Un test param ´etrique est un test pour lequel une hypoth`ese param ´etrique sur la distribution des donn ´ees sous H0 est faite. Un test non param ´etrique, lui, ne n ´ecessite pas d’hypoth`ese sur la distribution des donn ´ees. Lorsque l’hypoth`ese de distribution est v ´erifi ´ee, les tests non-param ´etriques ne sont pas aussi puissants que les tests param ´etriques. La puissance statistique d’un test est la probabilit ´e de rejeter l’hypoth`ese nulle sachant que l’hypoth`ese nulle est incorrecte.
Comme de nombreux tests sont r ´ealis ´es (un pour chaque variable) une correction des p-valeurs est n ´ecessaire. Effectuer un test en boucle un grand nombre de fois augmente le nombre de p-valeurs calcul ´ees et par cons ´equent le risque de d ´etecter des effets significatifs `a tort. En effet, plus on r ´ealise de tests plus la probabilit ´e d’avoir un faux positif est ´elev ´ee :
P(avoir au moins 1 faux positif siH0est toujours vraie) = 1−(1−α)N, avecN le nombre de tests r ´ealis ´es etαle risque.
PourNsup ´erieur `a 75 cette probabilit ´e est tr`es proche de 1. J’utilise la m ´ethodeBenjamini & Hochberg pour corriger/p ´enaliser les p-valeurs `a la fin de chaque s ´erie de tests. Cette proc ´edure permet de contr ˆoler le FDR (False Discovery Rate outaux de fausses d ´ecouvertes).
La correction est la suivante :
p0 =min(p×N j ,1),
o `u p est la p-valeur d’origine,N le nombre de p-valeurs calcul ´ee au total, etjle rang de la p-valeurs lorsque les p-valeurs sont rang ´ees par ordre croissant.
4
R ´ esultats
4.1 Pr´e-traitement des donn´ees
4.1.1 Performances en ´elevage et m´etabolome
Dans un premier temps, les effets techniques ont d ˆu ˆetre identifi ´es et corrig ´es afin d’observer au mieux l’effet de la lign ´ee sur les donn ´ees.
Figure 4.1 – Effet lot et effet ann ´ee sur les performances DAC.
Figure 4.2 – Effet lot et effet ann ´ee sur les performances DAF.
(Seules les ACP sur les performances sont affich´ees. On obtient des r´esultats similaires pour le m´etabolome.)
On observe un effet lot et un effet ann ´ee marqu ´es (voir figure 4.1 et figure 4.2) quel que soit le r ´egime alimentaire analys ´e (DAF et DAC). Il est n ´ecessaire que ces effets soient corrig ´es afin d’analyser au mieux l’effet biologique ´etudi ´e : la lign ´ee.
Comme expliqu ´e pr ´ec ´edemment, les lots ont ´et ´e r ´ealis ´es en fonction du poids des animaux et de la valeur g ´en ´etique rfi en DAF et seulement en fonction du poids en DAC.
Aussi, en DAC, c’est l’effet lot qui a ´et ´e corrig ´e. En effet, la correction de cet effet permet ´egalement de corriger l’effet ann ´ee. En revanche, pour les donn ´ees DAF, la correction de l’effet lot entraˆınerait la perte d’une partie de la variabilit ´e biologique qui nous int ´eresse (car les d ´efinitions des lots sont li ´ees `a la valeur g ´en ´etique rfi qui est en lien avec la lign ´ee). J’ai donc seulement corrig ´e l’effet ann ´ee pour les donn ´ees DAF.
La correction des donn ´ees a ´et ´e r ´ealis ´ee par mod`ele lin ´eaire avec la fonction ComBat du package sva. Pour chaque jeu de donn ´ees des ACP ont ´et ´e faites afin de v ´erifier l’efficacit ´e de la correction.
L’ACP sur les donn ´ees corrig ´ees (voir figure 4.3) montre que la correction avec la fonction ComBat a fonctionn ´e et les effets ind ´esirables ne sont plus visibles.
Figure 4.3 – Effet lot et effet ann ´ee sur les performances DAC apr`es correction de l’effet groupe.
(Seules les ACP sur les performances corrig´ees DAC sont affich´ees. On obtient des r´esultats similaires pour les perfomances DAF et le m´etabolome)
4.1.2 Microbiote
Une fois le pr ´etraitement des donn ´ees de comptage fait, j’ai r ´ealis ´e des ACP comme pour les autres jeux de donn ´ees.
En DAC
Un groupe d’individus se d ´etache nettement des autres `a gauche de l’axe 1 (voir figure 4.4). Cepen- dant aucune des variables du plan exp ´erimental n’explique cette diff ´erence.
Figure 4.4 – ACP sur le microbiote en DAC.
Figure 4.5 – Effet lot. Figure 4.6 – Effet ann ´ee.
Figure 4.7 – Effet lign ´ee. Figure 4.8 – Effet plaque de s ´equenc¸age.
Aucune des variables lot (voir figure 4.5), ann ´ee (voir figure 4.6), lign ´ee (voir figure 4.7) ou plaque de s ´equenc¸age (voir figure 4.8) ne semble ˆetre la cause de ce groupe d’individus.
Les animaux composant ce groupe ont et ´´ e identifi ´es et supprim ´es de l’analyse du microbiote.
Apr`es suppression de ces individus, l’ACP montre un effet lot marqu ´e, de la m ˆeme mani`ere que les analyses pr ´ec ´edentes. Une correction de l’effet lot a donc de nouveau ´et ´e faite avec la fonction ComBat. Comme voulu, les effets ind ´esirables ne sont plus visibles (voir figures 4.9 et 4.10).
Figure 4.9 – Effet lot apr`es correction. Figure 4.10 – Effet ann ´ee apr`es correction.
En DAF
Sur l’ACP nous remarquons 4 animaux atypiques (voir figures 4.12 et 4.13), comme pr ´ec ´edemment ces individus sont supprim ´es.
Figure 4.11 – Effet lot. Figure 4.12 – Effet ann ´ee.
Figure 4.13 – Effet jour de pr ´el`evement. Figure 4.14 – Effet plaque de s ´equenc¸age.
Figure 4.15 – Effet groupe.
En plus de ces 4 animaux atypiques, on observe un effet ann ´ee marqu ´e (voir figure 4.12) ainsi qu’un effet lot (voir figure 4.11). On observe un effet jour de pr ´el`evement en 2018 (voir figure 4.13), en plus de l’effet ann ´ee qui est ´egalement visible sur cette figure. De plus on voit que l’effet jour de pr ´el`evement correspond `a l’effet groupe (voir figure 4.15).
La correction de l’effet jour de pr ´el`evement, de l’effet groupe ou de l’effet lot entrainerait une perte de la variabilit ´e biologique que nous souhaitons observer (les groupes et les lots ´etant li ´es directement `a la valeur g ´en ´etique rfi qui est en lien avec la lign ´ee). En revanche, l’ACP obtenue apr`es la correction de l’effet ann ´ee sur l’ensemble des donn ´ees montre une importante diff ´erence des valeurs de variance entre 2018 et 2019 (voir figure 4.16).
Figure 4.16 – Effet ann ´ee apr`es correction.
Des biais dans les analyses post ´erieures pourraient apparaitre si l’effet ann ´ee ´etait corrig ´e. C’est pourquoi pour ce r ´egime alimentaire je n’ai corrig ´e aucun effet. Les donn ´ees de 2018 et 2019 devront ˆ
etre analys ´ees s ´epar ´ement.
4.2 Analyses des performances en ´elevage et du m´etabolome
4.2.1 Analyse d´etaill´ee du m´etabolome en DAF
M´etabolome du rumen
Dans un premier temps je vais pr ´esenter les r ´esultats obtenus avec la PLS-DA.
Figure 4.17 – Affichage des individus.
Figure 4.18 – Affichage des variables les plus corr ´el ´ees avec l’axe 1 ou l’axe 2.
On n’observe aucune s ´eparation claire des deux lign ´ees. Les deux nuages de points sont presque semblables (voir figure 4.17). Seul un petit nombre d’individus diff ´erentie le premier nuage de points du deuxi`eme.
Les deux tests (Student et Wilcoxon) confirment le r ´esultat : aucun des m ´etabolites pr ´esents dans le rumen ne pr ´esente de diff ´erences significatives entre les deux lign ´ees.
M´etabolome du plasma
Figure 4.19 – Affichage des individus.
Figure 4.20 – Affichage des variables les plus corr ´el ´ees `a l’axe 1 ou l’axe 2.
On observe un effet lign ´ee sur les deux axes (figure 4.19) : le nuage de points correspondant `a la lign ´ee rfi+ est plus `a gauche sur l’axe 1 que le nuage de points de la lign ´ee rfi-. Sur l’axe 2 c’est le nuage de points de la lign ´ee rfi- qui est plus bas que le deuxi`eme nuage de points.
Figure 4.21 – Corr ´elation variables/axe1. Figure 4.22 – Corr ´elation variables/axe2.
Les concentrations en citrate et en thr ´eonine sont les variables les plus corr ´el ´ees `a l’axe 1 (voir figure 4.21), seule la concentration en citrate est fortement corr ´el ´ee `a l’axe 2 (voir figure 4.22). La concentration en citrate est plus ´elev ´ee chez les animaux de lign ´ee rfi-. A contrario les animaux de lign ´ee rfi+ ont une concentration en thr ´eonine sup ´erieure `a celle des animaux de lign ´ee rfi-.
Les m ´etabolites du plasma pr ´esentant des diff ´erences significatives entre les deux lign ´ees sont : le citrate et la thr ´eonine d’apr`es les tests de Student et Wilcoxon. A nouveau, les r ´` esultats des tests concordent avec les r ´esultats observ ´es avec la PLS-DA.
Ci dessous (voir figure 4.23 et 4.24 ) les boxplots des deux m ´etabolites les plus discriminants pour la lign ´ee. Ces graphiques confirment les r ´esultats de la PLS-DA : le citrate est plus pr ´esent dans le plasma des animaux de lign ´ee rfi- et inversement pour le thr ´eonine qui est en quantit ´e plus important dans le plasma des animaux de lign ´ee rfi+.
Figure 4.23 – Boxplot de la concentration en Citrate.
Figure 4.24 – Boxplot de la concentration en Thr ´eonine.
4.2.2 Synth`eses des autres analyses
Analyses des performances
En DAC : la consommation moyenne et r ´esiduelle, le poids `a ˆage type, l’ ´epaisseur du muscle en milieu et fin de contr ˆole DAC, le poids en d ´ebut, en milieu et fin de contr ˆole sont les variables qui pr ´esentent une diff ´erence significative entre les deux lign ´ees. Les variables qui int ´eressent le plus les biologistes sont les variables li ´ees `a la consommation des animaux. Ci-dessous (voir figure 4.25
et 4.26) sont repr ´esent ´es les boxplots de la consommation moyenne et r ´esiduelle en fonction de la lign ´ee des animaux.
Figure 4.25 – Boxplot de la consommation moyenne des animaux.
Figure 4.26 – Boxplot de la consommation r ´esiduelle des animaux.
En DAF : nous n’observons pas de fortes diff ´erences entre les deux lign ´ees sur la base de leurs performances.
Autres analyses du m´etabolome en DAC
Les analyses r ´ealis ´ees sur les animaux en DAC donnent les r ´esultats suivants : aucun des m ´etabolites pr ´esents dans le rumen ne pr ´esente de diff ´erence significative entre les deux lign ´ees. En revanche, le citrate est le seul m ´etabolite dans le plasma qui pr ´esente une diff ´erence significative entre les deux lign ´ees (voir figure 4.27). Comme en DAF, la concentration en citrate dans le plasma est plus ´elev ´ee chez les animaux de lign ´ee rfi-.
Figure 4.27 – Boxplot de la concentration en citrate dans le plasma en phase DAC.
4.3 Analyses du microbiote
4.3.1 Analyses en DAC
Figure 4.28 – Affichage des individus.
On observe un effet lign ´ee sur les deux axes (figure 4.28) : le nuage de points correspondant `a la lign ´ee rfi+ est plus `a droite sur l’axe 1 que le nuage de points de la lign ´ee rfi-. Sur l’axe 2 c’est le nuage de points de la lign ´ee rfi- qui est plus bas que le deuxi`eme nuage de points.
Figure 4.29 – Corr ´elation variables/axe1. Figure 4.30 – Corr ´elation variables/axe2.
GU566701.1.1310.1 est la variable la plus corr ´el ´ee `a l’axe 1, tandis queKJ159224.1.1488est la plus corr ´el ´ee `a l’axe 2. L’OTU GU566701.1.1310.1est plus abondant chez les animaux rfi+ que chez les animaux de lign ´ee rfi-. A l’inverse l’OTU KJ159224.1.1488est plus abondant chez les animaux de lign ´ee rfi- (voir figure 4.29 et 4.30).
L’OTU pr ´esentant des diff ´erences significatives entre les deux lign ´ees est :GU566701.1.1310.1d’apr`es le test de Wilcoxon. Le test de Student, lui, ne ressort aucun OTU discriminant. Les r ´esultats des tests concordent avec les r ´esultats observ ´es avec la PLS-DA. Ci-dessous le boxplot de l’OTU pr ´esentant des diff ´erences significatives :
Images/microbiotedacVar.png
Figure 4.31 – Boxplot de la quantit ´e de l’OTU discriminante en phase DAC.
4.3.2 Synth`ese des analyses en DAF
2018
La pls-da montre un fort effet lign ´ee sur le premier axe en 2018. Les variables les plus corr ´el ´ee `a l’axe 1 sont les suivantes : FJ028792.1.1490, KF697956.1.1425, EU842667.1.1498, AF371914.1.1431.1, AY445602.1.1501 (plus abondant chez les animaux rfi-) et HQ399968.1.1499 (plus abondant chez les animaux rfi+). En revanche les deux tests statistiques ne donnent pas de r ´esultats : aucun OTU ne pr ´esente de diff ´erence significative entre les deux lign ´ees. Ci-dessous (voir figure 4.32) les boxplots des OTUs les plus corr ´el ´es `a l’axe 1 :
Figure 4.32 – Boxplot de la quantit ´e de l’OTU en phase DAC en 2018.
2019
La pls-da montre ´egalement un fort effet lign ´ee en 2019 : les animaux rfi+ ´etant plus `a droite sur l’axe 1 et plus en haut sur l’axe 2. Les variables les plus corr ´el ´ees `a l’axe 1 sont les suivantes : HQ399907.1.1506, EU774561.1.1230 (plus pr ´esents chez les animaux rfi-) et AY445602.1.1501 (plus pr ´esents chez les animaux rfi+). Les variables les plus corr ´el ´ees a l’axe 2 sont les suivantes :` EU843219.1.1388 (plus pr ´esents chez les animaux rfi-) et AB034127.1.1420.2, GQ358359.1.1289.1 (plus pr ´esents chez les animaux rfi+). `A nouveau les deux tests statistiques ne donnent pas de r ´esultats : aucun OTU ne pr ´esente de diff ´erence significative entre les deux lign ´ees. Ci-dessous les boxplots des OTUs les plus corr ´el ´es `a l’axe 1 (voir figure 4.33 premi`ere ligne) et les plus corr ´el ´es `a l’axe 2 (voir figure 4.33 deuxi`eme ligne) :
Figure 4.33 – Boxplot de la quantit ´e de l’OTU en phase DAC en 2019.
5
Conclusions
J’ai pu analyser quatre des six jeux de donn ´ees omiques que j’avais `a disposition. L’objectif ´etait de s ´electionner les variables discriminantes pour la lign ´ee. De mani`ere g ´en ´erale, j’ai obtenu plus de variables explicatives pour le premier r ´egime alimentaire (DAC) que pour le deuxi`eme (DAF) :
• 8 variables pour les perfomances en DAC (consommation moyenne et r ´esiduelle, poids `a ˆage type, ´epaisseur du muscle en milieu et fin de r ´egime, poids en d ´ebut et en milieu et fin r ´egime) contre z ´ero en DAF,
• aucune variable discriminante pour le m ´etabolome du rumen que ce soit en DAC ou en DAF,
• une variable pour le m ´etabolome du plasma en DAC (le citrate) contre deux en DAF (le citrate et la thr ´eonine),
• et un OTU discriminant pour le microbiote du rumen en DAC (GU566701.1.1310.1) contre z ´ero en DAF.
Ceci est d ˆu `a une alimentation beaucoup plus contr ˆol ´ee en DAC : en effet il est plus facile de g ´erer la quantit ´e de nourriture consomm ´ee par les animaux lors qu’elle est sous forme de concentr ´es (r ´egime DAC) que lorsque c’est du fourrage (r ´egime DAF). Par cons ´equent, nous avons une diff ´erence d’alimentation entre les animaux en DAF plus importante et de ce fait une alimentation diff ´erente au sein de chaque lign ´ee. La discrimination des deux lign ´ees est alors moins marqu ´ee.
Le g ´enotype ainsi que les mesures infra-rouge des f`eces n’ont pas ´et ´e trait ´es. En effet un certain nombre de difficult ´es ont ´et ´e rencontr ´ees lors de l’analyse du microbiote : effets techniques li ´es
`
a la lign ´ee qui ne pouvaient par cons ´equent pas ˆetre corrig ´es, groupe d’individus ne pouvant ˆetre expliqu ´e par aucune variable, ou encore une diff ´erence de variance trop importante entre les animaux de 2018 et 2019. Les travaux sur les donn ´ees du microbiote ont pris plus de temps que pr ´evu.
Suite aux r ´esultats pr ´esent ´es aux biologistes, il a ´et ´e d ´ecid ´e qu’il serait int ´eressant de mettre en lien le microbiote du rumen et le m ´etabolome du rumen afin de voir si certains m ´etabolites sont li ´es avec certains OTUs. Malheureusement je n’ai pas pu terminer correctement cette ´etude par manque de temps.
D’un point de vue personnel, ce stage a ´et ´e une r ´eelle opportunit ´e de d ´evelopper mes connais- sances en statistiques ainsi que mes comp ´etences en R. J’ai trouv ´e l’ ´echange avec les biologistes tr`es int ´eressant, cela m’a permis de lier math ´ematiques et biologie afin de r ´epondre `a des probl ´ematiques concr`etes. J’ai ainsi pu mesurer l’apport que peuvent avoir les statistiques dans d’autres disciplines.
Ces quatre mois m’ont ´egalement permis de me familiariser avec le monde du travail. Ce stage a ´et ´e une exp ´erience enrichissante que j’ai beaucoup appr ´eci ´ee.
6
Annexes
Figure 6.1 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.
Figure 6.2 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.
Figure 6.3 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.
Figure 6.4 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.
Figure 6.5 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.
Figure 6.6 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.
Figure 6.7 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.
Figure 6.8 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.
Figure 6.9 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.
Figure 6.10 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.
Figure 6.11 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.