• Aucun résultat trouvé

Int ´ egration de donn ´ ees omiques

N/A
N/A
Protected

Academic year: 2022

Partager "Int ´ egration de donn ´ ees omiques"

Copied!
38
0
0

Texte intégral

(1)

Rapport de stage Master 1 MAPI

3

Int ´ egration de donn ´ ees omiques

multi-niveaux pour expliquer l’efficacit ´ e alimentaire chez les agneaux

24 Chemin Borde Rouge 31320 Auzeville Tolosane

Tuteurs : Nathalie VIALANEIX et J´erˆome MARIETTE Professeur encadrant : Luca AMODEI

Annaleah JOHANNY

03 Mai 2021 — 31 Ao ˆut 2021

(2)
(3)

Remerciements

Je tiens `a remercier mes encadrants de stage Nathalie VIALANEIX et J ´er ˆome MARIET TE, pour leur disponibilit ´e et la confiance qu’ils m’ont accord ´ee tout au long de mon stage. Leur implication m’a permis d’approfondir mes connaissances et de d ´evelopper mes comp ´etences en analyses de donn ´ees.

Je remercie l’universit ´e Toulouse III - Paul Sabatier de m’avoir donn ´e l’opportunit ´e de r ´ealiser ce stage.

Enfin je remercie l’ensemble de l’unit ´e MIAT pour son accueil chaleureux pendant ces 4 mois de stage.

(4)
(5)

Table des mati ` eres

1 INRAe et l’unit´e MIAT 4

2 Contexte et objectif du stage 6

2.1 Projet MILAGE . . . 6

2.2 Plan exp ´erimental . . . 6

2.3 Probl ´ematique du stage . . . 7

2.4 Organisation . . . 7

3 M´ethodes 9 3.1 Pr ´esentation des donn ´ees . . . 9

3.2 M ´ethodes de pr ´e-traitement de donn ´ees . . . 11

3.2.1 Performances en ´elevage et m ´etabolome : donn ´ees num ´eriques . . . 11

3.2.2 Microbiote : donn ´ees de comptages . . . 11

3.3 M ´ethodes d’analyse des donn ´ees . . . 12

4 R´esultats 13 4.1 Pr ´e-traitement des donn ´ees . . . 13

4.1.1 Performances en ´elevage et m ´etabolome . . . 13

4.1.2 Microbiote . . . 14

4.2 Analyses des performances en ´elevage et du m ´etabolome . . . 18

4.2.1 Analyse d ´etaill ´ee du m ´etabolome en DAF . . . 18

4.2.2 Synth`eses des autres analyses . . . 19

4.3 Analyses du microbiote . . . 21

4.3.1 Analyses en DAC . . . 21

4.3.2 Synth`ese des analyses en DAF . . . 22

5 Conclusions 24

(6)

6 Annexes 25

(7)

1

INRAe et l’unit ´ e MIAT

L’Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)

L’Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE) est un organisme public de recherche scientifique, plac ´e sous la double tutelle du minist`ere de l’En- seignement sup ´erieur et de la Recherche, et du minist`ere de l’Alimentation, de l’Agriculture et de la P ˆeche. Il est constitu ´e de 14 d ´epartements scientifiques, r ´epartis sur 18 centres de recherche r ´egionaux. INRAE organise ses recherches selon 5 grandes orientations scientifiques :

r ´epondre aux enjeux environnementaux et g ´erer les risques associ ´es ;

acc ´el ´erer les transitions vers des syst`emes agricoles et alimentaires agro ´ecologiques en tenant compte des enjeux ´economiques et sociaux ;

une bio ´economie bas ´ee sur une utilisation sobre et circulaire des ressources ;

favoriser une approche globale de la sant ´e ;

mobiliser la science des donn ´ees et les technologies du num ´erique au service des transitions.

Trois orientations de politique g ´en ´erale fournissent un cadre pour la r ´ealisation des recherches selon les orientations scientifiques et pour la vie collective :

Placer la science, l’innovation et l’expertise au cœur de nos relations avec la soci ´et ´e pour renfor- cer notre culture de l’impact ;

ˆetre un acteur engag ´e dans les sites universitaires en France et un leader dans les partenariats europ ´eens et internationaux ;

la strat ´egieResponsabilit ´e Sociale et Environnementale(RSE) : une priorit ´e collective.

Il m`ene des recherches sur les th`emes de l’agriculture, l’alimentation, la s ´ecurit ´e des aliments, l’en- vironnement et la gestion des territoires. Toutes ces recherches sont effectu ´ees dans une perspective de d ´eveloppement durable.

(8)

L’Unite de Mathematiques et Informatique Appliqu´ees de Toulouse (MIAT)

L’unit ´e MIAT est charg ´ee de mettre au point des m ´ethodes math ´ematiques et informatiques et de les mettre `a disposition d’INRAE, favorisant ainsi les collaborations entre d ´epartements. Le domaine de comp ´etence de l’unit ´e s’ ´etend de la statistique, aux probabilit ´es, `a l’algorithmique, l’intelligence artificielle et aux sciences de la d ´ecision. L’unit ´e comporte, depuis janvier 2011, deux ´equipes de recherches th ´ematiques :

SCIDYN (Simulation, Contr ˆole et Inf ´erence de Dynamiques Agro-environnementales et Biolo- giques) : mod ´elisation des syst`emes complexes dans les champs de l’agriculture, de l’environne- ment, de l’analyse des risques alimentaires et des proc ´ed ´es industriels.

SaAB (Statistique et Algorithmique pour la Biologie) : d ´eveloppement de m ´ethodes relevant des math ´ematiques, de la statistique et de l’informatique destin ´ees `a l’exploitation de donn ´ees de g ´enomique et de post-g ´enomique. Mon activit ´e est rattach ´ee `a cette ´equipe.

L’unit ´e s’appuie aussi sur l’activit ´e de trois plateformes :

Plateforme GENOTOUL : Plateforme bioinformatique du GIS GENOTOUL, dont l’activit ´e est centr ´ee sur la bioinformatique et l’analyse de s ´equences.

Plateforme RECORD (R ´Enovation et COORDination de la mod ´elisation des cultures pour la ges- tion des agro- ´ecosyst`emes) : Plateforme issue du partenariat des d ´epartements Environnement et Agronomie (EA) et MIA. Elle vise `a offrir un cadre et des outils informatiques communs aux mod ´elisateurs des diff ´erentes disciplines (agronomie, bioclimatologie, sciences de gestion, math ´ematiques, …) pour la mod ´elisation et la simulation des syst`emes de culture.

Plateforme SIGENAE (Syst`eme d’Information des GENomes des Animaux d’Elevage). Elle se compose d’ing ´enieurs en bio-informatique qui accompagnent les biologistes des d ´epartements

animaux (G ´en ´etique Animale, Physiologie Animale et Syst`eme d’Elevage, Sant ´e Animale) d’INRAE dans le traitement de leurs donn ´ees `a haut d ´ebit.

Ce stage a ´et ´e encadr ´e par Mme Nathalie VIALANEIX, Directrice de Recherche au sein de l’unit ´e MIAT, dans l’ ´equipe SaAB, ainsi que par Mr J ´er ˆome MARIET TE, Ing ´enieur d’ ´Etude en bioinforma- tique dans l’ ´equipe GENOTOUL Bioinfo.

(9)

2

Contexte et objectif du stage

2.1 Projet MILAGE

Ce stage s’inscrit dans le cadre du projet MILAGE (financement m ´etaprogrammeM ´eta-omiques et ´ecosyst`emes microbiens (MEM)d’INRAE). L’unit ´e portant le projet est GenPhyse avec laquelle mon unit ´e (MIAT) collabore. Les deux biologistes de l’unit ´e GenPhyse avec qui j’ai ´et ´e en contact pendant mon stage sont : Flavie TORTEREAU et Christel MARIE-ETANCELIN.

L’objectif du projet est de comprendre et pr ´edire l’efficacit ´e alimentaire chez les agneaux. Celle-ci se d ´efinit comme la capacit ´e `a bien grandir/grossir avec une alimentation r ´eduite. En effet, l’ ´elevage d’agneaux dont l’efficacit ´e alimentaire est bonne permet de r ´eduire le co ˆut de l’alimentation des animaux tout en ayant la m ˆeme production finale. Par cons ´equent, cela r ´eduit ´egalement l’impact environnemental de la production de nourriture.

2.2 Plan exp´erimental

Un dispositif a ´et ´e mis en place permettant de collecter plusieurs types de donn ´ees sur deux lign ´ees divergentes : RFI+ et RFI-. Les animaux de lign ´ee RFI- ont une bonne efficacit ´e alimentaire contrai- rement aux animaux de la lign ´ee RFI+ : un agneau de lign ´ee RFI- consommera moins de nourriture qu’un agneau de lign ´ee RFI+ tout en ayant la m ˆeme vitesse de croissance ainsi que la m ˆeme pro- duction finale. Pour obtenir les deux lign ´ees, les parents et grands-parents des animaux concern ´ees avaient ´et ´e pr ´ealablement s ´electionn ´es : ceux de la lign ´ee RFI- ´etaient parmi les animaux les plus efficaces parmi un ensemble d’animaux sur lesquels la valeur g ´en ´etique rfi avait ´et ´e calcul ´ee (et inversement pour deux de la lign ´ee RFI+). Au fur et `a mesure des g ´en ´erations sur lequel ce pro- cessus est r ´ep ´et ´e, on obtient des animaux (descendants des animaux de la g ´en ´eration pr ´ec ´edente, s ´electionn ´es sur le caract`ere d’int ´er ˆet qui est ici l’efficacit ´e alimentaire) de plus en plus extr ˆemes et diff ´erents entre les deux lign ´ees. On appelle ce type d’exp ´eriences deslign ´ees divergentes. Les mesures ont et ´´ e r ´ealis ´ees sur des animaux de deux ann ´ees diff ´erentes (2018 et 2019). Les animaux de 2019 sont, en grande partie, des descendants des animaux de 2018. Quelques semaines apr`es leur naissance les agneaux suivent un premier r ´egime alimentaire contr ˆol ´e (DAC) pendant lequel une premi`ere s ´erie de mesures est effectu ´ee. Durant cette p ´eriode, les animaux sont nourris `a base de concentr ´e. `A l’issue de ce r ´egime alimentaire, seuls les animaux extr ˆemes de chaque lign ´ee sont gard ´es pour la deuxi`eme phase d’alimentation : le DAF. Une nouvelle s ´erie de mesures a ´et ´e r ´ealis ´ee lors de ce second r ´egime alimentaire (voir figure 2.1).

(10)

Figure 2.1 – Plan d’exp ´erience.

Les donn ´ees collect ´ees repr ´esentent des informations g ´enotypiques, m ´etabolomiques, m ´etag ´enomiques et ph ´enotypiques pour les deux types de r ´egimes alimentaires (DAC et DAF). De mani`ere plus pr ´ecise, les donn ´ees correspondent `a des mesures r ´ealis ´ees sur les m ˆemes animaux :

• performances en ´elevage,

• m ´etabolites du sang,

• m ´etabolites du rumen (toutes obtenues par technique haut d ´ebit de r ´esonance magn ´etique nucl ´eaire1H RMN),

• microbiote du rumen (par s ´equenc¸age haut-d ´ebit bas ´e sur le g`ene 16S),

• mesures infra-rouge des f`eces,

• g ´enotypes (obtenus par une technique de puces).

2.3 Probl´ematique du stage

Le but du stage est de comparer les deux lign ´ees (les animaux d’une m ˆeme lign ´ee seront analys ´es ensemble mais les animaux en DAC et en DAF seront analys ´es s ´epar ´ement) en int ´egrant les infor- mations provenant de toutes les donn ´ees.

Les objectifs de ce stage sont de s ´electionner des variables explicatives des deux lign ´ees, pour cela des mod`eles pr ´edictifs int ´egrant ces diff ´erents omiques ont ´et ´e utilis ´es et pour finir de trouver les relations entre les diff ´erents jeux de donn ´ees.

2.4 Organisation

Mon travail s’est organis ´e selon un cycle hebdomadaire de 5 jours et un volume horaire de 35h. Une r ´eunion avec mes encadrants de stage avait lieu chaque semaine le Mardi matin. Cela me permettait d’exposer l’avanc ´ee de mes analyses et de discuter des diff ´erents r ´esultats obtenus. `A l’issue de cette r ´eunion nous d ´efinissions une direction `a suivre pour la suite de mes travaux.

L’ensemble des analyses a ´et ´e r ´ealis ´e `a l’aide du langage R et de l’interface graphique RStudio. Plus pr ´ecis ´ement, j’ai r ´edig ´e un ensemble de scripts RMarkdown permettant de g ´en ´erer des rapports de mani`ere dynamique en m ´elangeant textes mis en forme et r ´esultats produits par du code R, voir un exemple de rapport en Annexe 6. Le partage de mes travaux avec mes encadrants s’effectuait via Git, un syst`eme de contr ˆole de version, auquel j’ai du me former pendant mes premi`eres semaines de stage.

(11)

Au cours de mon stage, il m’a ´egalement ´et ´e demand ´e de pr ´esenter mes analyses aux biologistes du projet MILAGE (Flavie TORTEREAU et Christel MARIE-ETANCELIN) afin de discuter avec elles des r ´esultats obtenus.

(12)

3

M ´ ethodes

Dans cette section, je vais d ´ecrire et pr ´esenter l’ensemble des donn ´ees ainsi que les m ´ethodes de pr ´e-traitements et d’analyses qui ont ´et ´e effectu ´ees tout au long de ce stage.

3.1 Pr´esentation des donn´ees

L’ensemble des donn ´ees correspond `a des mesures r ´ealis ´ees `a plusieurs niveaux de l’ ´echelle du vivant : microbiote du rumen (par s ´equenc¸age haut-d ´ebit bas ´e sur le g`ene 16S), performances en

´

elevage, m ´etabolites du sang, m ´etabolites du rumen (toutes obtenues par technique haut d ´ebit de r ´esonance magn ´etique nucl ´eaire1H RMN), mesures infra-rouges des f`eces, g ´enotypes (obtenus par une technique de puces). Madame Vialaneix et Monsieur Mariette ont nettoy ´e et mis au propre les donn ´ees en amont de mon stage. Ainsi, seuls les animaux pour lesquels nous avions l’ensemble des mesures ont ´et ´e gard ´es pour les analyses. Au total 196 animaux sont conserv ´es pour le premier r ´egime alimentaire (DAC) et 120 pour le deuxi`eme r ´egime (DAF).

Durant ces quatre mois de stage, j’ai pu analyser quatre jeux de donn ´ees en DAC et en DAF : les performances en ´elevage, les m ´etabolites du plasma, les m ´etabolites du rumen ainsi que le microbiote du rumen.

Les performances en ´elevage correspondent `a des mesures qui ´evaluent le physique des animaux : poids en d ´ebut milieu et fin de r ´egime, poids `a ˆage type (145 jours ici), ´epaisseur de muscle et de gras en milieu et fin de r ´egime, consommation moyenne et r ´esiduelle de nourriture ainsi que le gain de poids moyen par jour.

Les deux jeux de donn ´ees contenant les informations sur le m ´etabolome du rumen et du plasma sont des tables donnant la concentration des m ´etabolites pr ´esents pour chaque individu. Les m ´etabolites sont soit produits `a partir d’autres m ´etabolites gr ˆace `a des r ´eactions chimiques, soit ils proviennent de l’ext ´erieur en ´etant, par exemple, ing ´er ´es. L’ensemble des m ´etabolites constitue le m ´etabolome.

Nous avons les concentrations de 40 m ´etabolites dans le rumen en DAC et 19 en DAF, contre 26 m ´etabolites dans le plasma en DAC et 19 en DAF.

Le jeu de donn ´ees du micriobiote est une table de comptages contenant le nombre de fois qu’un OTU est observ ´e pour chaque ´echantillon. Un OTU (Unit ´e Taxonomique Op ´erationnelle) peut ˆetre d ´efini par un regroupement de micro-organismes d’une m ˆeme esp`ece dont les s ´equences d’ARNr 16S pr ´esentent une similitude de plus de 97,5%.

(13)

Un fichierdesigncontenant le plan d’exp ´erience m’a ´egalement ´et ´e mis `a disposition. Les informa- tions pr ´esentes dans ce fichier sont les suivantes :

— l’ann ´ee,

— le lot,

— la lign ´ee,

— la valeur g ´en ´etique rfi,

— la date, l’heure et l’ordre des pr ´el`evements dans le rumen,

— l’ ˆage au jour des pr ´el`evements,

— la plaque, la profondeur et le run de s ´equenc¸age (pour les donn ´ees de microbiote).

Afin d’optimiser leur acc`es `a la nourriture, les agneaux ont ´et ´e s ´epar ´es en plusieurs lots, ´elev ´es dans des lieux diff ´erents : 6 en 2018, 5 en 2019 en DAC (voir figure 3.1 ) et 4 en 2018, 4 en 2019 en DAF (voir figure 3.2 ). Les lots ont ´et ´e r ´ealis ´es en fonction du poids des animaux pour garantir la bonne nutrition des plus petits. Lors du second r ´egime alimentaire (DAF) la valeur g ´en ´etique rfi a ´egalement ´et ´e prise en compte pour la s ´eparation en lots : les extr ˆemes de chaque lign ´ee sont s ´epar ´es des animauxinterm ´ediaires(voir figure 3.3).

Nous avons au total 11 lots diff ´erents en DAC et 8 en DAF directement li ´es au poids et `a l’efficacit ´e alimentaire des animaux.

Figure 3.1 – Lots DAC en fonction de l’ann ´ee.

Figure 3.2 – Lots DAF en fonction de l’ann ´ee. Figure 3.3 – Lots DAF en fonction du groupe.

(14)

3.2 M´ethodes de pr´e-traitement de donn´ees

3.2.1 Performances en ´elevage et m´etabolome : donn´ees num´eriques

Afin d’observer au mieux les effets de la lign ´ee sur les diff ´erentes donn ´ees il faut s’assurer qu’aucun effet technique li ´e au plan d’exp ´erience n’influence les donn ´ees. Pour cela, j’ai utilis ´e une Analyse en Composantes Principales (ACP) qui m’a permis d’observer les ´eventuels effets ind ´esirables.

L’ACP est une m ´ethode de r ´eduction de dimension qui va permettre de transformer des variables tr`es corr ´el ´ees en nouvelles variables d ´ecorr ´el ´ees les unes des autres. Autrement dit, on cherche `a d ´efinir de nouvelles variables, combinaisons lin ´eaires des variables initiales, qui feront perdre un minimum d’informations. Il s’agit en fait de r ´esumer l’information qui est contenue dans un jeu de donn ´ees en variables synth ´etiques appel ´ees composantes principales. Cela va permettre de repr ´esenter le jeu de donn ´ees, de mani`ere simple, sur 2 ou 3 axes. La r ´eduction de dimension entraˆıne obligatoirement une perte d’information et celle ci est minimis ´ee par optimisation d’un crit`ere d’inertie reproduite.

Les ACP ont ´et ´e ex ´ecut ´ees avec la fonctionPCAdu packageFactoMineR. Cette analyse multi-vari ´ee a ´et ´e r ´ealis ´ee sur les 6 jeux de donn ´ees : performances DAC et DAF, m ´etabolome du rumen DAC et DAF et m ´etabolome du plasma DAC et DAF, crois ´ee avec les variables du plan d’exp ´erience.

Si un effet technique li ´e au plan d’exp ´erience est d ´etect ´e gr ˆace `a l’ACP, celui-ci est corrig ´e avec la fonctionComBat du packagesva. Cette correction se fait par mod`ele linaire multivari ´e : les r ´esidus sont r ´ecup ´er ´es une fois les effets techniques supprim ´es. Par la suite, les analyses sont r ´ealis ´ees sur les r ´esidus.

3.2.2 Microbiote : donn´ees de comptages

Les donn ´ees du microbiote sont des donn ´ees de comptage d’OTUs qu’on peut assimiler `a une esp`ece bact ´erienne. Le nombre total de lectures `a l’issue du s ´equenc¸age, aussi appel ´e profondeur de s ´equenc¸age, peut varier d’un ´echantillon `a l’autre. Cette diff ´erence emp ˆeche la comparaison di- recte de plusieurs ´echantillons. Un pr ´e-traitement suppl ´ementaire est obligatoire afin d’analyser correctement ce type de donn ´ees.

La premi`ere ´etape a ´et ´e de filtrer les OTUs et de supprimer celles dont le nombre d’apparitions total est inf ´erieur `a un certain seuil. Ce dernier est calcul ´e par rapport au nombre total d’OTUs compt ´es.

Ce filtre permet d’ ´eviter des analyses erron ´ees par des variables peu pr ´esentes dans le jeu de donn ´ees.

Dans un deuxi`eme temps, j’ai appliqu ´e une transformation CLR (Log-Ratio Centr ´ee). Cette strat ´egie consiste `a normaliser et projeter les comptages dans un espace euclidien :

y0ij = log yij

qp

Qp k=1yik.

Cela permet de traiter le probl`eme des donn ´ees compositionelles. Le donn ´ees compositionelles sont obtenues apr`es la normalisation. Ce sont des donn ´ees positives ou nulles dont la somme des valeurs pour chaque individu est ´egale `a 1 (ou 100, ou un nombrek).

Pour appliquer cette transformation j’ai utilis ´e la fonctionlogratio.transfoavec le param`etrelogratio

= ”CLR” du packageMixOmics.

Apr`es ce premier pr ´e-traitement, j’applique des ACP comme pr ´ec ´edemment afin d’identifier et cor- riger les ´eventuels effets techniques. Les corrections ont ´egalement ´et ´e r ´ealis ´ees avec la fonction ComBat du packagesva.

(15)

3.3 M´ethodes d’analyse des donn´ees

Les deux m ˆemes analyses ont ´et ´e r ´ealis ´ees sur chaque jeu de donn ´ees : une PLS-DA ainsi que deux tests statistiques (test de Wilcoxon et test de Student).

La PLS-DA

La r ´egression des moindres carr ´es partiels (PLS) g ´en ´eralise et combine les caract ´eristiques de l’ACP et de la r ´egression multiple. Elle est notamment utilis ´ee lorsque l’on veut pr ´edire un ensemble de variables d ´ependant d’un nombre tr`es grand de variables explicatives (pr ´edicteurs) qui peuvent ˆetre fortement corr ´el ´ees entre elles. La PLS-DA (Partial Least Squares Discriminant Analysis) est une extension de la r ´egression PLS d ´edi ´ee `a la pr ´ediction d’une variable cat ´egorielle. C’est une analyse multivari ´ee descriptive et pr ´edictive. Je l’ai ex ´ecut ´ee avec la fonctionplsdadu packageMixOmics. Les tests statistiques

Les tests d’hypoth`eses sont des proc ´edures de d ´ecision entre deux hypoth`eses. Il s’agit d’une technique consistant `a rejeter ou `a ne pas rejeter une hypoth`ese statistique, appel ´ee hypoth`ese nulle, en fonction d’un ´echantillon de donn ´ees. Les tests appartiennent `a la statistique inf ´erentielle :

`

a partir de calculs r ´ealis ´es sur des donn ´ees observ ´ees, on g ´en ´eralise les conclusions sur toute la population, en leur rattachant un risque de rejet `a tord de l’hypoth`ese nulle, appel ´e p-valeur.

J’ai appliqu ´e le test de Wilcoxon (non param ´etrique) et le test de Student (param ´etrique) avec un seuil de confiance `a 95%. Un test param ´etrique est un test pour lequel une hypoth`ese param ´etrique sur la distribution des donn ´ees sous H0 est faite. Un test non param ´etrique, lui, ne n ´ecessite pas d’hypoth`ese sur la distribution des donn ´ees. Lorsque l’hypoth`ese de distribution est v ´erifi ´ee, les tests non-param ´etriques ne sont pas aussi puissants que les tests param ´etriques. La puissance statistique d’un test est la probabilit ´e de rejeter l’hypoth`ese nulle sachant que l’hypoth`ese nulle est incorrecte.

Comme de nombreux tests sont r ´ealis ´es (un pour chaque variable) une correction des p-valeurs est n ´ecessaire. Effectuer un test en boucle un grand nombre de fois augmente le nombre de p-valeurs calcul ´ees et par cons ´equent le risque de d ´etecter des effets significatifs `a tort. En effet, plus on r ´ealise de tests plus la probabilit ´e d’avoir un faux positif est ´elev ´ee :

P(avoir au moins 1 faux positif siH0est toujours vraie) = 1−(1−α)N, avecN le nombre de tests r ´ealis ´es etαle risque.

PourNsup ´erieur `a 75 cette probabilit ´e est tr`es proche de 1. J’utilise la m ´ethodeBenjamini & Hochberg pour corriger/p ´enaliser les p-valeurs `a la fin de chaque s ´erie de tests. Cette proc ´edure permet de contr ˆoler le FDR (False Discovery Rate outaux de fausses d ´ecouvertes).

La correction est la suivante :

p0 =min(p×N j ,1),

o `u p est la p-valeur d’origine,N le nombre de p-valeurs calcul ´ee au total, etjle rang de la p-valeurs lorsque les p-valeurs sont rang ´ees par ordre croissant.

(16)

4

R ´ esultats

4.1 Pr´e-traitement des donn´ees

4.1.1 Performances en ´elevage et m´etabolome

Dans un premier temps, les effets techniques ont d ˆu ˆetre identifi ´es et corrig ´es afin d’observer au mieux l’effet de la lign ´ee sur les donn ´ees.

Figure 4.1 – Effet lot et effet ann ´ee sur les performances DAC.

Figure 4.2 – Effet lot et effet ann ´ee sur les performances DAF.

(17)

(Seules les ACP sur les performances sont affich´ees. On obtient des r´esultats similaires pour le m´etabolome.)

On observe un effet lot et un effet ann ´ee marqu ´es (voir figure 4.1 et figure 4.2) quel que soit le r ´egime alimentaire analys ´e (DAF et DAC). Il est n ´ecessaire que ces effets soient corrig ´es afin d’analyser au mieux l’effet biologique ´etudi ´e : la lign ´ee.

Comme expliqu ´e pr ´ec ´edemment, les lots ont ´et ´e r ´ealis ´es en fonction du poids des animaux et de la valeur g ´en ´etique rfi en DAF et seulement en fonction du poids en DAC.

Aussi, en DAC, c’est l’effet lot qui a ´et ´e corrig ´e. En effet, la correction de cet effet permet ´egalement de corriger l’effet ann ´ee. En revanche, pour les donn ´ees DAF, la correction de l’effet lot entraˆınerait la perte d’une partie de la variabilit ´e biologique qui nous int ´eresse (car les d ´efinitions des lots sont li ´ees `a la valeur g ´en ´etique rfi qui est en lien avec la lign ´ee). J’ai donc seulement corrig ´e l’effet ann ´ee pour les donn ´ees DAF.

La correction des donn ´ees a ´et ´e r ´ealis ´ee par mod`ele lin ´eaire avec la fonction ComBat du package sva. Pour chaque jeu de donn ´ees des ACP ont ´et ´e faites afin de v ´erifier l’efficacit ´e de la correction.

L’ACP sur les donn ´ees corrig ´ees (voir figure 4.3) montre que la correction avec la fonction ComBat a fonctionn ´e et les effets ind ´esirables ne sont plus visibles.

Figure 4.3 – Effet lot et effet ann ´ee sur les performances DAC apr`es correction de l’effet groupe.

(Seules les ACP sur les performances corrig´ees DAC sont affich´ees. On obtient des r´esultats similaires pour les perfomances DAF et le m´etabolome)

4.1.2 Microbiote

Une fois le pr ´etraitement des donn ´ees de comptage fait, j’ai r ´ealis ´e des ACP comme pour les autres jeux de donn ´ees.

En DAC

Un groupe d’individus se d ´etache nettement des autres `a gauche de l’axe 1 (voir figure 4.4). Cepen- dant aucune des variables du plan exp ´erimental n’explique cette diff ´erence.

(18)

Figure 4.4 – ACP sur le microbiote en DAC.

Figure 4.5 – Effet lot. Figure 4.6 – Effet ann ´ee.

Figure 4.7 – Effet lign ´ee. Figure 4.8 – Effet plaque de s ´equenc¸age.

Aucune des variables lot (voir figure 4.5), ann ´ee (voir figure 4.6), lign ´ee (voir figure 4.7) ou plaque de s ´equenc¸age (voir figure 4.8) ne semble ˆetre la cause de ce groupe d’individus.

(19)

Les animaux composant ce groupe ont et ´´ e identifi ´es et supprim ´es de l’analyse du microbiote.

Apr`es suppression de ces individus, l’ACP montre un effet lot marqu ´e, de la m ˆeme mani`ere que les analyses pr ´ec ´edentes. Une correction de l’effet lot a donc de nouveau ´et ´e faite avec la fonction ComBat. Comme voulu, les effets ind ´esirables ne sont plus visibles (voir figures 4.9 et 4.10).

Figure 4.9 – Effet lot apr`es correction. Figure 4.10 – Effet ann ´ee apr`es correction.

En DAF

Sur l’ACP nous remarquons 4 animaux atypiques (voir figures 4.12 et 4.13), comme pr ´ec ´edemment ces individus sont supprim ´es.

Figure 4.11 – Effet lot. Figure 4.12 – Effet ann ´ee.

Figure 4.13 – Effet jour de pr ´el`evement. Figure 4.14 – Effet plaque de s ´equenc¸age.

(20)

Figure 4.15 – Effet groupe.

En plus de ces 4 animaux atypiques, on observe un effet ann ´ee marqu ´e (voir figure 4.12) ainsi qu’un effet lot (voir figure 4.11). On observe un effet jour de pr ´el`evement en 2018 (voir figure 4.13), en plus de l’effet ann ´ee qui est ´egalement visible sur cette figure. De plus on voit que l’effet jour de pr ´el`evement correspond `a l’effet groupe (voir figure 4.15).

La correction de l’effet jour de pr ´el`evement, de l’effet groupe ou de l’effet lot entrainerait une perte de la variabilit ´e biologique que nous souhaitons observer (les groupes et les lots ´etant li ´es directement `a la valeur g ´en ´etique rfi qui est en lien avec la lign ´ee). En revanche, l’ACP obtenue apr`es la correction de l’effet ann ´ee sur l’ensemble des donn ´ees montre une importante diff ´erence des valeurs de variance entre 2018 et 2019 (voir figure 4.16).

Figure 4.16 – Effet ann ´ee apr`es correction.

Des biais dans les analyses post ´erieures pourraient apparaitre si l’effet ann ´ee ´etait corrig ´e. C’est pourquoi pour ce r ´egime alimentaire je n’ai corrig ´e aucun effet. Les donn ´ees de 2018 et 2019 devront ˆ

etre analys ´ees s ´epar ´ement.

(21)

4.2 Analyses des performances en ´elevage et du m´etabolome

4.2.1 Analyse d´etaill´ee du m´etabolome en DAF

M´etabolome du rumen

Dans un premier temps je vais pr ´esenter les r ´esultats obtenus avec la PLS-DA.

Figure 4.17 – Affichage des individus.

Figure 4.18 – Affichage des variables les plus corr ´el ´ees avec l’axe 1 ou l’axe 2.

On n’observe aucune s ´eparation claire des deux lign ´ees. Les deux nuages de points sont presque semblables (voir figure 4.17). Seul un petit nombre d’individus diff ´erentie le premier nuage de points du deuxi`eme.

Les deux tests (Student et Wilcoxon) confirment le r ´esultat : aucun des m ´etabolites pr ´esents dans le rumen ne pr ´esente de diff ´erences significatives entre les deux lign ´ees.

M´etabolome du plasma

Figure 4.19 – Affichage des individus.

Figure 4.20 – Affichage des variables les plus corr ´el ´ees `a l’axe 1 ou l’axe 2.

On observe un effet lign ´ee sur les deux axes (figure 4.19) : le nuage de points correspondant `a la lign ´ee rfi+ est plus `a gauche sur l’axe 1 que le nuage de points de la lign ´ee rfi-. Sur l’axe 2 c’est le nuage de points de la lign ´ee rfi- qui est plus bas que le deuxi`eme nuage de points.

(22)

Figure 4.21 – Corr ´elation variables/axe1. Figure 4.22 – Corr ´elation variables/axe2.

Les concentrations en citrate et en thr ´eonine sont les variables les plus corr ´el ´ees `a l’axe 1 (voir figure 4.21), seule la concentration en citrate est fortement corr ´el ´ee `a l’axe 2 (voir figure 4.22). La concentration en citrate est plus ´elev ´ee chez les animaux de lign ´ee rfi-. A contrario les animaux de lign ´ee rfi+ ont une concentration en thr ´eonine sup ´erieure `a celle des animaux de lign ´ee rfi-.

Les m ´etabolites du plasma pr ´esentant des diff ´erences significatives entre les deux lign ´ees sont : le citrate et la thr ´eonine d’apr`es les tests de Student et Wilcoxon. A nouveau, les r ´` esultats des tests concordent avec les r ´esultats observ ´es avec la PLS-DA.

Ci dessous (voir figure 4.23 et 4.24 ) les boxplots des deux m ´etabolites les plus discriminants pour la lign ´ee. Ces graphiques confirment les r ´esultats de la PLS-DA : le citrate est plus pr ´esent dans le plasma des animaux de lign ´ee rfi- et inversement pour le thr ´eonine qui est en quantit ´e plus important dans le plasma des animaux de lign ´ee rfi+.

Figure 4.23 – Boxplot de la concentration en Citrate.

Figure 4.24 – Boxplot de la concentration en Thr ´eonine.

4.2.2 Synth`eses des autres analyses

Analyses des performances

En DAC : la consommation moyenne et r ´esiduelle, le poids `a ˆage type, l’ ´epaisseur du muscle en milieu et fin de contr ˆole DAC, le poids en d ´ebut, en milieu et fin de contr ˆole sont les variables qui pr ´esentent une diff ´erence significative entre les deux lign ´ees. Les variables qui int ´eressent le plus les biologistes sont les variables li ´ees `a la consommation des animaux. Ci-dessous (voir figure 4.25

(23)

et 4.26) sont repr ´esent ´es les boxplots de la consommation moyenne et r ´esiduelle en fonction de la lign ´ee des animaux.

Figure 4.25 – Boxplot de la consommation moyenne des animaux.

Figure 4.26 – Boxplot de la consommation r ´esiduelle des animaux.

En DAF : nous n’observons pas de fortes diff ´erences entre les deux lign ´ees sur la base de leurs performances.

Autres analyses du m´etabolome en DAC

Les analyses r ´ealis ´ees sur les animaux en DAC donnent les r ´esultats suivants : aucun des m ´etabolites pr ´esents dans le rumen ne pr ´esente de diff ´erence significative entre les deux lign ´ees. En revanche, le citrate est le seul m ´etabolite dans le plasma qui pr ´esente une diff ´erence significative entre les deux lign ´ees (voir figure 4.27). Comme en DAF, la concentration en citrate dans le plasma est plus ´elev ´ee chez les animaux de lign ´ee rfi-.

Figure 4.27 – Boxplot de la concentration en citrate dans le plasma en phase DAC.

(24)

4.3 Analyses du microbiote

4.3.1 Analyses en DAC

Figure 4.28 – Affichage des individus.

On observe un effet lign ´ee sur les deux axes (figure 4.28) : le nuage de points correspondant `a la lign ´ee rfi+ est plus `a droite sur l’axe 1 que le nuage de points de la lign ´ee rfi-. Sur l’axe 2 c’est le nuage de points de la lign ´ee rfi- qui est plus bas que le deuxi`eme nuage de points.

Figure 4.29 – Corr ´elation variables/axe1. Figure 4.30 – Corr ´elation variables/axe2.

GU566701.1.1310.1 est la variable la plus corr ´el ´ee `a l’axe 1, tandis queKJ159224.1.1488est la plus corr ´el ´ee `a l’axe 2. L’OTU GU566701.1.1310.1est plus abondant chez les animaux rfi+ que chez les animaux de lign ´ee rfi-. A l’inverse l’OTU KJ159224.1.1488est plus abondant chez les animaux de lign ´ee rfi- (voir figure 4.29 et 4.30).

L’OTU pr ´esentant des diff ´erences significatives entre les deux lign ´ees est :GU566701.1.1310.1d’apr`es le test de Wilcoxon. Le test de Student, lui, ne ressort aucun OTU discriminant. Les r ´esultats des tests concordent avec les r ´esultats observ ´es avec la PLS-DA. Ci-dessous le boxplot de l’OTU pr ´esentant des diff ´erences significatives :

(25)

Images/microbiotedacVar.png

Figure 4.31 – Boxplot de la quantit ´e de l’OTU discriminante en phase DAC.

4.3.2 Synth`ese des analyses en DAF

2018

La pls-da montre un fort effet lign ´ee sur le premier axe en 2018. Les variables les plus corr ´el ´ee `a l’axe 1 sont les suivantes : FJ028792.1.1490, KF697956.1.1425, EU842667.1.1498, AF371914.1.1431.1, AY445602.1.1501 (plus abondant chez les animaux rfi-) et HQ399968.1.1499 (plus abondant chez les animaux rfi+). En revanche les deux tests statistiques ne donnent pas de r ´esultats : aucun OTU ne pr ´esente de diff ´erence significative entre les deux lign ´ees. Ci-dessous (voir figure 4.32) les boxplots des OTUs les plus corr ´el ´es `a l’axe 1 :

Figure 4.32 – Boxplot de la quantit ´e de l’OTU en phase DAC en 2018.

(26)

2019

La pls-da montre ´egalement un fort effet lign ´ee en 2019 : les animaux rfi+ ´etant plus `a droite sur l’axe 1 et plus en haut sur l’axe 2. Les variables les plus corr ´el ´ees `a l’axe 1 sont les suivantes : HQ399907.1.1506, EU774561.1.1230 (plus pr ´esents chez les animaux rfi-) et AY445602.1.1501 (plus pr ´esents chez les animaux rfi+). Les variables les plus corr ´el ´ees a l’axe 2 sont les suivantes :` EU843219.1.1388 (plus pr ´esents chez les animaux rfi-) et AB034127.1.1420.2, GQ358359.1.1289.1 (plus pr ´esents chez les animaux rfi+). `A nouveau les deux tests statistiques ne donnent pas de r ´esultats : aucun OTU ne pr ´esente de diff ´erence significative entre les deux lign ´ees. Ci-dessous les boxplots des OTUs les plus corr ´el ´es `a l’axe 1 (voir figure 4.33 premi`ere ligne) et les plus corr ´el ´es `a l’axe 2 (voir figure 4.33 deuxi`eme ligne) :

Figure 4.33 – Boxplot de la quantit ´e de l’OTU en phase DAC en 2019.

(27)

5

Conclusions

J’ai pu analyser quatre des six jeux de donn ´ees omiques que j’avais `a disposition. L’objectif ´etait de s ´electionner les variables discriminantes pour la lign ´ee. De mani`ere g ´en ´erale, j’ai obtenu plus de variables explicatives pour le premier r ´egime alimentaire (DAC) que pour le deuxi`eme (DAF) :

• 8 variables pour les perfomances en DAC (consommation moyenne et r ´esiduelle, poids `a ˆage type, ´epaisseur du muscle en milieu et fin de r ´egime, poids en d ´ebut et en milieu et fin r ´egime) contre z ´ero en DAF,

• aucune variable discriminante pour le m ´etabolome du rumen que ce soit en DAC ou en DAF,

• une variable pour le m ´etabolome du plasma en DAC (le citrate) contre deux en DAF (le citrate et la thr ´eonine),

• et un OTU discriminant pour le microbiote du rumen en DAC (GU566701.1.1310.1) contre z ´ero en DAF.

Ceci est d ˆu `a une alimentation beaucoup plus contr ˆol ´ee en DAC : en effet il est plus facile de g ´erer la quantit ´e de nourriture consomm ´ee par les animaux lors qu’elle est sous forme de concentr ´es (r ´egime DAC) que lorsque c’est du fourrage (r ´egime DAF). Par cons ´equent, nous avons une diff ´erence d’alimentation entre les animaux en DAF plus importante et de ce fait une alimentation diff ´erente au sein de chaque lign ´ee. La discrimination des deux lign ´ees est alors moins marqu ´ee.

Le g ´enotype ainsi que les mesures infra-rouge des f`eces n’ont pas ´et ´e trait ´es. En effet un certain nombre de difficult ´es ont ´et ´e rencontr ´ees lors de l’analyse du microbiote : effets techniques li ´es

`

a la lign ´ee qui ne pouvaient par cons ´equent pas ˆetre corrig ´es, groupe d’individus ne pouvant ˆetre expliqu ´e par aucune variable, ou encore une diff ´erence de variance trop importante entre les animaux de 2018 et 2019. Les travaux sur les donn ´ees du microbiote ont pris plus de temps que pr ´evu.

Suite aux r ´esultats pr ´esent ´es aux biologistes, il a ´et ´e d ´ecid ´e qu’il serait int ´eressant de mettre en lien le microbiote du rumen et le m ´etabolome du rumen afin de voir si certains m ´etabolites sont li ´es avec certains OTUs. Malheureusement je n’ai pas pu terminer correctement cette ´etude par manque de temps.

D’un point de vue personnel, ce stage a ´et ´e une r ´eelle opportunit ´e de d ´evelopper mes connais- sances en statistiques ainsi que mes comp ´etences en R. J’ai trouv ´e l’ ´echange avec les biologistes tr`es int ´eressant, cela m’a permis de lier math ´ematiques et biologie afin de r ´epondre `a des probl ´ematiques concr`etes. J’ai ainsi pu mesurer l’apport que peuvent avoir les statistiques dans d’autres disciplines.

Ces quatre mois m’ont ´egalement permis de me familiariser avec le monde du travail. Ce stage a ´et ´e une exp ´erience enrichissante que j’ai beaucoup appr ´eci ´ee.

(28)

6

Annexes

Figure 6.1 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

(29)

Figure 6.2 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

(30)

Figure 6.3 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

(31)

Figure 6.4 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

(32)

Figure 6.5 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

(33)

Figure 6.6 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

(34)

Figure 6.7 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

(35)

Figure 6.8 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

(36)

Figure 6.9 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

(37)

Figure 6.10 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

(38)

Figure 6.11 – Rapport sur l’analyse du m ´etabolome du plasma en DAC.

Références

Documents relatifs

[r]

Plutôt que simplement étudier un seul caractère sur une population, on peut s'intéresser à l'étude de deux caractères en même temps.. STATISTIQUES Dans certains cas, le nuage

Théorème 90% des valeurs de d 2 obtenues lors de la simulation de la loi équirépartie sont infé- rieures à D 9 (le neuvième décile) ; si la valeur observée d 2 obs trouvée lors

Voici la composition de l’équipe de France lors d’un match amical.. Représenter le nuage de points dans

Calculer le poids moyen et la taille moyenne et placer le point correspondant (en rouge). Représenter les nuages de points en choisissant judicieusement

Cela signifie que si l’on imagine les points du nuage placés (avec leurs poids correspondants) sur une plaque horizontal, il suffit de placer une tige vertical sous le plateau en

Mettre u sous forme

Donner l’allure de la courbe repr´ esentative