• Aucun résultat trouvé

Stress

Dans le document l'injection de LPS (Page 10-0)

I. Outils et m ´ethodes 8

2.4. Stress

Le stress en biologie ne correspond pas seulement au stress caus´e de mani`ere psychologique mais `a l’ensemble des r´eponses non-sp´ecifiques d’un organisme lorsqu’il est soumis `a des pressions ou `a des contraintes environnementales tels qu’un espace allou´e restreint ou la temp´erature. Chez

3L’image provient dehttp://genetiquemoleculaire.com/et est attribuable au CUO-Recherche du Centre hospi-talier universitaire de Qu´ebec .

Figure2.4. – Fonctionnement de l’axe hypothalamique-pituitaire-surr´enal (axe HPA) Le cortisol provoque de nombreuses r´eactions chez le cochon, aussi bien bonnes que mau-vaises. Cette hormone, qui touche une grande diversit´e de tissus, permet aux cochons d’avoir une meilleure r´esistance `a leurs environnements et aux diff´erents stress subis tels que la temp´erature ou les maladies. De plus, cette r´esistance permet d’am´eliorer la viabilit´e des nouveaux n´es et d’obtenir une meilleure maturit´e de l’organisme. Toutes ces cons´equences influencent les ca-ract`eres fonctionnels des cochons d’´elevage. Cependant, `a notre ´epoque, les caract`eres privil´egi´es sont ceux de production, qui correspondent `a une viande forte en prot´eines et pauvre en graisses ainsi qu’une croissance rapide des animaux. Or le cortisol provoque chez les cochons un ralen-tissement de la croissance ainsi qu’une diminution du taux de prot´eines dans leurs viande au profit de celui de graisse, r´eduisant ainsi l’efficacit´e alimentaire. Ces constations ont provoqu´e une s´election des cochons d’´elevage au profit de ceux ayant une faible activit´e adr´enocorticale afin de r´eduire au maximum la production de cortisol. Cependant, cela a provoqu´e une hausse de la mortalit´e dans les ´elevages, vues les faibles r´eactions des organismes des cochons faces aux diff´erents stress qu’ils subissent. Cela montre l’importance d’un bon fonctionnement de l’axe HPA afin d’obtenir l’´elevage le plus performant possible, autrement dit avec des animaux plus robustes, par exemple avec un taux de mortalit´e plus faible, mais avec une qualit´e de viande qui reste ´elev´ee [8,7].

Le cortisol est fortement li´e aux prot´eines. En effet, il interagit avec les r´ecepteurs intracel-lulaires dans le but de transmettre un message au noyau de la cellule concern´ee. Il ordonne l’activation ou l’inhibition de l’expression d’un g`ene pour prot´eger l’organisme contre le stress subit.

4L’image provient deplate-forme transcriptome de l’ENSet est attribuable `aBrianMSweis.

3.1. RStudio

RStudio1est un environnement de programmation pour le langage R qui fournit une interface pratique pour l’analyse de donn´ees et la cr´eation de graphique. De plus, RStudio nous permet de cr´eer facilement, `a l’aide du package knitr, des fichiers de code en RMarkdown. Ce type de fichiers est couramment utilis´e pour cr´eer des documents contenant du code R car il permet de les rendre plus organis´es et lisibles. Le package RMarkdowm2 permet de cr´eer des fichiers en HTML ou encore PDF qui sont facilement joignables `a des pr´esentations ou rapports en LATEX.

Le code R pr´esent dans l’annexe est r´edig´e `a l’aide de ce logiciel.

Les principaux packages utilis´es pour ce projet sontFactoMineR3 pour les Analyses en Com-posantes Principales, DMwR4 pour les imputations, preprocessCore5 pour effectuer la nor-malisation quantile et mixOmics6 pour l’ACP multi-niveaux. preprocessCore est diff´erent des deux autres packages car il provient du site Bioconductor qui propose des packages R pour la biostatistique.

3.2. Git

Git7 est un logiciel de gestion de versions utilisable sous Linux, Mac OS et Windows. Au-trement dit, il s’agit d’un programme permettant un travail collaboratif sur un dossier (appel´e d´epˆot) contenant un ou plusieurs fichiers. Ce logiciel permet un suivi facile de l’´evolution d’un projet en conservant les diff´erentes versions des fichiers suivis et en permettant d’en analyser l’´evolution. De plus, il est con¸cu pour g´erer les conflits de modifications entre les fichiers : par exemple, si deux personnes modifient le mˆeme fichier au mˆeme endroit avant d’appliquer leurs modifications sur le d´epˆot commun, le syst`eme indiquera aux utilisateurs qu’il y a un conflit entre les fichiers, `a quel endroit et demandera aux utilisateurs de faire le choix de la version `a conserver. Ainsi, ce gestionnaire de version est un moyen de partage pratique et efficace pour la r´ealisation d’un projet.

1Disponible surhttp://www.rstudio.com/

2Disponible sur leCRAN

3Disponible sur leCRAN

4Disponible sur leCRAN

5Disponible surBioconductor

6Disponible sur leCRAN

7Disponible surhttps://git-scm.com

4.1. Imputation de donn ´ees

Lorsqu’un jeu de donn´ees contient des donn´ees manquantes, il est courant d’utiliser une m´ethode d’imputation de donn´ees. La m´ethode utilis´ee pour cette ´etude est une imputation `a l’aide desk plus proches voisins. Pour une observationxi contenant une valeur manquante `a la j`eme variable,xij, la m´ethode consiste `a calculer la distance euclidienne entre xi et l’ensemble des autres observations (xi0)i0=1,...,n, i06=i sans tenir compte de la variablej :

d(xi, xi0) = s

X

j06=j

(xij0 −xi0j0)2.

Les observations de (xi0)i0=1,...,n, i06=i correspondant aux k plus petites distances sont alors s´electionn´es (on noteraVj(i) l’ensemble de leurs indices) et la valeurxij est imput´ee `a l’aide de la moyenne des valeurs de la variable j pour ces observations :

˜ xij := 1

k X

i0∈Vk(i)

xi0j.

L’imputation parkplus proche voisins a ´et´e effectu´ee `a l’aide de la fonctionknnImputationdu package DMwR.

4.2. Normalisation

Au cours de cette ´etude, deux types de normalisation seront utilis´es : la normalisation quantile et la normalisation m´ediane.

La normalisation m´ediane s’applique `a l’aide d’une variable qualitative qui prend pour valeurs k = 1, ..., K, cr´eant ainsi K groupes. Cette m´ethode consiste `a appliquer la formule suivante pour chaque variablej et pour tout i= 1, . . . , n :

˜

xij =xij −mkj +mj

avec mkj la m´ediane du groupe k de j auquel appartient l’individu i etmj la m´ediane globale de la variablej.

La normalisation quantile est une m´ethode destin´ee `a la normalisation de donn´ees trans-criptomiques [3]. Elle utilise la matrice M = XT. Les quantiles empiriques de chaque co-lonne sont ensuite align´es en partant de l’hypoth`ese biologique classique qui suppose que la distribution globale des expressions pour chaque exp´erience est identique. De mani`ere plus

pr´ecise, pour effectuer une normalisation quantile sur la matriceM ∈ Mp,n, on cr´ee la matrice R = (rji)j,i ∈ Mp,n contenant les rangs par colonnes des ´el´ements de la matrice M. On cr´ee alors la matrice Mf= ( ˜mji)j,i∈ Mp,n telle que :

˜

mrji,i=mji.

La moyenne des nouvelles lignes (variables) ainsi obtenues est alors, pour tout j :

¯

Cette m´ethode a ´et´e appliqu´ee sousR`a l’aide de la fonctionnormalize.quantilesdu package preprocessCore.

4.3. ACP

Une ACP, ou Analyse en Composantes Principales, est une m´ethode d’analyse de donn´ees couramment utilis´ee d`es que l’on dispose de jeux de donn´ees avec plusieurs variables quanti-tatives. L’objectif de cette m´ethode est de synth´etiser l’information contenue dans le jeu de donn´ees ´etudi´e et de permettre une projection des observations et des variables sur des axes ap-pel´es composantes principales. Lors d’une ACP norm´ee, comme celles effectu´ees pour ce projet, celles-ci sont obtenus par l’algorithme suivant :

• on centre et r´eduit les donn´ees : xij = xijσ−¯xj

j avec ¯xj la moyenne de la variable j et σj l’´ecart type de cette mˆeme variable ;

• on calcule la matrice de variance/covariance :W =XTX;

• on la diagonalise : W = CΛCT avec C ∈ Mp,p la matrice des composantes principales (vecteurs propres) et Λ est la matrice diagonale contenant lespvaleurs propres deW dans la diagonale. Ce probl`eme est ´equivalent `a trouver une combinaison lin´eaireXβ (β ∈Rp) des variables initiales qui maximise l’inertie totale des donn´ees projet´ees, Var(Xβ).

CommeW est une matrice sym´etrique, ses vecteurs propres, par cons´equent les composantes principales, sont orthogonaux entre eux. Chaque composantecj est associ´ee `a une valeur propre λj. On appellera premi`ere composante principale le vecteur propre norm´e,β1, associ´e `a la plus grande valeur propre λ1, deuxi`eme composante principale, β2, celui associ´e `a la deuxi`eme plus grande valeur propre, λ2 et ainsi de suite.

Chaque composante principale permet de repr´esenter un pourcentage d’inertie expliquant le jeu de donn´ees ´etudi´e et l’inertie correspond `a la variance totale du tableau de donn´ees.

Pour chaque axe k, le pourcentage d’inertie reproduit sur l’axe est ´egal `a Ik = Pnλk

i=1λi. Plus le pourcentage est fort, plus la repr´esentation des individus par les composantes principales permet une bonne visualisation de la distance entre chaque individu ainsi que des corr´elations entre les diff´erentes variables. Pour cette ´etude, seules des ACP norm´ees ont ´et´e utilis´ees afin d’´eviter des probl`emes li´ees `a des diff´erences d’unit´es de mesures entre les variables ´etudi´ees.

Cette m´ethode d’analyse a ´et´e appliqu´ee dans le logiciel de programmation R `a l’aide de la fonctionPCAdu package FactoMineR.

Xbj

| {z }

Xwj

avecx.j.= nT1 Pn i=1

PT

t=1xtij (moyenne globale de la variablejsur l’ensemble du jeu de donn´ees) etxij.= T1 PT

t=1xtij (moyenne de la variable j sur l’ensemble des pas de temps pour l’individu i). xt.. est le terme fixe, (xij. −xt..), la composante inter-sujets et (xtij −xij.) la composante intra-sujets.Xwj est ici un vecteur de dimensionnT contenant toutes les valeurs (xtij−xij.) pour i= 1, . . . , nett= 1, . . . , T.

Une ACP multi-niveaux est une analyse bas´ee sur la matrice associ´ee `a la variance intra-sujet Xw = (Xwj)j=1,...,p (matrice de dimension (nT)×p) car c’est elle qui conserve l’effet non individuel de l’exp´erience et elle permet donc de mettre mieux en valeur l’effet principal qui est ici l’effet temps (l’ensemble des sujets est ramen´e `a une moyenne commune).

La r´ealisation de cette ACP sous Rest bas´ee sur le tutoriel “Multivariate projection metho-dologies for the exploration of large biological data sets” cr´e´e par Kim-Anh Lˆe Cao, Ignacio Gonz`alez et S´ebastien D´ejean [4]. Il utilise le package mixOmics. Dans un premier temps, la matriceXw est extraite du jeu de donn´ees `a l’aide de la fonctionSplit.variation.one.level, puis on applique la fonction pcapour obtenir les r´esultats de l’ACP multi-niveaux.

4.5. Test de Student

Au cours de cette ´etude, des tests de Student appari´es ont ´et´e utilis´es afin d’identifier les variables (g`enes ou donn´ees cliniques) dont les ´evolutions sont significatives entre t = 0 et t= +1/+ 4/+ 24h. Ces tests sont bas´es sur l’hypoth`eseH0 : “la diff´erence moyenne entre une variable au temps 0 et de cette mˆeme variable au temps t est nulle”. Ce test est, en th´eorie, applicable uniquement si la diff´erence entre les deux pas de temps suit une loi normale. Pour v´erifier cela, des tests de Shapiro-Wilk et de Kolmogorov-Smirnov ont ´et´e appliqu´es, les premiers

´

etant plus conseill´es pour des ´echantillons avec de faibles effectifs. Nous avons consid´er´e que si au moins l’un des tests confirmait l’hypoth`ese de normalit´e, nous pouvions appliquer un test de Student.

Les tests de Student ont ´et´e appliqu´es `a l’aide de la fonctiont.test.

4.6. ANCOVA

Afin de d´eterminer les g`enes diff´erentiellement exprim´es, des ANCOVAs (ANalyses de CO-VAriance) ont ´et´e utilis´ees. Il s’agit de tests de significativit´e bas´es sur un mod`ele lin´eaire. Elles cherchent `a expliquer une variable d´ependante quantitative par les niveaux d’une variable ex-plicative qualitative en contrˆolant l’effet d’autres variables quantitatives explicatives. Elle a ´et´e utilis´es pour tester si l’expression d’un g`ene ´etait diff´erentiel entret= 0 ett= +1/+ 4/+ 24h en controlant le niveau de l’expression par une variable quantitative li´ee `a la composition des cellules dont le niveau d’expression avait ´et´e relev´e.

De mani`ere plus pr´ecise, si la variable yit correspond `a l’expression de l’individu iau temps tk avec t1 = 0 ett2 ∈ {+1/+ 4/+ 24}, le mod`ele utilis´e ´etait :

yit0t1txit+it

o`u xit est la variable quantitative d´ecrivant la composition sanguine de l’individu iau tempst etit∼ N(0, σ2).

Lors d’une ANCOVA, deux tests d’hypoth`eses sont appliqu´ees. Le premier est un test d’ho-mog´en´eit´e des pentes, bas´e sur l’hypoth`ese H0K : “β11 = β21 = β1”. Pour r´ealiser ce test, on applique un test de Fisher partiel sur le mod`ele complet et le mod`ele r´eduit avec β1. Pour cela, on calcule la statistique de Fisher :

Fk= n−2K

la somme des carr´es r´esiduels du mod`ele complet et SCRc la somme des carr´es r´esiduels du mod`ele r´eduit.

Le deuxi`eme test est un test d’homog´en´eit´e des coefficients constants qui repose sur l’hy-poth`ese H0C : “β10 = β20 = β0”. Ce test fait de nouveau appel `a une statistique de Fisher partielle. Les deux mod`eles compar´es cette fois sont le mod`ele r´eduit sousH0K et sousH0C. On a alors :

avecSCRc2 la somme des carr´es r´esiduels du mod`ele r´eduit [1]. C’est ce test qui est utilis´e pour tester si le g`ene est diff´erentiellement exprim´e entre les deux pas de temps.

Les ANCOVAs ont ´et´e r´ealis´ees sous R`a l’aide des fonctionslm etaov.

4.7. Test de Wilcoxon appari ´e

Le test de Wilcoxon appari´e est un test non param´etrique servant `a comparer la moyenne de deux ´echantillons appari´es. Dans notre cas, il est utilis´e pour la recherche de g`enes dont les

´

evolutions sont significatives entret= 0 et t= +1/+ 4/+ 24h. Il est bas´e sur l’hypoth`eseH0 :

“la diff´erence moyenne entre une variable au temps 0 et de cette mˆeme variable au temps test nulle”.

Pour r´ealiser ce test, il faut, dans un premier temps, calculer les diff´erences entre le premier et le deuxi`eme ´echantillon puis classer leurs valeurs absolues. On note N le nombre de diff´erences non nulles, w le minimum entre la somme des rangs des diff´erences strictement positives et la somme des rangs des diff´erences strictement n´egatives etW la variable al´eatoire associ´ee `aw.

• Si N ≤25, on utilise la table du test de Wilcoxon pour lire le nombre wα tel que, sous

Les tests de Wilcoxon ont ´et´e r´ealis´es sousR `a l’aide de la fonction wilcox.test.

L’objectif d’un test d’enrichissement est de d´efinir si, dans un groupe de g`enes donn´e, la pro-portion de g`enes correpondant `a une fonction donn´ee est significativement ´elev´ee : on dit alors que ce groupe de g`enes est fonctionnellement “enrichi” dans cette fonction. Ce test s’effectue en construisant une table de contingence qui compte le nombre de g`enes du groupe cible cor-respondant/ne correspondant pas `a une fonction donn´ee contre le nombre de g`enes d’un groupe t´emoins (g´en´eralement compos´e de tous les g`enes de la biopuce utilis´ee pour l’exp´erience) cor-respondant/ne correspondant pas `a cette fonction. Un test de Fisher exact unilat´eral permet de quantifier si cette table de contingence est attendue sous hypoth`ese d’ind´ependance entre le type de g`enes (dans le groupe cible ou non) et la fonction. Il repose donc sur l’hypoth`ese H0 : “la proportion de g`enes partageant un mˆeme terme est ind´ependante de son groupe (ci-ble/t´emoins)”.

Les tests d’enrichissement sont effectu´es `a l’aide des packagesbiomaRtettopGO. Le premier permet d’acc´eder `a des bases de donn´ees en ligne contenant les annotations et les GO de tous les g`enes r´ef´erenc´es. Nous avons choisi d’utiliser la base de donn´ees ”ensembl” et le jeu de donn´ees

”hsapiens gene ensembl” car l’organisme d’un porc est fortement similaire `a celui d’un homme.

De plus, le g´enome du porc est mal annot´e par rapport `a celui de l’homme. Le deuxi`eme package permet de r´ealiser les tests. Deux algorithmes ont ´et´e utilis´es. Le premier, appel´e classic, effectue les tests sur tous les GO ind´ependamment les uns des autres. Le deuxi`eme, not´e elim, se base sur les niveaux des graphes orient´es acycliques (DAG) associ´es aux GO. Il a pour but de r´eduire les r´ecurrences de fonctions biologiques dans les GO significatifs en favorisant ceux aux plus bas niveaux qui sont plus sp´ecialis´es que les GO des premiers niveaux.

4.9. Ajustement de p-valeurs

Une fois les tests effectu´es, des m´ethodes pour ajuster les p-valeurs lors de l’application de plusieurs tests ind´ependants ont ´et´e effectu´es. Elles permettent de contrˆoler la probabilit´e d’obtenir un faux n´egatif, qui correspond `a la probabilit´e d’obtenir un r´esultat n´egatif lors d’un test alors qu’il est cens´e ˆetre positif. En effet, si on appliqueK tests ind´ependants au seuil α, on a alors

P(∃au moins un faux-positif si l’hypoth`ese H0 est vraie pour tous les tests) = 1−(1−α)K. On a alors une augmentation exponentielle de la probabilit´e de faux positifs lorsque le nombre de tests augmentent. Les m´ethodes de correction vont permettre de r´eduire cette probabilit´e.

Les deux m´ethodes de correction de tests multiples qui ont ´et´e utilis´ees lors de ce projet sont Bonferroni et Benjamini-Hochberg [2]. La premi`ere correction modifie le seuil α en Kα o`u K est le nombre de tests effectu´es, tandis que la deuxi`eme modifie le seuil α en K avec g le rang du classement croissant des p-valeurs des diff´erents tests. Ces deux tests n’agissent pas de la mˆeme mani`ere sur les r´esultats. En effet, une correction de Bonferroni contrˆole le FWER (FamilyWise Error Rase), c’est-`a-dire, la probabilit´e d’obtenir au moins un faux positif parmi K tests ind´ependants :

FWER =P(FP≥1)

o`u FP est le nombre de tests d´eclar´es positifs alors que l’hypoth`ese nulle est vraie. La correction de Benjamini Hochberg contrˆole elle le FDR (False Discovery Rate), c’est-`a-dire, la proportion de faux positifs par rapport aux faux n´egatifs :

FDR =E

FP FP + TP

o`u TP est le nombre de tests d´eclar´es positifs alors que l’hypoth`ese nulle est fausse. Une correc-tion de Benjamini Hochberg permet d’otenir une meilleure sensibilit´e, autrement dit une plus forte proportion de positifs qui ont ´et´e correctement identifi´es. Par cons´equent, une correction de Bonferroni est plus s´ev`ere qu’une correction de Benjamini-Hochberg. Aussi, le premier sera privil´egi´e lorsque l’on veut r´eduire au maximum le nombre de tests significatifs.

Par cons´equent, la correction de Bonferroni a ´et´e appliqu´ee uniquement pour la s´election des g`enes diff´erentiels afin de r´eduire au maximum le nombre de variables. Dans les autres cas, des corrections de Benjamini-Hochberg ont ´et´e appliqu´ees afin de ne pas trop stringent avec les donn´ees. Le seuil appliqu´e pour chaque correction est 1%.

Les p-valeurs ont ´et´e corrig´ees `a l’aide dep.adjust.

4.10. AFM

Une AFM, ou Analyse Factorielle Multiple, est une m´ethode d’analyse factorielle bas´ee sur des ACP et des ACM, qui correspondent `a des analyses pour les variables qualitatives.

Cette m´ethode permet d’analyser des variables, qualitatives et/ou quantitatives, structur´ees en groupes. Contrairement `a une AFDM, une AFM pond`ere chaque groupe j de variables par 1

λj1, la premi`ere valeur propre de l’ACP ou ACM de ce groupe, afin de ne pas forc´ement rendre plus influent le groupe avec le plus de variables.

L’AFM a ´et´e r´ealis´ee sous R`a l’aide de la fonction MFAdu packageFactoMineR

L’exp´erience que nous allons ´etudier a ´et´e effectu´ee sur 30 porcs, de la race “large white”

(Figure5.11). Le “large white” est un porc originaire du nord-est de l’Angleterre qui fut introduit en France `a la fin du XIX`eme si`ecle. Cette esp`ece est particuli`erement appr´eci´ee pour les ´elevages car elle est pr´ecoce et prolifique avec en moyenne 24,9 porcelets par truie par an. De plus, le

“large white” poss`ede une int´eressante capacit´e de croissance et produit de la viande riche en prot´eine et pauvre en graisse. En plus de ces caract´eristiques de productions, cette esp`ece

“large white” poss`ede une int´eressante capacit´e de croissance et produit de la viande riche en prot´eine et pauvre en graisse. En plus de ces caract´eristiques de productions, cette esp`ece

Dans le document l'injection de LPS (Page 10-0)