• Aucun résultat trouvé

M1 IMSV Statistique pour la g´enomique

N/A
N/A
Protected

Academic year: 2022

Partager "M1 IMSV Statistique pour la g´enomique"

Copied!
108
0
0

Texte intégral

(1)

M1 IMSV

Statistique pour la g´enomique

Etienne Birmel´e [email protected]

printemps 2016

(2)

UN PEU DE BIOLOGIE CELLULAIRE

(3)

G´en´etique

(4)

Cellules

Cellules procaryotes Cellules eucaryotes

Figures issues de http ://www.cours-pharmacie.com/biologie-cellulaire/cellules-procaryotes-et-cellules-eucaryotes.html

(5)

Chromosomes

Caryotype humain

Enroulements

Figures issues de http ://lc.brooklyn.cuny.edu et wikipedia

(6)

G´enome

Figure issue de http ://tpe-electrophorese-adn.e-monsite.com/

(7)

R´eplication

L’ADN peut ˆetre r´epliqu´e, `a des fins de multiplication cellulaire.

Figures issues de http ://expertadn.fr/les-genes/

(8)

Polymerase Chain Reaction (PCR)

La r´eplication cellulaire peut ˆetre utilis´ee pour amplifier le signal en laboratoire.

Figures issues de http ://missinglink.ucsf.edu/lm/molecularmethods

(9)

Le cycle cellulaire

Figures issues de http ://mpronovost.profweb.ca

(10)

Recueil de donn´ees 1 : Puces `a ADN

I On r´ealise une puce sur laquelle sont fix´es les s´equences compl´ementaires (probes) de celles qu’on veut capturer.

I Suivant la technologie, on m´elange l’ADN (ou l’ARN ) d’int´erˆet dans deux types de cellules, en les marquant suivant leur origine (par fluorochrome ou

radioactivit´e).

I On d´epose le liquide contenant les s´equences `a ´etudier sur la puce, `a une temp´erature permettant l’hybridation (les brins compl´ementaires s’assemblent) Plusieurs technologies (cDNA, Illumina, Affymetrix) existent et diff`erent surtout pour le premier point, entraˆınant des longueurs de probes, des couvertures du g´enome et des biais statistiques diff´erents.

(11)

Recueil de donn´ees 1 : Puces `a ADN

Apr`es lavage de la puce, on r´ecup`ere le signal fluorescent ou radioactif et on l’analyse pour en retirer des intensit´es.

Figure issue de https ://france.promega.com/

(12)

Recueil de donn´ees 2 : New generation sequencing (NGS)

cfAn Introduction to Next Generation Sequencing Technologyd’Illumina.

I Les r´esultats sont des courtes s´equences (quelques dizaines `a quelques centaines de paires de bases) appel´esreads.

I On peut aligner les reads sur un g´enome de r´ef´erence. Sinon, on peut r´eassembler sans r´ef´erence (assemblagede novo, m´etag´enomique).

I Technique r´ecente car les s´equen¸cage `a haut d´ebit est r´ecent (Next Generation Sequencing ou NGS). Elle remplace petit `a petit les puces.

(13)

Autres donn´ees g´en´etiques mesurables

Via le s´equen¸cage de l’ADN, on a acc`es `a des mesures qui pourront ˆetre ´etudi´ees statistiquement ou algorithmiquement :

I Les SNPs (Single Nucleotide Polymorphism, prononcer SNiP) : all`eles se diff´erenciant sur une base unique et permettant entre autres de mesurer les variations de nombre de copies.

I Variation du nombre de copies : erreurs de r´eplication durant la mitose induisant une perte ou un gain d’un morceau de chromosome.

I Anomalies g´en´etiques : mutations, inversions, translocations...

(14)

G´enomique

(15)

Dogme central de la biologie cellulaire

L’ADN s’exprime `a travers la production entre autres de prot´eines.

(16)

Transcription

Le principe est similaire `a la r´eplication `a part que la s´equence cr´ee est un ARN messager (mRNA), qui est monobrin et dans lequel la thymine (T) est remplac´ee par l’uracyle (U).

Ce mRNA est ´episs´e, c’est-`a-dire ´epur´e de parties non-codantes appel´ees introns.

Parfois, certains exons peuvent ˆetre ´egalement ´episs´es, si bien qu’un mˆeme mRNA peut donner naissance `a plusieurs mRNA diff´erents. On parle alors d’´epissage alternatif.

(17)

Traduction

(18)

Remarques

I Le niveau d’expression (quantit´e de mRNA ou quantit´e de prot´eines correspondant

`

a un g`ene) est une donn´ee quantitative, et donc exploitable statistiquement.

I Certains g`enes, appel´es facteurs de transcription, codent pour des prot´eines qui vont former des complexes se fixant en amont de la s´equence d’autres g`enes, soit pour annihiler, soit pour favoriser leur expression. On parle de r´egulation entre g`enes.

I La r´ealit´e est plus complexe I : l’´epissage alternatif induit que le niveau d’expression par g`ene n’est pas toujours bien d´efini.

I La r´ealit´e est plus complexe II : il existe par d’autres s´equences d’ANR que l’ARN messager (mRNA). Les micro-ARN (miRNA) sont de courtes s´equences qui ne sont pas traduites mais jouent un rˆole de r´egulateurs en influant la traduction des mRNA.

(19)

Mesure de l’ARN

I Puces sur lesquelles sont fix´es les brins compl´ementaires d’ADN.

I RNA-Seq : version ARN de la technique NGS.

I On r´ecolte les ARN de plusieurs cellules et on les fragmente.

I On amplifie les fragments par PCR.

I On les s´equence.

Figure issue de http ://www.data2bio.com/services/rnaseq/

(20)

Mesure des prot´eines : Spectrom´etrie de masse

I Les prot´eines sont fragment´ees en peptides

I Les peptides sont ionis´es et pass´es dans un spectrom`etre de masse

I Cet appareil fragmente les ions et les trie suivant leur masse et leur charge.

I On obtient un spectre caract´erisant la composition en acides amin´es du peptide.

Figure issue de https ://www.thermofisher.com/

(21)

G´en´etique vs G´enomique

en´etique Etude de la transmission du patrimoine g´en´etique `a travers la population et comparaison avec les relev´es ph´enotypiques.

Exemple :Un variant g´en´etique est-il li´e `a une maladie donn´ee ? enomique Etude du l’expression des informations contenues dans le g´enome :

expression des g`enes, structure des prot´eines, r´egions promotrices/r´egulatrices ...

Exemple :Un g`ene donn´e est-il sur-exprim´e dans des cellules tumorales ?

(22)

Les diff´erents -omiques

Il y a en fait plusieurs -omiques suivant les donn´ees mesur´ees

I enomique

I transcriptomique : mesure de l’ARN (mat´eriel transcrit)

I prot´eomique : mesure des prot´eines (mat´eriel traduit)

I etabolomique : r´ef´erence aux m´etabolites, c’est-`a-dire aux substrats et produits des r´eactions chimiques ayant lieu dans la cellule (sucres, acides amin´ees, ...)

(23)

Epig´en´etique

(24)

D´efinition

I L’´epig´en´etique (pr´efixe´epi, du grec signifiantau dessus) conduit `a un changement du ph´enotype sans pour autant modifier le g´enotype de la cellule.

I Les modifications ´epig´en´etiques et le ph´enotype associ´e persistent pendant les mitoses et voire mˆeme apr`es la m´eiose.

I ole physiologique fondamental : contrˆole de l’expression de g`enes, de microRNA ; inhibition d’´el´ements transposables ; embryog´en`ese ...

(25)

M´ethylation des cytosines au niveau des ilˆots CpG

I Les ilˆots CpG sont r´epartis tout au long du g´enome, notamment dans les r´egions promotrices.

I Leur m´ethylation consiste en l’ajout d’un groupe m´ethyle sur la cytosine. Elle entraˆıne l’absence d’expression dans toute la r´egion.

Figure issue de http ://helicase.pbworks.com/

I La m´ethylation se transmet lors de la duplication (et donc aussi par h´er´edit´e).

Figure de Jocelyne S´eraline (les m´ecanismes de la canc´erog´en`ese)

(26)

Mesure de la m´ethylation

Figure de Jocelyne S´eraline (les m´ecanismes de la canc´erog´en`ese)

(27)

Canc´erog´en`ese

(28)

Le cancer est une maladie de l’ADN

Le cancer r´esulte d’anomalies g´en´etiques qui touchent :

I la prolif´eration cellulaire

I l’apoptose

I la diff´erentiation cellulaire

I la r´eparation de l’ADN

I l’adh´esion cellulaire

I l’angiog´en`ese

I l’´elimination des catabolites toxiques

Figure de Hanahan et Weinberg,The hallmarks of Cancer (Re- view), Cell, 2000

(29)

Aberrations g´en´etiques possibles

De nature tr`es diff´erentes, allant du chromosome entier `a l’´echelle d’une base

I Aneuplo¨ıdie : gain ou perte de chromosomes

I earrangement chromosomiques : gain ou perte de parties de chromosomes, translocations, insertions de s´equences virales

Figure de Jocelyne S´eraline (les m´ecanismes de la canc´erog´en`ese) I Courtes d´el´etions ou insertions

I Mutations ponctuelles

(30)

Aberrations ´epig´en´etiques

La m´ethylation (ou tout autre d´efaut de r´egulation) peut favoriser la tumeur en inhibant l’expression de g`enes dits suppresseurs de tumeur.

The Biology of Cancer (Garland Science 2007)

(31)

Causes possibles des aberrations

Elles sont tr`es nombreuses :

I er´edit´e

I action virale

I agressions exog`enes (radiations ionisantes, UV, amiante, arsenic,...)

I agressions endog`enes (stress oxydatif, catabolisme de toxiques, erreurs de l’ADN polym´erase lors de la r´eplication, d´epurination, ...)

(32)

H´et´erog´en´eit´e tumorale

Les cancers r´esultent en g´en´eral de la co-occurrence de plusieurs alt´erations :

I tous les cancers sont diff´erents

I la plupart sont compos´es de plusieurs sous-types de cellules tumorales : un traitement peut n’ˆetre efficace que pour une partie d’entre elles

I les probabilit´es de d´evelopper un cancer deviennent plus importantes si une partie des alt´erations sont d´ej`a pr´esentes

(33)

Les statistiques dans tout ¸ca

(34)

Normalisation

Comment corriger le biais li´e au recueil des donn´ees ?

I Biais humain

I Biais techniques

Figure issue de Nucleic Acid Research

(35)

Expression diff´erentielle

Quels sont les g`enes dont les expressions changent significativement entre deux conditions ou plus ?

I Probl`emes de tests multiples.

I Probl`eme de type classification si on cherche `a regrouper les g`enes, les individus ou les conditions qui se ressemblent.

Figure issue de http ://labmed.ascpjournals.org/

(36)

Sur-repr´esentation

Quelles sont les voies m´etaboliques activ´ees au vu de la liste des g`enes diff´erentiellement exprim´es ?

I Test hyperg´eom´etriques.

I Mod`eles al´eatoires.

I Statistiques de test.

(37)

Variation du nombre de copies

Quels sont les parties du g´enome qui sont pr´esentes en un nombre de copies diff´erent de2dans une cellule canc´ereuse ?

I eterminer les points de rupture dans un signal constant par morceaux bruit´e.

Figure issue de http ://www.spandidos-publications.com/

(38)

R´egulation

Quels sont les g`enes qui en r´egulent d’autres, et comment est gouvern´ee cette egulation ?

I Outils bas´es sur la corr´elation partielle ;

I Probl`eme de la grande dimension (nombre d’observations tr`es inf´erieurs au nombre de r´egulations possibles)

I Outils bas´es sur la d´etection de sites de fixation des prot´eines r´egulatrices.

(39)

Réduction de dimension: ACP et PLS

Etienne Birmelé

8 mars 2018

(40)

REDUCTION DE DIMENSION

(41)

Problème

On considère une variableY à prédire à partir de variablesX (n×p) en grande dimension (n<<p)

I Les modèles linéaires ne fonctionnent pas car ils sont mal définis (X0X n’est pas inversible)

I Les algorithmes basés sur la géométrie tels k-means fonctionnent mal en grande dimension

I Les algorithmes sélectionnant des variables tels les arbres de classification fonctionnent mal en raison du risque de sur-apprentissage

I De nombreuses corrélations significatives entre variables compliquent encore la tâche des algorithmes.

(42)

Principe

Une manière de traiter le problème est de réduire la dimension, c’est-à-dire - chercher un sous-espace vectoriel de dimension plus petite quen - remplacer le nuage de point initial par sa projection orthogonale sur le sous-espace précédent.

Question: Comment choisir cet espace pour que le nouveau nuage soit aussi représentatif que possible des données initiales.

(43)

Cadre mathématique

Il s’agit de construire

I une matrice A contenant en colonne les coefficients de combinaisons linéaires des anciennes variables (les vecteurs engendrant le nouvel espace):

I une matriceZ (n×r,r <<n) contenantr nouvelles variables (le nouveau nuage). Il vérifie

Z =XA

(44)

Principe de construction

Lesh−1 premières variables (ou de façon équivalente les h−1 premiers axes) étant déjà construites, on construit l’axe suivant en résolvant

ah=argmax

a

C(a,X,Y) sous les contraintes

I aThah= 1

I et ∀l <h, cov(zh,zl) =aThX0Xal = 0, oùC(a,X,Y) est une fonction critère à optimiser.

Les conditions assurent que les coefficient directeurs des axes sont unitaires, et que les nouvelles variables sont décorrélées.

(45)

Transformations préliminaires

On se place dans un cadre centré: on soustrait leur moyenne à chaque variable. Cela revient à simplement changer l’origine de l’espace, sans modifier le nuage de points.

Il faut faire le choix de normer ou pas chaque variable (ramener sa variance à 1).

-Avantage: on peut comparer des variables dans des unités différentes

-Désavantage: dans le cas de variables comparables, on lisse le signal.

(46)

Analyse en Composantes Principales

(47)

Critère de l’ACP

L’ACP réduit la dimension en cherchant des axes qui expliquent le mieux possible la variance du nuage desX (indépendamment deY).

Le critère est alors

C(a,X) =a0X0Xa=aTΣa

où Σ est la matrice de covariance empirique. Cela revient à chercher l’axe suivant lequel la variance est la plus grande.

(48)

ACP en pratique

D’un point de vue algorithmique:

I soit on trouvea1, puis on projette tous les individus (qui sont des points de Rp) sur (a1). On lance à nouveau

l’optimisation deC pour trouver a2 etc. . .

I soit on peut démontrer que les ai correspondent aux vecteurs propres de Σ (qui est diagonalisable car symétrique) et on les obtient tous d’un coup.

Il est à noter que ce sont aussi les vecteurs propres de la décomposition en valeurs singulières deX.

(49)

Partial Least Square regression

(50)

Principe pour Y unidimenssionnel

La PLS peut être vue comme une généralisation de l’ACP où on cherche à faire la même chose à part que ce qu’on appelle le meilleur axe n’est plus celui selon laquelle la variance est la plus grande, mais celui qui explique le mieuxY.

On peut utiliser comme critère le carré de la covariance entreY et l’axe candidat:

C(a,X,Y) =cov(Y,Xa)2=a0X0YY0Xa

(51)

En pratique

I on peut à nouveau chercher pas à pas en projetant à chaque fois sur l’orthogonal des axes déjà définis.

I ou déterminer la décomposition en valeurs singulières de X0YY0X.

(52)

PLS avec Y multidimensionnel

A chaque pas, on cherche la meilleure covariance entre une combinaison linéaire desX et une combinaison linéaire des Y:

(u1,v1) =argmax

u,v cov(Xu,Yv) sous la contrainteu0u = 1 etv0v= 1.

On projette ensuiteX etY suivant les vecteurs choisis (déflation) et on recommence.

(53)

Prédiction

(54)

Prédiction après réduction de dimension

On peut utiliser l’ACP ou la PLS comme une étape préliminaire à la régression (ou tout autre algorithme de prédiction):

1. on se place dans l’espace des nouvelles variables

2. on fait une régression sur ces nouvelles variables (et c’est bien défini carr <n)

3. dans le cas de la régression, on reécrit les zj en fonction desxi

dans le modèle linéaire

Cf fonctionspcret plsr du packageplsou la fonction pls.regression du packagepls.genomics.

(55)

Selection de variables: Expression Différentielle

Etienne Birmelé

28 mars 2018

(56)

SELECTION DE VARIABLES: EXPRESSION

DIFFERENTIELLE

(57)

Expression différentielle

(58)

Principe

On dispose d’expression de gènes dans différentes conditions.

L’expression différentielle consiste à déterminer les gènes qui s’expriment différemment dans les différentes conditions.

I Le but peut être la recherche

1. de l’identité de ces gènes pour une meilleure compréhension biologique

2. la sélection des gènes les plus différentiellement exprimés pour réduire la dimension d’un problème de prédiction.

I Dans le premier cas, il faut prendre en compte des corrections pour tests multiples. Au vu du très grand nombre de gènes potentiellement considérés, le contrôle du FWER est souvent trop conservatif, ce qui fait que le contrôle de la FDR est préféré.

I En pratique, et notamment dans un but de prédiction, les p-valeurs servent essentiellement à classer les gènes du plus au moins discriminant.

(59)

Analyse d’enrichissement

L’analyse précédente renvoie une liste de gènes différentiellement exprimés. Pour une analyse biologique des résultats, les

modifications du comportement cellulaire ne sont souvent pas interprétables en regardant gène par gène:

I présence de faux positifs

I méconnaissance de la fonction de chaque gène -complexité des mécanisme cellulaires

On préfère chercher des fonctions cellulaires, ou des voies métaboliques affectées.

Etant donné des groupes de gènes donnés, les gènes

différentiellement exprimés sont-ils très nombreux dans ce groupe?

(60)

Analyse d’enrichissement

On considère un ensembleS dek gènes parmi les m, contenantp gènes différentiellement exprimés parmi la liste der.

∈ S ∈ S/

DE p rp

/ DE kp mr+p

I Test du χ2 possible mais les effectifs risquent d’être trop petits

I Test de Fisher, ou de façon équivalente test hypergéométrique

(61)

Gene Ontology

I Ensemble d’étiquetages de gènes tels que les étiquettes possibles forment un DAG (graphe acyclique dirigé).

I Trois ontologies: Biological process; cellular component;

molecular function.

I Différents types d’arêtes: {is a}, {part of}, {regulates}

I De nombreux algorithmes permettent de faire des analyses d’enrichissement GO (AmiGO, OntoExpress, . . . )

(62)

Autre approche: Gene Set Enrichment Analysis (GSEA)

On considère le problème dans l’autre sens: on considère toutes les p-values du jeu de données et on regarde où se situent celles correspondant au groupeG considéré (annotation GO, voie métabolique, . . . ).

On construit une marche partant de 0 et finissant en 0 qui monte de

1

|G| à chaque gène deG et descend de p−G1 sinon. Plus elle s’éloigne de 0, plus le groupe est corrélé à l’ensemble des gènes

différentiellement exprimés.

(63)

LIMMA

(64)

package limma

La question qui reste à traiter est de comment obtenir les p-valeurs individuelles. De nombreuses manières de faire existent, l’une des plus utilisées étant celle du packagelimma disponible sur

Bioconductor.

I limmapermet de traiter la normalisation des puces si on dispose des données brutes (non traité dans ce cours mais d’importance)

I limmapermet de traiter toutes les sortes de données actuelles:

puce bicolore, pucesingle channel, RNA-Seq.

I limmapermet de ne pas traiter tous les gènes indépendemment les uns des autres via une approche bayésienne qui va

constituer la suite de ce chapitre.

(65)

Très courte introduction aux statistiques

bayésiennes

(66)

Statistiques bayésiennes: idée générale

I Approche différente de l’approche fréquentiste: les paramètres θ sont considérées des variables aléatoires.

Le but n’est plus d’estimer une valeur ˆθ au vu des données, mais une loi deθ, que l’on pourra résumer vie une espérance, une variance, un intervalle de confiance. . .

(67)

Statistiques bayésiennes: idée générale

-On munitθ d’uneloi à prioriP(θ), ne dépendant pas des données.

On peut la choisir non-informative ou au contraire y injecter des connaissances à priori sur le problème.

I On définit une loi des observations étant donné les paramètres P(x|θ), comme dans le cas fréquentiste.

I On utilise la formule de Bayes

P(θ|x) = P(x|θ)P(θ)

P(x) (1)

I On en déduit la loi loi à posterioriP(θ|x). Elle correspond à la vision de la loi deθ après qu’on ait vu les données.

(68)

Statistiques bayésiennes: avantages

I Il est possible d’intégrer des connaissances autres que celles de l’observation xdans la loi à priori.

I Le résultat pour θ étant une loi et non pas une valeur, on obtient aisément des intervalles de confiance en considérant les quantiles adéquats.

(69)

Statistiques bayésiennes: exemple (inspiré de Dobson et Barnett)

On considère qu’un village est touché de façon endémique par un ver parasitaire (Schistosoma japanicum) si plus de la moitié du village est infecté. Soit θla proportion de villageois touchés.

On examine 10 personnes, dont 7 sont touchées. On a alors la vraisemblanceP(x|θ) = 107θ7(1−θ)3.

I Si on a aucun à-priori sur la valeur de θ, on choisit le distribution uniforme U[0,1].

I On obtient la loi à postériori

P(θ|x)∝θ7(1−θ)3

I Le résultat en terme d’interprétation (centrée sur 107 qui est l’estimateur fréquentiste) et d’intervalle de confiance est très proche de l’intervalle de confiance fréquentiste.

(70)

Statistiques bayésiennes: exemple (inspiré par Dobson et Barnett)

I Supposons que des données autres (salubrité, accès à l’eau, aux soins. . . ) nous font penser qu’il y a une plus grande chance qu’il y ait beaucoup d’infectés. On choisit par exemple une loi à-priori de densité 2θ. On obtient alors la loi à postériori

P(θ|x)∝θ8(1−θ)3

Le résultat en terme d’interprétation diffère maintenant du cas fréquentiste puisque la valeurθde plus grande probabilité à posteriori est maintenant 118 > 107. Cette différence s’accroit évidemment si la distribution à priori penche encore plus fortement vers les grandes valeurs.

(71)

Hyperparamètres et lois conjuguées

I Si les lois à priori et à postériori dépendent de paramètres, on les appellent des hyperparamètres.

I Pour une forme de vraisemblance donnée, il existe parfois une forme fonctionnelle pour la loi à priori telle que la loi à

postériori est de la mˆeme famille fonctionnelle. On parle alors deloi conjuguée. Par exemple, pour une vraisemblance binomiale, une à priori en loi Beta donnera une postérieure en loi Beta.

Inférer la loi à posteriori revient alors à déterminer les hyperparamètres.

(72)

Hyperparamètres et lois conjuguées

Exemple: Dans l’exemple précédent, oùp(x|θ) suit une loi binomiale, on sait que si la loi à priori est une loi Beta, la loi à posteriori sera également une loi Beta. On peut par exemple mettre en place une procédure du type:

1. partir d’une distribution non-informativeBeta(1,1).

2. faire des premières mesures et obtenir une distribution Beta(a1,b1).

3. Si de nouvelles mesures sont disponibles, partir de l’à-priori Beta(a1,b1) et obtenir une nouvelle distributionBeta(a2,b2) 4. . . .

(73)

Limma, étape 1: Design et modèle linéaire

(74)

Modélisation: matrice de design et matrice de contraste

Soityg = (yg1, . . . ,ygn) le vecteur d’expression du gèneg. On considère une matrice de design et un vecteurαg tel que l’expérience puisse se modéliser par un modèle linéaire (gaussien ou généralisé) tel que

E(yg) =g et var(yg) =σg2Wg

Wg est une matrice définie par l’utilisateur, à défaut l’identité.

On choisit ensuite une matrice de contrasteC telle que le vecteur βg défini par

βg =C0αg

est le vecteur des coefficients dont on veut tester la nullité.

(75)

Exemple: comparaison de deux conditions mesurées dans deux échantillons chacuns

1. Solution 1:

X =

1 0 1 0 0 1 0 1

etC = 1

−1

!

αgi est l’expression moyenne sous la conditioni,βg =αg1αg2 mesure la variation d’expression moyenne deg entre les deux conditions.

(76)

Exemple: comparaison de deux conditions mesurées dans deux échantillons chacuns

2. Solution 2:

X =

1 0 1 0 1 1 1 1

et C = 0 1

!

αg1 est l’expression moyenne dans la condition 1,αg1+αg2 est celle dans la condition 2. On veut donc bien choisirβg =αg2.

(77)

Matrices de design et de contraste

I il est possible de comparer>2 conditions en considérant plusieurs contrastes β

I il est possible de prendre en compte des designs à base de puces bicolores (cf la vignette de limma).

I en pratique, l’utilisation de la fonction model.matrixpermet de construire automatiquement les bons objets à partir d’un vecteur de classes (une classe par individu et on veut comparer les expressions entre classes).

(78)

Modèle linéaire

Un modèle linéaire (gaussien par la fonctionlmFit) est appliqué sur les données et permet de déterminer:

I αˆg et ˆβg.

I un estimateur sg2 de la varianceσg2 du gèneg.

I le degré de liberté résiduel dg associé au modèle linéaire

I Une matrice Vg = s12

gvar( ˆαg) où var( ˆαg) désigne l’estimateur de la matrice de variance-covariance deαg.

On déduit deVg les coefficients vgj,vgj désignant lejeme coefficient diagonal deC0VgC.

(79)

Limma, étape 2: statistiques bayésiennes

(80)

Rappel d’un procédé bayésien

1. Définir une loi à priori des paramètres d’intérêt (iciβg et σg2), si besoin en fonction d’hyperparamètres.

2. Définir une vraisemblance des observations (ici ˆβg et sg2) en fonctions des paramètres.

3. Utiliser la formule de Bayes pour déterminer la loi à postériori des paramètres étant donné les observations.

(81)

Etape 1: définir une loi à priori

Loi de σg2

1 σg2 ∼ 1

d0s02χ2d0

Loi de βgj

P(βgj = 0) = 1−pj

βg jg j >0, σg2 ∼ N(0,v0jσg2) Hyperparamètres:

s02,d0,p,v0

En pratique, ces hyperparamètres sont estimés à partir des données (cf Smyth 2004). La procédure est de ce fait dénotée comme empirical Bayes.

(82)

Etape 2: loi des observations

Loi de βˆgj

βˆg jg j, σ2g ∼ N(βgj,vgjσ2g) Loi de sg2

1 sg2 ∼ 1

dgσg2χ2dg

(83)

Etape 3: Loi à postériori

Les lois ont été choisis conjuguées, et les lois à postériori restent donc une loi du chi-deux pourσ2 et un mélange d’une Dirac enO et d’une loi normale pourβgj.

La quantité d’intérêt que l’on retire de ces lois est l’espérance à postériori deσ2g:

˜

sg2=E(σg2|sg2) = d0s02+dgsg2 d0+dg

Remarque: la procédure bayésiennelisseles variances dans la mesure où elle les ramène verss02, plus ou moins suivant la valeur de d0s02 par rapport à celle dedgsg2.

Les gènes de très faible variance vont plus être corrigés que les autres.

(84)

Limma, étape 3: expression différentielle

(85)

Statistique et loi

La dernière étape consiste en une expression différentielle standard avec la statistique

˜tg j = βˆgj

˜ sg

vgj

Il s’agit de la statistique de Student habituelle mais dans laquelle l’estimateur de la variance habituel a été remplacé par la moyenne de la variance à postériori, introduisant ainsi une correction prenant l’ensemble du jeu de données en compte.

Cette statistique suit une loi duχ2 à d0+dg degrés de liberté. On peut donc calculer une p-valeur par gène et effectuer une correction pour tests multiples.

(86)

Régression Pénalisée et application à l’inférence de réseau

Etienne Birmelé

1 avril 2018

(87)

Régression pénalisée

(88)

Question

Est-il possible d’adapter la régression linéaire (gaussienne ou logistique) en grande dimension de façon à

I limiter les effets des corrélations

I avoir un nombre restreint de variables (gènes) qui ont un coefficient non nul.

(89)

Principe

Soit`(β,X) la vraisemblance d’un modèle de régression évaluée en une valeurβ des paramètres au vu des donnéesX et Y.

Afin de favoriser un certain comportement de la solution, on peut remplacer l’estimateur du maximum de vraisemblance

βˆ=argmax(`(β,X,Y)) par

βˆ=argmax(`(β,X,Y))−λpen(β)

pen(beta) est une fonction de pénalité à choisir. La valeur de λ fixe le degré de pénalité que l’on veut considérer.

(90)

Régression Ridge

βˆRidge =argmax(`(β,X,Y))−λkβk22

La pénalité Ridge est utilisée pour diminuer la grande variance induite surβ par la présence de variables corrélées.

I

βˆRidge = (X0X+λI)−1X0Y

I βˆRidge est un estimateur biaisé contrairement à celui des moindres carrés dans le cas gaussien, mais sa variance est moindre.

(91)

Problème dual et interprétation géométrique

Le problème

βˆRidge =argmax(`(β,X,Y))−λkβk22 est équivalent à un problème dual de la forme

βˆRidge =argmax(`(β,X,Y)) sous la contrainte

X

i

βi2c(λ)

(92)

Régression Lasso

βˆLasso =argmax(l(β,X,Y))−λkβk1 La pénalité Lasso est utilisée pour obtenir des régressions

parcimonieuses, c’est-à-dire tel que beaucoup de coefficients sont nuls.

-Plusλest grand, plus les solutions sont parcimonieuses

I Il n’y a pas de formule close pour ˆβLasso, il faut le déterminer par un algorithme d’optimimsation.

I βˆLasso est en général un estimateur de grande variance.

(93)

Problème dual et interprétation géométrique

Le problème

βˆLasso =argmax(`(β,X,Y))−λkβk1 est équivalent à un problème dual de la forme

βˆLasso =argmax(`(β,X,Y)) sous la contrainte

X

i

i| ≤c(λ)

3.2. Régularisations!p 23

βls

β!1 β1 β2

βls β!2

β1 β2

Fig.3.2Comparaisons des solutions de problèmes régularisés par une norme!1et!2. À gauche de la figure3.2,β!1est l’estimateur du problème (3.2) régularisé par une norme!1. La deuxième composante deβ!1est annulée, car l’ellipse atteint la région admissible sur l’angle situé sur l’axeβ2=0. À droite de la figure3.2,β!2est l’estimateur du problème (3.2) régularisé par une norme

!2. La forme circulaire de la région admissible n’incite pas les coefficients à atteindre des valeurs nulles.

Afin de poursuivre cette discussion avec des arguments à la fois simples et formels, on peut donner l’expression d’un coefficient des estimateurs β!1 etβ!2, lorsque la matriceXest orthogonale (ce qui correspond à des contours circulaires pour la fonction de perte quadratique). Pourβ!2, nous avons

β!m2 = 1 1+λβlsm.

Les coefficients subissent un rétrécissement2proportionnel par le biais du facteur 1 /(1+λ). En particulier,β!m2 ne peut être nul que si le coefficient βlsmest lui même exactement nul. Pourβ!1, nous avons

β!m1 = sign! βlsm" !

|βlsm| −λ"

+,

[u]+=max(0,u). On obtient ainsi un seuillage « doux » : les compo- santes des coefficients desmoindres carréssont rétrécies d’une constanteλ lorsque|βlsm|>λ, et sont annulés sinon.

Stabilité

Définition3.2 Stabilité— Selon Breiman [1996], un problème est instable si pour des ensembles d’apprentissage similaires mais pas identiques (petites perturbations), on obtient des prédictions ou des estimateurs très différents (grande perturbation).

Remarque3.5 Bousquet et Elisseeff [2002] ont défini de façon formelle différentes notions de stabilité, basées sur le comportement des estima- teurs quand l’échantillon d’apprentissage est perturbé par le retrait ou le

remplacement d’un exemple. "

2Shrinkage, en anglais.

(94)

Visualisation des trajectoires des coefficients en fonction de λ

On peut visualiser les variables sélectionnées en fonction du choix de λen les traçant en fonction dekβk1.

A droite de la figure, la pénalisation est plus faible et le ombre de coefficients non nuls plus grand.

(95)

Quelques variantes

(96)

Elastic-Net

βˆEN =argmax(`(β,X,Y))−λ1kβk1λ2kβk22

I Avantage: ‘juste milieu’ entre lasso et Ridge.

I Inconvénient: deux paramètres à régler.

(97)

Group-Lasso

On considère que les variables sont réparties dans L groupes prédéfinies, et soit βl les coordonnées du vecteurβ correspondant aux variables du groupel.

βˆGL =argmax(`(β,X,Y))−

L

X

l=1

λllk2

I Avantage: autre moyen d’obtenir un ‘juste milieu’ entre Lasso et Elastic-Net. Les corrélations sont prises à l’intérieur des groupes, et de nombreux groupes sont annulés entièrement.

I Inconvénient: les groupes doivent être déterminés à l’avance.

(98)

Modèles graphiques gaussiens

(99)

Indépendance conditionnelle

I Soit A,B et C trois évènements. A etB sont indépendants conditionnellement à C si

P(A∩B|C) =P(A|C)P(B|C)

I Cette définition s’élargit aux variables aléatoires: X et Y sont indépendantes conditionnellement à Z si la loi du couple sachant Z est égale au produit des lois de chaque variable sachant Z.

Exemple: la vitesse de lecture n’est pas indépedante de la taille, elle le devient si on conditionne par l’âge.

(100)

Covariance conditionnelle et loi gaussienne multidimensionnelle

I La covariance et la corrélation conditionnelles sont définies par

cov(X,Y|Z) =cov(X,Y)− cov(X,Z)cov(Y,Z) var(Z) cor(X,Y|Z) = cor(X,Y)−cor(X,Z)cor(Y,Z)

q

1−cor(X,Z)2q1−cor(Y,Z)2

I Si X,Y,Z forment un vecteur gaussien,

cov(X,Y|Z) = 0⇔cor(X,Y|Z) = 0⇔X⊥Y|Z

(101)

Graphe d’indépendance conditionnelle

I Soit (Xi)1≤i≤nn variables. Leur graphe d’indépendance conditionnelle est le graphe à n sommets dont les sommets i et j sont reliés si Xi et Xj ne sont pas indépendants

conditionnellement aux autres variables.

1

2

3

4

(102)

Graphe d’indépendance conditionnelle

I Ce graphe a la propriété de Markov: pour tout ensemble S qui sépare deux sommets i et j (tous les chemins entre les deux sommets passent par S), Xi est indépendant de Xj sachant les Xk,kS.

1 2

3

4

X1 est indépendant deX3 conditionnellement à X2 ou (X2,X3) mais pas conditionnellement àX3.

(103)

Modèle graphique gaussien

I On considère une puce comme unvecteur gaussien sur p gènes X = (X1, . . . ,Xp)∈Rp: X ∼ N(µ,Σ).

I On appellematrice de concentrationla matrice Θ= (θij)i,j∈P ,Σ−1.

On a alorscorXi,Xj|XP\i,j=−√θij

θiiθjj

I Les n puces de la même condition sont considérés comme des réplicats, formant un n-échantillons (X1, . . . ,Xn)

d’observations i.i.d. de X

(104)

Remarques sur le modèle graphique gaussien

I Inférer le graphe d’inférence conditionnelle revient à déterminer les coefficients non nuls deΘ.

I Cette méthode ne permet pas de déterminer le sens des interactions. Pour cela, il faut disposer de données temporelles ou de données interventionnelles (knockdown).

I SiXi etXj sont conditionnellement indépendants par rapport à une variableZ qui n’est pas mesurée, la relation entrei etj apparaîtra.

(105)

Vraisemblance du modèle graphique gaussien

SoitS=n−1X0X la matrice de variance-covariance empirique de X.

La log-vraisemblance des données s’écrit alors

`(Θ;S) = n

2log det(Θ)−n

2Trace(SΘ) +n

2log(2π)

I l’estimateur du maximum de vraisemblance de Θest S−1.

I S−1 n’a pas de coefficient nuls.

I S n’est pas inversible quandn<p, ce qui est le cas en génomique.

(106)

Vraisemblance pénalisée

Θˆλ = arg max

Θ `(Θ;X)λkΘk1

Comme dans la régression pénalisée:

I λdéfinit le niveau de pénalité et donc le niveau de parcimonie (proportion des coefficients ramenés à 0, donc nomnre d’arêtes retenues)

I il n’existe pas de formule close pour la solution mais elle peut être déterminée algorithmiquement

I on peut adapter la forme de la pénalité pour garder des groupes de variables.

(107)

Choix de lambda

1. par un critère de choix de modèle

BIC(λ) =ky−Xβˆλk22−df( ˆβλ)logn 2 ou

AIC(λ) =ky−Xβˆλk22−df( ˆβλ)

2. Par validation croisée, en utilisant la moyenne des erreurs au carré comme critère à minimiser.

(108)

Instabilité

I Les choix précédents ont tendance à donner des ensembles d’arêtes instables au sens où une légère modification des données risque de changer profondément le graphe.

I La procédure de sélection par stabilité (stability selection) revient à appliquer la procédure de vraisemblance pénalisée précédente sut un grand nombre d’échantillons bootstrap, et de ne finalement retenir que les arêtes qui sont sélectionnées dans une proportion prédéfinie des graphes construits.

Références

Documents relatifs

= ⇒ lier un caract `ere binaire ou quantitatif (ph ´enotype) `a un endroit du g ´enome (g ´enotype au g `ene ou au QTL) dans la descendance d’un croisement, o `u les individus ont le

[r]

Le point H étant le projeté orthogonal du point O sur la droite ( ) BC , le vecteur OH JJJG est orthogonal à tout vecteur directeur de cette droite, en particulier au vecteur

Nous savons depuis le collège (sic ! ) que le cercle passant par trois points non alignés du plan est le cercle circonscrit au triangle formé par

Il sera tenu compte de la qualit´ e de la r´ edaction pour l’attribution d’une note.

Rappelons que l’on dit que deux cer- cles sont orthogonaux quand ils sont s´ ecants et que les tangentes aux points d’intersection sont

R´ ep.– Les bim´ edianes sont donn´ ees par les axes (Ox), (Oy) et (Oz). Il permute donc les sommets de T et par cons´ equent r´ ealise une isom´ etrie de T.. On conclut en

Il sera tenu compte de la qualit´ e de la r´ edaction pour l’attribution d’une note.