M1 IMSV Statistique pour la g´enomique

(1)

M1 IMSV

Statistique pour la g´enomique

Etienne Birmel´e [email protected]

printemps 2016

(2)

UN PEU DE BIOLOGIE CELLULAIRE

(3)

G´en´etique

(4)

Cellules

Cellules procaryotes Cellules eucaryotes

Figures issues de http ://www.cours-pharmacie.com/biologie-cellulaire/cellules-procaryotes-et-cellules-eucaryotes.html

(5)

Chromosomes

Caryotype humain

Enroulements

Figures issues de http ://lc.brooklyn.cuny.edu et wikipedia

(6)

G´enome

Figure issue de http ://tpe-electrophorese-adn.e-monsite.com/

(7)

R´eplication

L’ADN peut être répliqué, à des fins de multiplication cellulaire.

Figures issues de http ://expertadn.fr/les-genes/

(8)

Polymerase Chain Reaction (PCR)

La réplication cellulaire peut être utilisée pour amplifier le signal en laboratoire.

Figures issues de http ://missinglink.ucsf.edu/lm/molecularmethods

(9)

Le cycle cellulaire

Figures issues de http ://mpronovost.profweb.ca

(10)

Recueil de donn´ees 1 : Puces `a ADN

I On réalise une puce sur laquelle sont fixés les séquences complémentaires (probes) de celles qu’on veut capturer.

I Suivant la technologie, on mélange l’ADN (ou l’ARN ) d’intérêt dans deux types de cellules, en les marquant suivant leur origine (par fluorochrome ou

radioactivit´e).

I On dépose le liquide contenant les séquences à étudier sur la puce, à une température permettant l’hybridation (les brins complémentaires s’assemblent) Plusieurs technologies (cDNA, Illumina, Affymetrix) existent et diffèrent surtout pour le premier point, entraˆınant des longueurs de probes, des couvertures du génome et des biais statistiques différents.

(11)

Recueil de donn´ees 1 : Puces `a ADN

Après lavage de la puce, on récupère le signal fluorescent ou radioactif et on l’analyse pour en retirer des intensités.

Figure issue de https ://france.promega.com/

(12)

Recueil de donn´ees 2 : New generation sequencing (NGS)

cfAn Introduction to Next Generation Sequencing Technologyd’Illumina.

I Les résultats sont des courtes séquences (quelques dizaines à quelques centaines de paires de bases) appelésreads.

I On peut aligner les reads sur un génome de référence. Sinon, on peut réassembler sans référence (assemblagede novo, métagénomique).

I Technique récente car les séquen¸cage à haut débit est récent (Next Generation Sequencing ou NGS). Elle remplace petit à petit les puces.

(13)

Autres données génétiques mesurables

Via le séquen¸cage de l’ADN, on a accès à des mesures qui pourront être étudiées statistiquement ou algorithmiquement :

I Les SNPs (Single Nucleotide Polymorphism, prononcer SNiP) : all`eles se diff´erenciant sur une base unique et permettant entre autres de mesurer les variations de nombre de copies.

I Variation du nombre de copies : erreurs de r´eplication durant la mitose induisant une perte ou un gain d’un morceau de chromosome.

I Anomalies g´en´etiques : mutations, inversions, translocations...

(14)

G´enomique

(15)

Dogme central de la biologie cellulaire

L’ADN s’exprime `a travers la production entre autres de prot´eines.

(16)

Transcription

Le principe est similaire à la réplication à part que la séquence créée est un ARN messager (mRNA), qui est monobrin et dans lequel la thymine (T) est remplacée par l’uracyle (U).

Ce mRNA est épissé, c’est-à-dire épuré de parties non-codantes appelées introns.

Parfois, certains exons peuvent être également épissés, si bien qu’un même mRNA peut donner naissance à plusieurs mRNA différents. On parle alors d’épissage alternatif.

(17)

Traduction

(18)

Remarques

I Le niveau d’expression (quantité de mRNA ou quantité de protéines correspondant

`

a un g`ene) est une donn´ee quantitative, et donc exploitable statistiquement.

I Certains gènes, appelés facteurs de transcription, codent pour des protéines qui vont former des complexes se fixant en amont de la séquence d’autres gènes, soit pour annihiler, soit pour favoriser leur expression. On parle de régulation entre gènes.

I La réalité est plus complexe I : l’épissage alternatif induit que le niveau d’expression par gène n’est pas toujours bien défini.

I La réalité est plus complexe II : il existe par d’autres séquences d’ANR que l’ARN messager (mRNA). Les micro-ARN (miRNA) sont de courtes séquences qui ne sont pas traduites mais jouent un rôle de régulateurs en influant la traduction des mRNA.

(19)

Mesure de l’ARN

I Puces sur lesquelles sont fix´es les brins compl´ementaires d’ADN.

I RNA-Seq : version ARN de la technique NGS.

I On r´ecolte les ARN de plusieurs cellules et on les fragmente.

I On amplifie les fragments par PCR.

I On les s´equence.

Figure issue de http ://www.data2bio.com/services/rnaseq/

(20)

Mesure des prot´eines : Spectrom´etrie de masse

I Les prot´eines sont fragment´ees en peptides

I Les peptides sont ionisés et passés dans un spectromètre de masse

I Cet appareil fragmente les ions et les trie suivant leur masse et leur charge.

I On obtient un spectre caract´erisant la composition en acides amin´es du peptide.

Figure issue de https ://www.thermofisher.com/

(21)

Génétique vs Génomique

Génétique Etude de la transmission du patrimoine génétique à travers la population et comparaison avec les relevés phénotypiques.

Exemple :Un variant génétique est-il lié à une maladie donnée ? Génomique Etude du l’expression des informations contenues dans le génome :

expression des gènes, structure des protéines, régions promotrices/régulatrices ...

Exemple :Un gène donné est-il sur-exprimé dans des cellules tumorales ?

(22)

Les diff´erents -omiques

Il y a en fait plusieurs -omiques suivant les donn´ees mesur´ees

I g´enomique

I transcriptomique : mesure de l’ARN (mat´eriel transcrit)

I protéomique : mesure des protéines (matériel traduit)

I métabolomique : référence aux métabolites, c’est-à-dire aux substrats et produits des réactions chimiques ayant lieu dans la cellule (sucres, acides aminées, ...)

(23)

Epig´en´etique

(24)

D´efinition

I L’épigénétique (préfixeépi, du grec signifiantau dessus) conduit à un changement du phénotype sans pour autant modifier le génotype de la cellule.

I Les modifications épigénétiques et le phénotype associé persistent pendant les mitoses et voire même après la méiose.

I Rôle physiologique fondamental : contrôle de l’expression de gènes, de microRNA ; inhibition d’éléments transposables ; embryogénèse ...

(25)

M´ethylation des cytosines au niveau des ilˆots CpG

I Les ilôts CpG sont répartis tout au long du génome, notamment dans les régions promotrices.

I Leur méthylation consiste en l’ajout d’un groupe méthyle sur la cytosine. Elle entraˆıne l’absence d’expression dans toute la région.

Figure issue de http ://helicase.pbworks.com/

I La méthylation se transmet lors de la duplication (et donc aussi par hérédité).

Figure de Jocelyne Séraline (les mécanismes de la cancérogénèse)

(26)

Mesure de la m´ethylation

Figure de Jocelyne Séraline (les mécanismes de la cancérogénèse)

(27)

Cancérogénèse

(28)

Le cancer est une maladie de l’ADN

Le cancer résulte d’anomalies génétiques qui touchent :

I la prolif´eration cellulaire

I l’apoptose

I la diff´erentiation cellulaire

I la r´eparation de l’ADN

I l’adh´esion cellulaire

I l’angiog´en`ese

I l’´elimination des catabolites toxiques

Figure de Hanahan et Weinberg,The hallmarks of Cancer (Re- view), Cell, 2000

(29)

Aberrations g´en´etiques possibles

De nature très différentes, allant du chromosome entier à l’échelle d’une base

I Aneuplo¨ıdie : gain ou perte de chromosomes

I R´earrangement chromosomiques : gain ou perte de parties de chromosomes, translocations, insertions de s´equences virales

Figure de Jocelyne Séraline (les mécanismes de la cancérogénèse) I Courtes délétions ou insertions

I Mutations ponctuelles

(30)

Aberrations épigénétiques

La méthylation (ou tout autre défaut de régulation) peut favoriser la tumeur en inhibant l’expression de gènes dits suppresseurs de tumeur.

The Biology of Cancer (Garland Science 2007)

(31)

Causes possibles des aberrations

Elles sont tr`es nombreuses :

I hérédité

I action virale

I agressions exog`enes (radiations ionisantes, UV, amiante, arsenic,...)

I agressions endogènes (stress oxydatif, catabolisme de toxiques, erreurs de l’ADN polymérase lors de la réplication, dépurination, ...)

(32)

Hétérogénéité tumorale

Les cancers résultent en général de la co-occurrence de plusieurs altérations :

I tous les cancers sont diff´erents

I la plupart sont compos´es de plusieurs sous-types de cellules tumorales : un traitement peut n’ˆetre efficace que pour une partie d’entre elles

I les probabilités de développer un cancer deviennent plus importantes si une partie des altérations sont déjà présentes

(33)

Les statistiques dans tout ¸ca

(34)

Normalisation

Comment corriger le biais li´e au recueil des donn´ees ?

I Biais humain

I Biais techniques

Figure issue de Nucleic Acid Research

(35)

Expression diff´erentielle

Quels sont les g`enes dont les expressions changent significativement entre deux conditions ou plus ?

I Probl`emes de tests multiples.

I Problème de type classification si on cherche à regrouper les gènes, les individus ou les conditions qui se ressemblent.

Figure issue de http ://labmed.ascpjournals.org/

(36)

Sur-repr´esentation

Quelles sont les voies métaboliques activées au vu de la liste des gènes différentiellement exprimés ?

I Test hyperg´eom´etriques.

I Mod`eles al´eatoires.

I Statistiques de test.

(37)

Variation du nombre de copies

Quels sont les parties du génome qui sont présentes en un nombre de copies différent de2dans une cellule cancéreuse ?

I D´eterminer les points de rupture dans un signal constant par morceaux bruit´e.

Figure issue de http ://www.spandidos-publications.com/

(38)

R´egulation

Quels sont les gènes qui en régulent d’autres, et comment est gouvernée cette régulation ?

I Outils bas´es sur la corr´elation partielle ;

I Problème de la grande dimension (nombre d’observations très inférieurs au nombre de régulations possibles)

I Outils basés sur la détection de sites de fixation des protéines régulatrices.

(39)

Réduction de dimension: ACP et PLS

Etienne Birmelé

8 mars 2018

(40)

REDUCTION DE DIMENSION

(41)

Problème

On considère une variableY à prédire à partir de variablesX (n×p) en grande dimension (n<<p)

I Les modèles linéaires ne fonctionnent pas car ils sont mal définis (X⁰X n’est pas inversible)

I Les algorithmes basés sur la géométrie tels k-means fonctionnent mal en grande dimension

I Les algorithmes sélectionnant des variables tels les arbres de classification fonctionnent mal en raison du risque de sur-apprentissage

I De nombreuses corrélations significatives entre variables compliquent encore la tâche des algorithmes.

(42)

Principe

Une manière de traiter le problème est de réduire la dimension, c’est-à-dire - chercher un sous-espace vectoriel de dimension plus petite quen - remplacer le nuage de point initial par sa projection orthogonale sur le sous-espace précédent.

Question: Comment choisir cet espace pour que le nouveau nuage soit aussi représentatif que possible des données initiales.

(43)

Cadre mathématique

Il s’agit de construire

I une matrice A contenant en colonne les coefficients de combinaisons linéaires des anciennes variables (les vecteurs engendrant le nouvel espace):

I une matriceZ (n×r,r <<n) contenantr nouvelles variables (le nouveau nuage). Il vérifie

Z =XA

(44)

Principe de construction

Lesh−1 premières variables (ou de façon équivalente les h−1 premiers axes) étant déjà construites, on construit l’axe suivant en résolvant

a_h=argmax

a

C(a,X,Y) sous les contraintes

I a^T_hah= 1

I et ∀l <h, cov(z_h,z_l) =a^T_hX⁰Xa_l = 0, oùC(a,X,Y) est une fonction critère à optimiser.

Les conditions assurent que les coefficient directeurs des axes sont unitaires, et que les nouvelles variables sont décorrélées.

(45)

Transformations préliminaires

On se place dans un cadre centré: on soustrait leur moyenne à chaque variable. Cela revient à simplement changer l’origine de l’espace, sans modifier le nuage de points.

Il faut faire le choix de normer ou pas chaque variable (ramener sa variance à 1).

-Avantage: on peut comparer des variables dans des unités différentes

-Désavantage: dans le cas de variables comparables, on lisse le signal.

(46)

Analyse en Composantes Principales

(47)

Critère de l’ACP

L’ACP réduit la dimension en cherchant des axes qui expliquent le mieux possible la variance du nuage desX (indépendamment deY).

Le critère est alors

C(a,X) =a⁰X⁰Xa=a^TΣa

où Σ est la matrice de covariance empirique. Cela revient à chercher l’axe suivant lequel la variance est la plus grande.

(48)

ACP en pratique

D’un point de vue algorithmique:

I soit on trouvea₁, puis on projette tous les individus (qui sont des points de R^p) sur (a₁)^⊥. On lance à nouveau

l’optimisation deC pour trouver a2 etc. . .

I soit on peut démontrer que les a_i correspondent aux vecteurs propres de Σ (qui est diagonalisable car symétrique) et on les obtient tous d’un coup.

Il est à noter que ce sont aussi les vecteurs propres de la décomposition en valeurs singulières deX.

(49)

Partial Least Square regression

(50)

Principe pour Y unidimenssionnel

La PLS peut être vue comme une généralisation de l’ACP où on cherche à faire la même chose à part que ce qu’on appelle le meilleur axe n’est plus celui selon laquelle la variance est la plus grande, mais celui qui explique le mieuxY.

On peut utiliser comme critère le carré de la covariance entreY et l’axe candidat:

C(a,X,Y) =cov(Y,Xa)²=a⁰X⁰YY⁰Xa

(51)

En pratique

I on peut à nouveau chercher pas à pas en projetant à chaque fois sur l’orthogonal des axes déjà définis.

I ou déterminer la décomposition en valeurs singulières de X⁰YY⁰X.

(52)

PLS avec Y multidimensionnel

A chaque pas, on cherche la meilleure covariance entre une combinaison linéaire desX et une combinaison linéaire des Y:

(u1,v1) =argmax

u,v cov(Xu,Yv) sous la contrainteu⁰u = 1 etv⁰v= 1.

On projette ensuiteX etY suivant les vecteurs choisis (déflation) et on recommence.

(53)

Prédiction

(54)

Prédiction après réduction de dimension

On peut utiliser l’ACP ou la PLS comme une étape préliminaire à la régression (ou tout autre algorithme de prédiction):

1. on se place dans l’espace des nouvelles variables

2. on fait une régression sur ces nouvelles variables (et c’est bien défini carr <n)

3. dans le cas de la régression, on reécrit les zj en fonction desxi

dans le modèle linéaire

Cf fonctionspcret plsr du packageplsou la fonction pls.regression du packagepls.genomics.

(55)

Selection de variables: Expression Différentielle

Etienne Birmelé

28 mars 2018

(56)

SELECTION DE VARIABLES: EXPRESSION

DIFFERENTIELLE

(57)

Expression différentielle

(58)

Principe

On dispose d’expression de gènes dans différentes conditions.

L’expression différentielle consiste à déterminer les gènes qui s’expriment différemment dans les différentes conditions.

I Le but peut être la recherche

1. de l’identité de ces gènes pour une meilleure compréhension biologique

2. la sélection des gènes les plus différentiellement exprimés pour réduire la dimension d’un problème de prédiction.

I Dans le premier cas, il faut prendre en compte des corrections pour tests multiples. Au vu du très grand nombre de gènes potentiellement considérés, le contrôle du FWER est souvent trop conservatif, ce qui fait que le contrôle de la FDR est préféré.

I En pratique, et notamment dans un but de prédiction, les p-valeurs servent essentiellement à classer les gènes du plus au moins discriminant.

(59)

Analyse d’enrichissement

L’analyse précédente renvoie une liste de gènes différentiellement exprimés. Pour une analyse biologique des résultats, les

modifications du comportement cellulaire ne sont souvent pas interprétables en regardant gène par gène:

I présence de faux positifs

I méconnaissance de la fonction de chaque gène -complexité des mécanisme cellulaires

On préfère chercher des fonctions cellulaires, ou des voies métaboliques affectées.

Etant donné des groupes de gènes donnés, les gènes

différentiellement exprimés sont-ils très nombreux dans ce groupe?

(60)

Analyse d’enrichissement

On considère un ensembleS dek gènes parmi les m, contenantp gènes différentiellement exprimés parmi la liste der.

∈ S ∈ S/

∈DE p r−p

∈/ DE k−p m−r+p

I Test du χ² possible mais les effectifs risquent d’être trop petits

I Test de Fisher, ou de façon équivalente test hypergéométrique

(61)

Gene Ontology

I Ensemble d’étiquetages de gènes tels que les étiquettes possibles forment un DAG (graphe acyclique dirigé).

I Trois ontologies: Biological process; cellular component;

molecular function.

I Différents types d’arêtes: {is a}, {part of}, {regulates}

I De nombreux algorithmes permettent de faire des analyses d’enrichissement GO (AmiGO, OntoExpress, . . . )

(62)

Autre approche: Gene Set Enrichment Analysis (GSEA)

On considère le problème dans l’autre sens: on considère toutes les p-values du jeu de données et on regarde où se situent celles correspondant au groupeG considéré (annotation GO, voie métabolique, . . . ).

On construit une marche partant de 0 et finissant en 0 qui monte de

1

|G| à chaque gène deG et descend de _p−G¹ sinon. Plus elle s’éloigne de 0, plus le groupe est corrélé à l’ensemble des gènes

différentiellement exprimés.

(63)

LIMMA

(64)

package limma

La question qui reste à traiter est de comment obtenir les p-valeurs individuelles. De nombreuses manières de faire existent, l’une des plus utilisées étant celle du packagelimma disponible sur

Bioconductor.

I limmapermet de traiter la normalisation des puces si on dispose des données brutes (non traité dans ce cours mais d’importance)

I limmapermet de traiter toutes les sortes de données actuelles:

puce bicolore, pucesingle channel, RNA-Seq.

I limmapermet de ne pas traiter tous les gènes indépendemment les uns des autres via une approche bayésienne qui va

constituer la suite de ce chapitre.

(65)

Très courte introduction aux statistiques

bayésiennes

(66)

Statistiques bayésiennes: idée générale

I Approche différente de l’approche fréquentiste: les paramètres θ sont considérées des variables aléatoires.

Le but n’est plus d’estimer une valeur ˆθ au vu des données, mais une loi deθ, que l’on pourra résumer vie une espérance, une variance, un intervalle de confiance. . .

(67)

Statistiques bayésiennes: idée générale

-On munitθ d’uneloi à prioriP(θ), ne dépendant pas des données.

On peut la choisir non-informative ou au contraire y injecter des connaissances à priori sur le problème.

I On définit une loi des observations étant donné les paramètres P(x|θ), comme dans le cas fréquentiste.

I On utilise la formule de Bayes

P(θ|x) = P(x|θ)P(θ)

P(x) (1)

I On en déduit la loi loi à posterioriP(θ|x). Elle correspond à la vision de la loi deθ après qu’on ait vu les données.

(68)

Statistiques bayésiennes: avantages

I Il est possible d’intégrer des connaissances autres que celles de l’observation xdans la loi à priori.

I Le résultat pour θ étant une loi et non pas une valeur, on obtient aisément des intervalles de confiance en considérant les quantiles adéquats.

(69)

Statistiques bayésiennes: exemple (inspiré de Dobson et Barnett)

On considère qu’un village est touché de façon endémique par un ver parasitaire (Schistosoma japanicum) si plus de la moitié du village est infecté. Soit θla proportion de villageois touchés.

On examine 10 personnes, dont 7 sont touchées. On a alors la vraisemblanceP(x|θ) = ¹⁰₇θ⁷(1−θ)³.

I Si on a aucun à-priori sur la valeur de θ, on choisit le distribution uniforme U[0,1].

I On obtient la loi à postériori

P(θ|x)∝θ⁷(1−θ)³

I Le résultat en terme d’interprétation (centrée sur ₁₀⁷ qui est l’estimateur fréquentiste) et d’intervalle de confiance est très proche de l’intervalle de confiance fréquentiste.

(70)

Statistiques bayésiennes: exemple (inspiré par Dobson et Barnett)

I Supposons que des données autres (salubrité, accès à l’eau, aux soins. . . ) nous font penser qu’il y a une plus grande chance qu’il y ait beaucoup d’infectés. On choisit par exemple une loi à-priori de densité 2θ. On obtient alors la loi à postériori

P(θ|x)∝θ⁸(1−θ)³

Le résultat en terme d’interprétation diffère maintenant du cas fréquentiste puisque la valeurθde plus grande probabilité à posteriori est maintenant ₁₁⁸ > ₁₀⁷. Cette différence s’accroit évidemment si la distribution à priori penche encore plus fortement vers les grandes valeurs.

(71)

Hyperparamètres et lois conjuguées

I Si les lois à priori et à postériori dépendent de paramètres, on les appellent des hyperparamètres.

I Pour une forme de vraisemblance donnée, il existe parfois une forme fonctionnelle pour la loi à priori telle que la loi à

postériori est de la mˆeme famille fonctionnelle. On parle alors deloi conjuguée. Par exemple, pour une vraisemblance binomiale, une à priori en loi Beta donnera une postérieure en loi Beta.

Inférer la loi à posteriori revient alors à déterminer les hyperparamètres.

(72)

Hyperparamètres et lois conjuguées

Exemple: Dans l’exemple précédent, oùp(x|θ) suit une loi binomiale, on sait que si la loi à priori est une loi Beta, la loi à posteriori sera également une loi Beta. On peut par exemple mettre en place une procédure du type:

1. partir d’une distribution non-informativeBeta(1,1).

2. faire des premières mesures et obtenir une distribution Beta(a₁,b₁).

3. Si de nouvelles mesures sont disponibles, partir de l’à-priori Beta(a1,b1) et obtenir une nouvelle distributionBeta(a2,b2) 4. . . .

(73)

Limma, étape 1: Design et modèle linéaire

(74)

Modélisation: matrice de design et matrice de contraste

Soityg = (yg1, . . . ,ygn) le vecteur d’expression du gèneg. On considère une matrice de design et un vecteurαg tel que l’expérience puisse se modéliser par un modèle linéaire (gaussien ou généralisé) tel que

E(y_g) =Xα_g et var(y_g) =σ_g²W_g

oùW_g est une matrice définie par l’utilisateur, à défaut l’identité.

On choisit ensuite une matrice de contrasteC telle que le vecteur βg défini par

β_g =C⁰α_g

est le vecteur des coefficients dont on veut tester la nullité.

(75)

Exemple: comparaison de deux conditions mesurées dans deux échantillons chacuns

1. Solution 1:

X =





 1 0 1 0 0 1 0 1







etC = 1

−1

!

α_gi est l’expression moyenne sous la conditioni,β_g =α_g₁−α_g₂ mesure la variation d’expression moyenne deg entre les deux conditions.

(76)

Exemple: comparaison de deux conditions mesurées dans deux échantillons chacuns

2. Solution 2:

X =





 1 0 1 0 1 1 1 1







et C = 0 1

!

α_g1 est l’expression moyenne dans la condition 1,α_g1+α_g2 est celle dans la condition 2. On veut donc bien choisirβg =αg2.

(77)

Matrices de design et de contraste

I il est possible de comparer>2 conditions en considérant plusieurs contrastes β

I il est possible de prendre en compte des designs à base de puces bicolores (cf la vignette de limma).

I en pratique, l’utilisation de la fonction model.matrixpermet de construire automatiquement les bons objets à partir d’un vecteur de classes (une classe par individu et on veut comparer les expressions entre classes).

(78)

Modèle linéaire

Un modèle linéaire (gaussien par la fonctionlmFit) est appliqué sur les données et permet de déterminer:

I αˆ_g et ˆβ_g.

I un estimateur s_g² de la varianceσ_g² du gèneg.

I le degré de liberté résiduel dg associé au modèle linéaire

I Une matrice V_g = _s¹2

gvar( ˆα_g) où var( ˆα_g) désigne l’estimateur de la matrice de variance-covariance deαg.

On déduit deV_g les coefficients v_gj,v_gj désignant lej^eme coefficient diagonal deC⁰V_gC.

(79)

Limma, étape 2: statistiques bayésiennes

(80)

Rappel d’un procédé bayésien

1. Définir une loi à priori des paramètres d’intérêt (iciβg et σ_g²), si besoin en fonction d’hyperparamètres.

2. Définir une vraisemblance des observations (ici ˆβg et s_g²) en fonctions des paramètres.

3. Utiliser la formule de Bayes pour déterminer la loi à postériori des paramètres étant donné les observations.

(81)

Etape 1: définir une loi à priori

Loi de σ_g²

1 σ_g² ∼ 1

d0s₀²χ²_d₀

Loi de β_gj

P(βgj = 0) = 1−pj

βg j|β_{g j} >0, σ_g² ∼ N(0,v0jσ_g²) Hyperparamètres:

s₀²,d₀,p,v₀

En pratique, ces hyperparamètres sont estimés à partir des données (cf Smyth 2004). La procédure est de ce fait dénotée comme empirical Bayes.

(82)

Etape 2: loi des observations

Loi de βˆgj

βˆ_{g j}|β_{g j}, σ²_g ∼ N(β_gj,v_gjσ²_g) Loi de s_g²

1 s_g² ∼ 1

dgσ_g²χ²_d_g

(83)

Etape 3: Loi à postériori

Les lois ont été choisis conjuguées, et les lois à postériori restent donc une loi du chi-deux pourσ² et un mélange d’une Dirac enO et d’une loi normale pourβgj.

La quantité d’intérêt que l’on retire de ces lois est l’espérance à postériori deσ²_g:

˜

s_g²=E(σ_g²|s_g²) = d₀s₀²+d_gs_g² d0+dg

Remarque: la procédure bayésiennelisseles variances dans la mesure où elle les ramène verss₀², plus ou moins suivant la valeur de d0s₀² par rapport à celle dedgs_g².

Les gènes de très faible variance vont plus être corrigés que les autres.

(84)

Limma, étape 3: expression différentielle

(85)

Statistique et loi

La dernière étape consiste en une expression différentielle standard avec la statistique

˜tg j = βˆ_gj

˜ sg

√vgj

Il s’agit de la statistique de Student habituelle mais dans laquelle l’estimateur de la variance habituel a été remplacé par la moyenne de la variance à postériori, introduisant ainsi une correction prenant l’ensemble du jeu de données en compte.

Cette statistique suit une loi duχ² à d0+dg degrés de liberté. On peut donc calculer une p-valeur par gène et effectuer une correction pour tests multiples.

(86)

Régression Pénalisée et application à l’inférence de réseau

Etienne Birmelé

1 avril 2018

(87)

Régression pénalisée

(88)

Question

Est-il possible d’adapter la régression linéaire (gaussienne ou logistique) en grande dimension de façon à

I limiter les effets des corrélations

I avoir un nombre restreint de variables (gènes) qui ont un coefficient non nul.

(89)

Principe

Soit`(β,X) la vraisemblance d’un modèle de régression évaluée en une valeurβ des paramètres au vu des donnéesX et Y.

Afin de favoriser un certain comportement de la solution, on peut remplacer l’estimateur du maximum de vraisemblance

βˆ=argmax(`(β,X,Y)) par

βˆ=argmax(`(β,X,Y))−λpen(β)

oùpen(beta) est une fonction de pénalité à choisir. La valeur de λ fixe le degré de pénalité que l’on veut considérer.

(90)

Régression Ridge

βˆRidge =argmax(`(β,X,Y))−λkβk²₂

La pénalité Ridge est utilisée pour diminuer la grande variance induite surβ par la présence de variables corrélées.

I

βˆRidge = (X⁰X+λI)⁻¹X⁰Y

I βˆ_Ridge est un estimateur biaisé contrairement à celui des moindres carrés dans le cas gaussien, mais sa variance est moindre.

(91)

Problème dual et interprétation géométrique

Le problème

βˆ_Ridge =argmax(`(β,X,Y))−λkβk²₂ est équivalent à un problème dual de la forme

βˆ_Ridge =argmax(`(β,X,Y)) sous la contrainte

X

i

β_i² ≤c(λ)

(92)

Régression Lasso

βˆLasso =argmax(l(β,X,Y))−λkβk₁ La pénalité Lasso est utilisée pour obtenir des régressions

parcimonieuses, c’est-à-dire tel que beaucoup de coefficients sont nuls.

-Plusλest grand, plus les solutions sont parcimonieuses

I Il n’y a pas de formule close pour ˆβ_Lasso, il faut le déterminer par un algorithme d’optimimsation.

I βˆ_Lasso est en général un estimateur de grande variance.

(93)

Problème dual et interprétation géométrique

Le problème

βˆ_Lasso =argmax(`(β,X,Y))−λkβk₁ est équivalent à un problème dual de la forme

βˆ_Lasso =argmax(`(β,X,Y)) sous la contrainte

X

i

|β_i| ≤c(λ)

3.2. Régularisations!p 23

β^ls

β^!¹ β1 β2

β^ls β^!²

β1 β2

Fig.3.2–Comparaisons des solutions de problèmes régularisés par une norme!₁et!₂. À gauche de la figure3.2,β^!¹est l’estimateur du problème (3.2) régularisé par une norme!1. La deuxième composante deβ^!¹est annulée, car l’ellipse atteint la région admissible sur l’angle situé sur l’axeβ2=0. À droite de la figure3.2,β^!²est l’estimateur du problème (3.2) régularisé par une norme

!2. La forme circulaire de la région admissible n’incite pas les coefficients à atteindre des valeurs nulles.

Afin de poursuivre cette discussion avec des arguments à la fois simples et formels, on peut donner l’expression d’un coefficient des estimateurs β^!¹ etβ^!², lorsque la matriceXest orthogonale (ce qui correspond à des contours circulaires pour la fonction de perte quadratique). Pourβ^!², nous avons

β^!_m² = ¹ 1+λβ^ls_m.

Les coefficients subissent un rétrécissement²proportionnel par le biais du facteur 1 /(1+λ). En particulier,β^!m² ne peut être nul que si le coefficient β^ls_mest lui même exactement nul. Pourβ^!¹, nous avons

β^!_m¹ = sign! β^ls_m" !

|β^ls_m| −λ"

+,

où[u]+=max(0,u). On obtient ainsi un seuillage « doux » : les composantes des coefficients desmoindres carréssont rétrécies d’une constanteλ lorsque|β^ls_m|>λ, et sont annulés sinon.

Stabilité

Définition3.2 Stabilité— Selon Breiman [1996], un problème est instable si pour des ensembles d’apprentissage similaires mais pas identiques (petites perturbations), on obtient des prédictions ou des estimateurs très différents (grande perturbation).

Remarque3.5— Bousquet et Elisseeff [2002] ont défini de façon formelle différentes notions de stabilité, basées sur le comportement des estimateurs quand l’échantillon d’apprentissage est perturbé par le retrait ou le

remplacement d’un exemple. "

2Shrinkage, en anglais.

(94)

Visualisation des trajectoires des coefficients en fonction de λ

On peut visualiser les variables sélectionnées en fonction du choix de λen les traçant en fonction dekβk₁.

A droite de la figure, la pénalisation est plus faible et le ombre de coefficients non nuls plus grand.

(95)

Quelques variantes

(96)

Elastic-Net

βˆ_EN =argmax(`(β,X,Y))−λ₁kβk₁−λ₂kβk²₂

I Avantage: ‘juste milieu’ entre lasso et Ridge.

I Inconvénient: deux paramètres à régler.

(97)

Group-Lasso

On considère que les variables sont réparties dans L groupes prédéfinies, et soit β_l les coordonnées du vecteurβ correspondant aux variables du groupel.

βˆ_GL =argmax(`(β,X,Y))−

L

X

l=1

λ_lkβ_lk₂

I Avantage: autre moyen d’obtenir un ‘juste milieu’ entre Lasso et Elastic-Net. Les corrélations sont prises à l’intérieur des groupes, et de nombreux groupes sont annulés entièrement.

I Inconvénient: les groupes doivent être déterminés à l’avance.

(98)

Modèles graphiques gaussiens

(99)

Indépendance conditionnelle

I Soit A,B et C trois évènements. A etB sont indépendants conditionnellement à C si

P(A∩B|C) =P(A|C)P(B|C)

I Cette définition s’élargit aux variables aléatoires: X et Y sont indépendantes conditionnellement à Z si la loi du couple sachant Z est égale au produit des lois de chaque variable sachant Z.

Exemple: la vitesse de lecture n’est pas indépedante de la taille, elle le devient si on conditionne par l’âge.

(100)

Covariance conditionnelle et loi gaussienne multidimensionnelle

I La covariance et la corrélation conditionnelles sont définies par

cov(X,Y|Z) =cov(X,Y)− cov(X,Z)cov(Y,Z) var(Z) cor(X,Y|Z) = cor(X,Y)−cor(X,Z)cor(Y,Z)

q

1−cor(X,Z)²^q1−cor(Y,Z)²

I Si X,Y,Z forment un vecteur gaussien,

cov(X,Y|Z) = 0⇔cor(X,Y|Z) = 0⇔X⊥Y|Z

(101)

Graphe d’indépendance conditionnelle

I Soit (Xi)1≤i≤nn variables. Leur graphe d’indépendance conditionnelle est le graphe à n sommets dont les sommets i et j sont reliés si Xi et Xj ne sont pas indépendants

conditionnellement aux autres variables.

1

2

3

4

(102)

Graphe d’indépendance conditionnelle

I Ce graphe a la propriété de Markov: pour tout ensemble S qui sépare deux sommets i et j (tous les chemins entre les deux sommets passent par S), Xi est indépendant de Xj sachant les X_k,k ∈S.

1 2

3

4

X1 est indépendant deX3 conditionnellement à X2 ou (X2,X3) mais pas conditionnellement àX₃.

(103)

Modèle graphique gaussien

I On considère une puce comme unvecteur gaussien sur p gènes X = (X₁, . . . ,X_p)∈R^p: X ∼ N(µ,Σ).

I On appellematrice de concentrationla matrice Θ= (θ_ij)_i,j∈P ,Σ⁻¹.

On a alorscorX_i,X_j|X_P\i_,j=−√^θ^ij

θiiθjj

I Les n puces de la même condition sont considérés comme des réplicats, formant un n-échantillons (X₁, . . . ,X_n)

d’observations i.i.d. de X

(104)

Remarques sur le modèle graphique gaussien

I Inférer le graphe d’inférence conditionnelle revient à déterminer les coefficients non nuls deΘ.

I Cette méthode ne permet pas de déterminer le sens des interactions. Pour cela, il faut disposer de données temporelles ou de données interventionnelles (knockdown).

I SiXi etXj sont conditionnellement indépendants par rapport à une variableZ qui n’est pas mesurée, la relation entrei etj apparaîtra.

(105)

Vraisemblance du modèle graphique gaussien

SoitS=n⁻¹X⁰X la matrice de variance-covariance empirique de X.

La log-vraisemblance des données s’écrit alors

`(Θ;S) = n

2log det(Θ)−n

2Trace(SΘ) +n

2log(2π)

I l’estimateur du maximum de vraisemblance de Θest S⁻¹.

I S⁻¹ n’a pas de coefficient nuls.

I S n’est pas inversible quandn<p, ce qui est le cas en génomique.

(106)

Vraisemblance pénalisée

Θˆ_λ = arg max

Θ `(Θ;X)−λkΘk₁

Comme dans la régression pénalisée:

I λdéfinit le niveau de pénalité et donc le niveau de parcimonie (proportion des coefficients ramenés à 0, donc nomnre d’arêtes retenues)

I il n’existe pas de formule close pour la solution mais elle peut être déterminée algorithmiquement

I on peut adapter la forme de la pénalité pour garder des groupes de variables.

(107)

Choix de lambda

1. par un critère de choix de modèle

BIC(λ) =ky−Xβˆ_λk²₂−df( ˆβ_λ)logn 2 ou

AIC(λ) =ky−Xβˆ_λk²₂−df( ˆβ_λ)

2. Par validation croisée, en utilisant la moyenne des erreurs au carré comme critère à minimiser.

(108)

Instabilité

I Les choix précédents ont tendance à donner des ensembles d’arêtes instables au sens où une légère modification des données risque de changer profondément le graphe.

I La procédure de sélection par stabilité (stability selection) revient à appliquer la procédure de vraisemblance pénalisée précédente sut un grand nombre d’échantillons bootstrap, et de ne finalement retenir que les arêtes qui sont sélectionnées dans une proportion prédéfinie des graphes construits.