UN PEU DE BIOLOGIE CELLULAIRE
G´en´etique
Cellules
Cellules procaryotes Cellules eucaryotes
Figures issues de http ://www.cours-pharmacie.com/biologie-cellulaire/cellules-procaryotes-et-cellules-eucaryotes.html
Chromosomes
Caryotype humain
Enroulements
Figures issues de http ://lc.brooklyn.cuny.edu et wikipedia
G´enome
Figure issue de http ://tpe-electrophorese-adn.e-monsite.com/
R´eplication
L’ADN peut ˆetre r´epliqu´e, `a des fins de multiplication cellulaire.
Figures issues de http ://expertadn.fr/les-genes/
Polymerase Chain Reaction (PCR)
La r´eplication cellulaire peut ˆetre utilis´ee pour amplifier le signal en laboratoire.
Figures issues de http ://missinglink.ucsf.edu/lm/molecularmethods
Le cycle cellulaire
Figures issues de http ://mpronovost.profweb.ca
Recueil de donn´ees 1 : Puces `a ADN
I On r´ealise une puce sur laquelle sont fix´es les s´equences compl´ementaires (probes) de celles qu’on veut capturer.
I Suivant la technologie, on m´elange l’ADN (ou l’ARN ) d’int´erˆet dans deux types de cellules, en les marquant suivant leur origine (par fluorochrome ou
radioactivit´e).
I On d´epose le liquide contenant les s´equences `a ´etudier sur la puce, `a une temp´erature permettant l’hybridation (les brins compl´ementaires s’assemblent) Plusieurs technologies (cDNA, Illumina, Affymetrix) existent et diff`erent surtout pour le premier point, entraˆınant des longueurs de probes, des couvertures du g´enome et des biais statistiques diff´erents.
Recueil de donn´ees 1 : Puces `a ADN
Apr`es lavage de la puce, on r´ecup`ere le signal fluorescent ou radioactif et on l’analyse pour en retirer des intensit´es.
Figure issue de https ://france.promega.com/
Recueil de donn´ees 2 : New generation sequencing (NGS)
cfAn Introduction to Next Generation Sequencing Technologyd’Illumina.
I Les r´esultats sont des courtes s´equences (quelques dizaines `a quelques centaines de paires de bases) appel´esreads.
I On peut aligner les reads sur un g´enome de r´ef´erence. Sinon, on peut r´eassembler sans r´ef´erence (assemblagede novo, m´etag´enomique).
I Technique r´ecente car les s´equen¸cage `a haut d´ebit est r´ecent (Next Generation Sequencing ou NGS). Elle remplace petit `a petit les puces.
Autres donn´ees g´en´etiques mesurables
Via le s´equen¸cage de l’ADN, on a acc`es `a des mesures qui pourront ˆetre ´etudi´ees statistiquement ou algorithmiquement :
I Les SNPs (Single Nucleotide Polymorphism, prononcer SNiP) : all`eles se diff´erenciant sur une base unique et permettant entre autres de mesurer les variations de nombre de copies.
I Variation du nombre de copies : erreurs de r´eplication durant la mitose induisant une perte ou un gain d’un morceau de chromosome.
I Anomalies g´en´etiques : mutations, inversions, translocations...
G´enomique
Dogme central de la biologie cellulaire
L’ADN s’exprime `a travers la production entre autres de prot´eines.
Transcription
Le principe est similaire `a la r´eplication `a part que la s´equence cr´e´ee est un ARN messager (mRNA), qui est monobrin et dans lequel la thymine (T) est remplac´ee par l’uracyle (U).
Ce mRNA est ´episs´e, c’est-`a-dire ´epur´e de parties non-codantes appel´ees introns.
Parfois, certains exons peuvent ˆetre ´egalement ´episs´es, si bien qu’un mˆeme mRNA peut donner naissance `a plusieurs mRNA diff´erents. On parle alors d’´epissage alternatif.
Traduction
Remarques
I Le niveau d’expression (quantit´e de mRNA ou quantit´e de prot´eines correspondant
`
a un g`ene) est une donn´ee quantitative, et donc exploitable statistiquement.
I Certains g`enes, appel´es facteurs de transcription, codent pour des prot´eines qui vont former des complexes se fixant en amont de la s´equence d’autres g`enes, soit pour annihiler, soit pour favoriser leur expression. On parle de r´egulation entre g`enes.
I La r´ealit´e est plus complexe I : l’´epissage alternatif induit que le niveau d’expression par g`ene n’est pas toujours bien d´efini.
I La r´ealit´e est plus complexe II : il existe par d’autres s´equences d’ANR que l’ARN messager (mRNA). Les micro-ARN (miRNA) sont de courtes s´equences qui ne sont pas traduites mais jouent un rˆole de r´egulateurs en influant la traduction des mRNA.
Mesure de l’ARN
I Puces sur lesquelles sont fix´es les brins compl´ementaires d’ADN.
I RNA-Seq : version ARN de la technique NGS.
I On r´ecolte les ARN de plusieurs cellules et on les fragmente.
I On amplifie les fragments par PCR.
I On les s´equence.
Figure issue de http ://www.data2bio.com/services/rnaseq/
Mesure des prot´eines : Spectrom´etrie de masse
I Les prot´eines sont fragment´ees en peptides
I Les peptides sont ionis´es et pass´es dans un spectrom`etre de masse
I Cet appareil fragmente les ions et les trie suivant leur masse et leur charge.
I On obtient un spectre caract´erisant la composition en acides amin´es du peptide.
Figure issue de https ://www.thermofisher.com/
G´en´etique vs G´enomique
G´en´etique Etude de la transmission du patrimoine g´en´etique `a travers la population et comparaison avec les relev´es ph´enotypiques.
Exemple :Un variant g´en´etique est-il li´e `a une maladie donn´ee ? G´enomique Etude du l’expression des informations contenues dans le g´enome :
expression des g`enes, structure des prot´eines, r´egions promotrices/r´egulatrices ...
Exemple :Un g`ene donn´e est-il sur-exprim´e dans des cellules tumorales ?
Les diff´erents -omiques
Il y a en fait plusieurs -omiques suivant les donn´ees mesur´ees
I g´enomique
I transcriptomique : mesure de l’ARN (mat´eriel transcrit)
I prot´eomique : mesure des prot´eines (mat´eriel traduit)
I m´etabolomique : r´ef´erence aux m´etabolites, c’est-`a-dire aux substrats et produits des r´eactions chimiques ayant lieu dans la cellule (sucres, acides amin´ees, ...)
Epig´en´etique
D´efinition
I L’´epig´en´etique (pr´efixe´epi, du grec signifiantau dessus) conduit `a un changement du ph´enotype sans pour autant modifier le g´enotype de la cellule.
I Les modifications ´epig´en´etiques et le ph´enotype associ´e persistent pendant les mitoses et voire mˆeme apr`es la m´eiose.
I Rˆole physiologique fondamental : contrˆole de l’expression de g`enes, de microRNA ; inhibition d’´el´ements transposables ; embryog´en`ese ...
M´ethylation des cytosines au niveau des ilˆots CpG
I Les ilˆots CpG sont r´epartis tout au long du g´enome, notamment dans les r´egions promotrices.
I Leur m´ethylation consiste en l’ajout d’un groupe m´ethyle sur la cytosine. Elle entraˆıne l’absence d’expression dans toute la r´egion.
Figure issue de http ://helicase.pbworks.com/
I La m´ethylation se transmet lors de la duplication (et donc aussi par h´er´edit´e).
Figure de Jocelyne S´eraline (les m´ecanismes de la canc´erog´en`ese)
Mesure de la m´ethylation
Figure de Jocelyne S´eraline (les m´ecanismes de la canc´erog´en`ese)
Canc´erog´en`ese
Le cancer est une maladie de l’ADN
Le cancer r´esulte d’anomalies g´en´etiques qui touchent :
I la prolif´eration cellulaire
I l’apoptose
I la diff´erentiation cellulaire
I la r´eparation de l’ADN
I l’adh´esion cellulaire
I l’angiog´en`ese
I l’´elimination des catabolites toxiques
Figure de Hanahan et Weinberg,The hallmarks of Cancer (Re- view), Cell, 2000
Aberrations g´en´etiques possibles
De nature tr`es diff´erentes, allant du chromosome entier `a l’´echelle d’une base
I Aneuplo¨ıdie : gain ou perte de chromosomes
I R´earrangement chromosomiques : gain ou perte de parties de chromosomes, translocations, insertions de s´equences virales
Figure de Jocelyne S´eraline (les m´ecanismes de la canc´erog´en`ese) I Courtes d´el´etions ou insertions
I Mutations ponctuelles
Aberrations ´epig´en´etiques
La m´ethylation (ou tout autre d´efaut de r´egulation) peut favoriser la tumeur en inhibant l’expression de g`enes dits suppresseurs de tumeur.
The Biology of Cancer (Garland Science 2007)
Causes possibles des aberrations
Elles sont tr`es nombreuses :
I h´er´edit´e
I action virale
I agressions exog`enes (radiations ionisantes, UV, amiante, arsenic,...)
I agressions endog`enes (stress oxydatif, catabolisme de toxiques, erreurs de l’ADN polym´erase lors de la r´eplication, d´epurination, ...)
H´et´erog´en´eit´e tumorale
Les cancers r´esultent en g´en´eral de la co-occurrence de plusieurs alt´erations :
I tous les cancers sont diff´erents
I la plupart sont compos´es de plusieurs sous-types de cellules tumorales : un traitement peut n’ˆetre efficace que pour une partie d’entre elles
I les probabilit´es de d´evelopper un cancer deviennent plus importantes si une partie des alt´erations sont d´ej`a pr´esentes
Les statistiques dans tout ¸ca
Normalisation
Comment corriger le biais li´e au recueil des donn´ees ?
I Biais humain
I Biais techniques
Figure issue de Nucleic Acid Research
Expression diff´erentielle
Quels sont les g`enes dont les expressions changent significativement entre deux conditions ou plus ?
I Probl`emes de tests multiples.
I Probl`eme de type classification si on cherche `a regrouper les g`enes, les individus ou les conditions qui se ressemblent.
Figure issue de http ://labmed.ascpjournals.org/
Sur-repr´esentation
Quelles sont les voies m´etaboliques activ´ees au vu de la liste des g`enes diff´erentiellement exprim´es ?
I Test hyperg´eom´etriques.
I Mod`eles al´eatoires.
I Statistiques de test.
Variation du nombre de copies
Quels sont les parties du g´enome qui sont pr´esentes en un nombre de copies diff´erent de2dans une cellule canc´ereuse ?
I D´eterminer les points de rupture dans un signal constant par morceaux bruit´e.
Figure issue de http ://www.spandidos-publications.com/
R´egulation
Quels sont les g`enes qui en r´egulent d’autres, et comment est gouvern´ee cette r´egulation ?
I Outils bas´es sur la corr´elation partielle ;
I Probl`eme de la grande dimension (nombre d’observations tr`es inf´erieurs au nombre de r´egulations possibles)
I Outils bas´es sur la d´etection de sites de fixation des prot´eines r´egulatrices.
Réduction de dimension: ACP et PLS
Etienne Birmelé
8 mars 2018
REDUCTION DE DIMENSION
Problème
On considère une variableY à prédire à partir de variablesX (n×p) en grande dimension (n<<p)
I Les modèles linéaires ne fonctionnent pas car ils sont mal définis (X0X n’est pas inversible)
I Les algorithmes basés sur la géométrie tels k-means fonctionnent mal en grande dimension
I Les algorithmes sélectionnant des variables tels les arbres de classification fonctionnent mal en raison du risque de sur-apprentissage
I De nombreuses corrélations significatives entre variables compliquent encore la tâche des algorithmes.
Principe
Une manière de traiter le problème est de réduire la dimension, c’est-à-dire - chercher un sous-espace vectoriel de dimension plus petite quen - remplacer le nuage de point initial par sa projection orthogonale sur le sous-espace précédent.
Question: Comment choisir cet espace pour que le nouveau nuage soit aussi représentatif que possible des données initiales.
Cadre mathématique
Il s’agit de construire
I une matrice A contenant en colonne les coefficients de combinaisons linéaires des anciennes variables (les vecteurs engendrant le nouvel espace):
I une matriceZ (n×r,r <<n) contenantr nouvelles variables (le nouveau nuage). Il vérifie
Z =XA
Principe de construction
Lesh−1 premières variables (ou de façon équivalente les h−1 premiers axes) étant déjà construites, on construit l’axe suivant en résolvant
ah=argmax
a
C(a,X,Y) sous les contraintes
I aThah= 1
I et ∀l <h, cov(zh,zl) =aThX0Xal = 0, oùC(a,X,Y) est une fonction critère à optimiser.
Les conditions assurent que les coefficient directeurs des axes sont unitaires, et que les nouvelles variables sont décorrélées.
Transformations préliminaires
On se place dans un cadre centré: on soustrait leur moyenne à chaque variable. Cela revient à simplement changer l’origine de l’espace, sans modifier le nuage de points.
Il faut faire le choix de normer ou pas chaque variable (ramener sa variance à 1).
-Avantage: on peut comparer des variables dans des unités différentes
-Désavantage: dans le cas de variables comparables, on lisse le signal.
Analyse en Composantes Principales
Critère de l’ACP
L’ACP réduit la dimension en cherchant des axes qui expliquent le mieux possible la variance du nuage desX (indépendamment deY).
Le critère est alors
C(a,X) =a0X0Xa=aTΣa
où Σ est la matrice de covariance empirique. Cela revient à chercher l’axe suivant lequel la variance est la plus grande.
ACP en pratique
D’un point de vue algorithmique:
I soit on trouvea1, puis on projette tous les individus (qui sont des points de Rp) sur (a1)⊥. On lance à nouveau
l’optimisation deC pour trouver a2 etc. . .
I soit on peut démontrer que les ai correspondent aux vecteurs propres de Σ (qui est diagonalisable car symétrique) et on les obtient tous d’un coup.
Il est à noter que ce sont aussi les vecteurs propres de la décomposition en valeurs singulières deX.
Partial Least Square regression
Principe pour Y unidimenssionnel
La PLS peut être vue comme une généralisation de l’ACP où on cherche à faire la même chose à part que ce qu’on appelle le meilleur axe n’est plus celui selon laquelle la variance est la plus grande, mais celui qui explique le mieuxY.
On peut utiliser comme critère le carré de la covariance entreY et l’axe candidat:
C(a,X,Y) =cov(Y,Xa)2=a0X0YY0Xa
En pratique
I on peut à nouveau chercher pas à pas en projetant à chaque fois sur l’orthogonal des axes déjà définis.
I ou déterminer la décomposition en valeurs singulières de X0YY0X.
PLS avec Y multidimensionnel
A chaque pas, on cherche la meilleure covariance entre une combinaison linéaire desX et une combinaison linéaire des Y:
(u1,v1) =argmax
u,v cov(Xu,Yv) sous la contrainteu0u = 1 etv0v= 1.
On projette ensuiteX etY suivant les vecteurs choisis (déflation) et on recommence.
Prédiction
Prédiction après réduction de dimension
On peut utiliser l’ACP ou la PLS comme une étape préliminaire à la régression (ou tout autre algorithme de prédiction):
1. on se place dans l’espace des nouvelles variables
2. on fait une régression sur ces nouvelles variables (et c’est bien défini carr <n)
3. dans le cas de la régression, on reécrit les zj en fonction desxi
dans le modèle linéaire
Cf fonctionspcret plsr du packageplsou la fonction pls.regression du packagepls.genomics.
Selection de variables: Expression Différentielle
Etienne Birmelé
28 mars 2018
SELECTION DE VARIABLES: EXPRESSION
DIFFERENTIELLE
Expression différentielle
Principe
On dispose d’expression de gènes dans différentes conditions.
L’expression différentielle consiste à déterminer les gènes qui s’expriment différemment dans les différentes conditions.
I Le but peut être la recherche
1. de l’identité de ces gènes pour une meilleure compréhension biologique
2. la sélection des gènes les plus différentiellement exprimés pour réduire la dimension d’un problème de prédiction.
I Dans le premier cas, il faut prendre en compte des corrections pour tests multiples. Au vu du très grand nombre de gènes potentiellement considérés, le contrôle du FWER est souvent trop conservatif, ce qui fait que le contrôle de la FDR est préféré.
I En pratique, et notamment dans un but de prédiction, les p-valeurs servent essentiellement à classer les gènes du plus au moins discriminant.
Analyse d’enrichissement
L’analyse précédente renvoie une liste de gènes différentiellement exprimés. Pour une analyse biologique des résultats, les
modifications du comportement cellulaire ne sont souvent pas interprétables en regardant gène par gène:
I présence de faux positifs
I méconnaissance de la fonction de chaque gène -complexité des mécanisme cellulaires
On préfère chercher des fonctions cellulaires, ou des voies métaboliques affectées.
Etant donné des groupes de gènes donnés, les gènes
différentiellement exprimés sont-ils très nombreux dans ce groupe?
Analyse d’enrichissement
On considère un ensembleS dek gènes parmi les m, contenantp gènes différentiellement exprimés parmi la liste der.
∈ S ∈ S/
∈DE p r−p
∈/ DE k−p m−r+p
I Test du χ2 possible mais les effectifs risquent d’être trop petits
I Test de Fisher, ou de façon équivalente test hypergéométrique
Gene Ontology
I Ensemble d’étiquetages de gènes tels que les étiquettes possibles forment un DAG (graphe acyclique dirigé).
I Trois ontologies: Biological process; cellular component;
molecular function.
I Différents types d’arêtes: {is a}, {part of}, {regulates}
I De nombreux algorithmes permettent de faire des analyses d’enrichissement GO (AmiGO, OntoExpress, . . . )
Autre approche: Gene Set Enrichment Analysis (GSEA)
On considère le problème dans l’autre sens: on considère toutes les p-values du jeu de données et on regarde où se situent celles correspondant au groupeG considéré (annotation GO, voie métabolique, . . . ).
On construit une marche partant de 0 et finissant en 0 qui monte de
1
|G| à chaque gène deG et descend de p−G1 sinon. Plus elle s’éloigne de 0, plus le groupe est corrélé à l’ensemble des gènes
différentiellement exprimés.
LIMMA
package limma
La question qui reste à traiter est de comment obtenir les p-valeurs individuelles. De nombreuses manières de faire existent, l’une des plus utilisées étant celle du packagelimma disponible sur
Bioconductor.
I limmapermet de traiter la normalisation des puces si on dispose des données brutes (non traité dans ce cours mais d’importance)
I limmapermet de traiter toutes les sortes de données actuelles:
puce bicolore, pucesingle channel, RNA-Seq.
I limmapermet de ne pas traiter tous les gènes indépendemment les uns des autres via une approche bayésienne qui va
constituer la suite de ce chapitre.
Très courte introduction aux statistiques
bayésiennes
Statistiques bayésiennes: idée générale
I Approche différente de l’approche fréquentiste: les paramètres θ sont considérées des variables aléatoires.
Le but n’est plus d’estimer une valeur ˆθ au vu des données, mais une loi deθ, que l’on pourra résumer vie une espérance, une variance, un intervalle de confiance. . .
Statistiques bayésiennes: idée générale
-On munitθ d’uneloi à prioriP(θ), ne dépendant pas des données.
On peut la choisir non-informative ou au contraire y injecter des connaissances à priori sur le problème.
I On définit une loi des observations étant donné les paramètres P(x|θ), comme dans le cas fréquentiste.
I On utilise la formule de Bayes
P(θ|x) = P(x|θ)P(θ)
P(x) (1)
I On en déduit la loi loi à posterioriP(θ|x). Elle correspond à la vision de la loi deθ après qu’on ait vu les données.
Statistiques bayésiennes: avantages
I Il est possible d’intégrer des connaissances autres que celles de l’observation xdans la loi à priori.
I Le résultat pour θ étant une loi et non pas une valeur, on obtient aisément des intervalles de confiance en considérant les quantiles adéquats.
Statistiques bayésiennes: exemple (inspiré de Dobson et Barnett)
On considère qu’un village est touché de façon endémique par un ver parasitaire (Schistosoma japanicum) si plus de la moitié du village est infecté. Soit θla proportion de villageois touchés.
On examine 10 personnes, dont 7 sont touchées. On a alors la vraisemblanceP(x|θ) = 107θ7(1−θ)3.
I Si on a aucun à-priori sur la valeur de θ, on choisit le distribution uniforme U[0,1].
I On obtient la loi à postériori
P(θ|x)∝θ7(1−θ)3
I Le résultat en terme d’interprétation (centrée sur 107 qui est l’estimateur fréquentiste) et d’intervalle de confiance est très proche de l’intervalle de confiance fréquentiste.
Statistiques bayésiennes: exemple (inspiré par Dobson et Barnett)
I Supposons que des données autres (salubrité, accès à l’eau, aux soins. . . ) nous font penser qu’il y a une plus grande chance qu’il y ait beaucoup d’infectés. On choisit par exemple une loi à-priori de densité 2θ. On obtient alors la loi à postériori
P(θ|x)∝θ8(1−θ)3
Le résultat en terme d’interprétation diffère maintenant du cas fréquentiste puisque la valeurθde plus grande probabilité à posteriori est maintenant 118 > 107. Cette différence s’accroit évidemment si la distribution à priori penche encore plus fortement vers les grandes valeurs.
Hyperparamètres et lois conjuguées
I Si les lois à priori et à postériori dépendent de paramètres, on les appellent des hyperparamètres.
I Pour une forme de vraisemblance donnée, il existe parfois une forme fonctionnelle pour la loi à priori telle que la loi à
postériori est de la mˆeme famille fonctionnelle. On parle alors deloi conjuguée. Par exemple, pour une vraisemblance binomiale, une à priori en loi Beta donnera une postérieure en loi Beta.
Inférer la loi à posteriori revient alors à déterminer les hyperparamètres.
Hyperparamètres et lois conjuguées
Exemple: Dans l’exemple précédent, oùp(x|θ) suit une loi binomiale, on sait que si la loi à priori est une loi Beta, la loi à posteriori sera également une loi Beta. On peut par exemple mettre en place une procédure du type:
1. partir d’une distribution non-informativeBeta(1,1).
2. faire des premières mesures et obtenir une distribution Beta(a1,b1).
3. Si de nouvelles mesures sont disponibles, partir de l’à-priori Beta(a1,b1) et obtenir une nouvelle distributionBeta(a2,b2) 4. . . .
Limma, étape 1: Design et modèle linéaire
Modélisation: matrice de design et matrice de contraste
Soityg = (yg1, . . . ,ygn) le vecteur d’expression du gèneg. On considère une matrice de design et un vecteurαg tel que l’expérience puisse se modéliser par un modèle linéaire (gaussien ou généralisé) tel que
E(yg) =Xαg et var(yg) =σg2Wg
oùWg est une matrice définie par l’utilisateur, à défaut l’identité.
On choisit ensuite une matrice de contrasteC telle que le vecteur βg défini par
βg =C0αg
est le vecteur des coefficients dont on veut tester la nullité.
Exemple: comparaison de deux conditions mesurées dans deux échantillons chacuns
1. Solution 1:
X =
1 0 1 0 0 1 0 1
etC = 1
−1
!
αgi est l’expression moyenne sous la conditioni,βg =αg1−αg2 mesure la variation d’expression moyenne deg entre les deux conditions.
Exemple: comparaison de deux conditions mesurées dans deux échantillons chacuns
2. Solution 2:
X =
1 0 1 0 1 1 1 1
et C = 0 1
!
αg1 est l’expression moyenne dans la condition 1,αg1+αg2 est celle dans la condition 2. On veut donc bien choisirβg =αg2.
Matrices de design et de contraste
I il est possible de comparer>2 conditions en considérant plusieurs contrastes β
I il est possible de prendre en compte des designs à base de puces bicolores (cf la vignette de limma).
I en pratique, l’utilisation de la fonction model.matrixpermet de construire automatiquement les bons objets à partir d’un vecteur de classes (une classe par individu et on veut comparer les expressions entre classes).
Modèle linéaire
Un modèle linéaire (gaussien par la fonctionlmFit) est appliqué sur les données et permet de déterminer:
I αˆg et ˆβg.
I un estimateur sg2 de la varianceσg2 du gèneg.
I le degré de liberté résiduel dg associé au modèle linéaire
I Une matrice Vg = s12
gvar( ˆαg) où var( ˆαg) désigne l’estimateur de la matrice de variance-covariance deαg.
On déduit deVg les coefficients vgj,vgj désignant lejeme coefficient diagonal deC0VgC.
Limma, étape 2: statistiques bayésiennes
Rappel d’un procédé bayésien
1. Définir une loi à priori des paramètres d’intérêt (iciβg et σg2), si besoin en fonction d’hyperparamètres.
2. Définir une vraisemblance des observations (ici ˆβg et sg2) en fonctions des paramètres.
3. Utiliser la formule de Bayes pour déterminer la loi à postériori des paramètres étant donné les observations.
Etape 1: définir une loi à priori
Loi de σg2
1 σg2 ∼ 1
d0s02χ2d0
Loi de βgj
P(βgj = 0) = 1−pj
βg j|βg j >0, σg2 ∼ N(0,v0jσg2) Hyperparamètres:
s02,d0,p,v0
En pratique, ces hyperparamètres sont estimés à partir des données (cf Smyth 2004). La procédure est de ce fait dénotée comme empirical Bayes.
Etape 2: loi des observations
Loi de βˆgj
βˆg j|βg j, σ2g ∼ N(βgj,vgjσ2g) Loi de sg2
1 sg2 ∼ 1
dgσg2χ2dg
Etape 3: Loi à postériori
Les lois ont été choisis conjuguées, et les lois à postériori restent donc une loi du chi-deux pourσ2 et un mélange d’une Dirac enO et d’une loi normale pourβgj.
La quantité d’intérêt que l’on retire de ces lois est l’espérance à postériori deσ2g:
˜
sg2=E(σg2|sg2) = d0s02+dgsg2 d0+dg
Remarque: la procédure bayésiennelisseles variances dans la mesure où elle les ramène verss02, plus ou moins suivant la valeur de d0s02 par rapport à celle dedgsg2.
Les gènes de très faible variance vont plus être corrigés que les autres.
Limma, étape 3: expression différentielle
Statistique et loi
La dernière étape consiste en une expression différentielle standard avec la statistique
˜tg j = βˆgj
˜ sg
√vgj
Il s’agit de la statistique de Student habituelle mais dans laquelle l’estimateur de la variance habituel a été remplacé par la moyenne de la variance à postériori, introduisant ainsi une correction prenant l’ensemble du jeu de données en compte.
Cette statistique suit une loi duχ2 à d0+dg degrés de liberté. On peut donc calculer une p-valeur par gène et effectuer une correction pour tests multiples.
Régression Pénalisée et application à l’inférence de réseau
Etienne Birmelé
1 avril 2018
Régression pénalisée
Question
Est-il possible d’adapter la régression linéaire (gaussienne ou logistique) en grande dimension de façon à
I limiter les effets des corrélations
I avoir un nombre restreint de variables (gènes) qui ont un coefficient non nul.
Principe
Soit`(β,X) la vraisemblance d’un modèle de régression évaluée en une valeurβ des paramètres au vu des donnéesX et Y.
Afin de favoriser un certain comportement de la solution, on peut remplacer l’estimateur du maximum de vraisemblance
βˆ=argmax(`(β,X,Y)) par
βˆ=argmax(`(β,X,Y))−λpen(β)
oùpen(beta) est une fonction de pénalité à choisir. La valeur de λ fixe le degré de pénalité que l’on veut considérer.
Régression Ridge
βˆRidge =argmax(`(β,X,Y))−λkβk22
La pénalité Ridge est utilisée pour diminuer la grande variance induite surβ par la présence de variables corrélées.
I
βˆRidge = (X0X+λI)−1X0Y
I βˆRidge est un estimateur biaisé contrairement à celui des moindres carrés dans le cas gaussien, mais sa variance est moindre.
Problème dual et interprétation géométrique
Le problème
βˆRidge =argmax(`(β,X,Y))−λkβk22 est équivalent à un problème dual de la forme
βˆRidge =argmax(`(β,X,Y)) sous la contrainte
X
i
βi2 ≤c(λ)
Régression Lasso
βˆLasso =argmax(l(β,X,Y))−λkβk1 La pénalité Lasso est utilisée pour obtenir des régressions
parcimonieuses, c’est-à-dire tel que beaucoup de coefficients sont nuls.
-Plusλest grand, plus les solutions sont parcimonieuses
I Il n’y a pas de formule close pour ˆβLasso, il faut le déterminer par un algorithme d’optimimsation.
I βˆLasso est en général un estimateur de grande variance.
Problème dual et interprétation géométrique
Le problème
βˆLasso =argmax(`(β,X,Y))−λkβk1 est équivalent à un problème dual de la forme
βˆLasso =argmax(`(β,X,Y)) sous la contrainte
X
i
|βi| ≤c(λ)
3.2. Régularisations!p 23
βls
β!1 β1 β2
βls β!2
β1 β2
Fig.3.2–Comparaisons des solutions de problèmes régularisés par une norme!1et!2. À gauche de la figure3.2,β!1est l’estimateur du problème (3.2) régularisé par une norme!1. La deuxième composante deβ!1est annulée, car l’ellipse atteint la région admissible sur l’angle situé sur l’axeβ2=0. À droite de la figure3.2,β!2est l’estimateur du problème (3.2) régularisé par une norme
!2. La forme circulaire de la région admissible n’incite pas les coefficients à atteindre des valeurs nulles.
Afin de poursuivre cette discussion avec des arguments à la fois simples et formels, on peut donner l’expression d’un coefficient des estimateurs β!1 etβ!2, lorsque la matriceXest orthogonale (ce qui correspond à des contours circulaires pour la fonction de perte quadratique). Pourβ!2, nous avons
β!m2 = 1 1+λβlsm.
Les coefficients subissent un rétrécissement2proportionnel par le biais du facteur 1 /(1+λ). En particulier,β!m2 ne peut être nul que si le coefficient βlsmest lui même exactement nul. Pourβ!1, nous avons
β!m1 = sign! βlsm" !
|βlsm| −λ"
+,
où[u]+=max(0,u). On obtient ainsi un seuillage « doux » : les compo- santes des coefficients desmoindres carréssont rétrécies d’une constanteλ lorsque|βlsm|>λ, et sont annulés sinon.
Stabilité
Définition3.2 Stabilité— Selon Breiman [1996], un problème est instable si pour des ensembles d’apprentissage similaires mais pas identiques (petites perturbations), on obtient des prédictions ou des estimateurs très différents (grande perturbation).
Remarque3.5— Bousquet et Elisseeff [2002] ont défini de façon formelle différentes notions de stabilité, basées sur le comportement des estima- teurs quand l’échantillon d’apprentissage est perturbé par le retrait ou le
remplacement d’un exemple. "
2Shrinkage, en anglais.
Visualisation des trajectoires des coefficients en fonction de λ
On peut visualiser les variables sélectionnées en fonction du choix de λen les traçant en fonction dekβk1.
A droite de la figure, la pénalisation est plus faible et le ombre de coefficients non nuls plus grand.
Quelques variantes
Elastic-Net
βˆEN =argmax(`(β,X,Y))−λ1kβk1−λ2kβk22
I Avantage: ‘juste milieu’ entre lasso et Ridge.
I Inconvénient: deux paramètres à régler.
Group-Lasso
On considère que les variables sont réparties dans L groupes prédéfinies, et soit βl les coordonnées du vecteurβ correspondant aux variables du groupel.
βˆGL =argmax(`(β,X,Y))−
L
X
l=1
λlkβlk2
I Avantage: autre moyen d’obtenir un ‘juste milieu’ entre Lasso et Elastic-Net. Les corrélations sont prises à l’intérieur des groupes, et de nombreux groupes sont annulés entièrement.
I Inconvénient: les groupes doivent être déterminés à l’avance.
Modèles graphiques gaussiens
Indépendance conditionnelle
I Soit A,B et C trois évènements. A etB sont indépendants conditionnellement à C si
P(A∩B|C) =P(A|C)P(B|C)
I Cette définition s’élargit aux variables aléatoires: X et Y sont indépendantes conditionnellement à Z si la loi du couple sachant Z est égale au produit des lois de chaque variable sachant Z.
Exemple: la vitesse de lecture n’est pas indépedante de la taille, elle le devient si on conditionne par l’âge.
Covariance conditionnelle et loi gaussienne multidimensionnelle
I La covariance et la corrélation conditionnelles sont définies par
cov(X,Y|Z) =cov(X,Y)− cov(X,Z)cov(Y,Z) var(Z) cor(X,Y|Z) = cor(X,Y)−cor(X,Z)cor(Y,Z)
q
1−cor(X,Z)2q1−cor(Y,Z)2
I Si X,Y,Z forment un vecteur gaussien,
cov(X,Y|Z) = 0⇔cor(X,Y|Z) = 0⇔X⊥Y|Z
Graphe d’indépendance conditionnelle
I Soit (Xi)1≤i≤nn variables. Leur graphe d’indépendance conditionnelle est le graphe à n sommets dont les sommets i et j sont reliés si Xi et Xj ne sont pas indépendants
conditionnellement aux autres variables.
1
2
3
4
Graphe d’indépendance conditionnelle
I Ce graphe a la propriété de Markov: pour tout ensemble S qui sépare deux sommets i et j (tous les chemins entre les deux sommets passent par S), Xi est indépendant de Xj sachant les Xk,k ∈S.
1 2
3
4
X1 est indépendant deX3 conditionnellement à X2 ou (X2,X3) mais pas conditionnellement àX3.
Modèle graphique gaussien
I On considère une puce comme unvecteur gaussien sur p gènes X = (X1, . . . ,Xp)∈Rp: X ∼ N(µ,Σ).
I On appellematrice de concentrationla matrice Θ= (θij)i,j∈P ,Σ−1.
On a alorscorXi,Xj|XP\i,j=−√θij
θiiθjj
I Les n puces de la même condition sont considérés comme des réplicats, formant un n-échantillons (X1, . . . ,Xn)
d’observations i.i.d. de X
Remarques sur le modèle graphique gaussien
I Inférer le graphe d’inférence conditionnelle revient à déterminer les coefficients non nuls deΘ.
I Cette méthode ne permet pas de déterminer le sens des interactions. Pour cela, il faut disposer de données temporelles ou de données interventionnelles (knockdown).
I SiXi etXj sont conditionnellement indépendants par rapport à une variableZ qui n’est pas mesurée, la relation entrei etj apparaîtra.
Vraisemblance du modèle graphique gaussien
SoitS=n−1X0X la matrice de variance-covariance empirique de X.
La log-vraisemblance des données s’écrit alors
`(Θ;S) = n
2log det(Θ)−n
2Trace(SΘ) +n
2log(2π)
I l’estimateur du maximum de vraisemblance de Θest S−1.
I S−1 n’a pas de coefficient nuls.
I S n’est pas inversible quandn<p, ce qui est le cas en génomique.
Vraisemblance pénalisée
Θˆλ = arg max
Θ `(Θ;X)−λkΘk1
Comme dans la régression pénalisée:
I λdéfinit le niveau de pénalité et donc le niveau de parcimonie (proportion des coefficients ramenés à 0, donc nomnre d’arêtes retenues)
I il n’existe pas de formule close pour la solution mais elle peut être déterminée algorithmiquement
I on peut adapter la forme de la pénalité pour garder des groupes de variables.
Choix de lambda
1. par un critère de choix de modèle
BIC(λ) =ky−Xβˆλk22−df( ˆβλ)logn 2 ou
AIC(λ) =ky−Xβˆλk22−df( ˆβλ)
2. Par validation croisée, en utilisant la moyenne des erreurs au carré comme critère à minimiser.
Instabilité
I Les choix précédents ont tendance à donner des ensembles d’arêtes instables au sens où une légère modification des données risque de changer profondément le graphe.
I La procédure de sélection par stabilité (stability selection) revient à appliquer la procédure de vraisemblance pénalisée précédente sut un grand nombre d’échantillons bootstrap, et de ne finalement retenir que les arêtes qui sont sélectionnées dans une proportion prédéfinie des graphes construits.