• Aucun résultat trouvé

Choix des param `etres

Dans le document TH `ESE TH `ESE (Page 51-56)

Cadre statistique

2.2 Inf ´erence de r ´eseaux de g `enes

2.2.5 Choix des param `etres

Le choix du param`etreρest important puisqu’il permet de contrˆoler le niveau de parci-monie du r´eseau. Des valeurs ´elev´ees deρont tendance `a inf´erer des r´eseaux pratiquement vides et de petites valeurs fournissent g´en´eralement des r´eseaux trop denses.

Diverses m´ethodes ont ´et´e propos´ees pour s´electionner une valeur optimale de ce pa-ram`etre de r´egularisationρ. Les m´ethodes usuelles pour choisir le param`etre de r´egularisation sont le crit`ere AIC [3], le crit`ere BIC [191] et la validation crois´ee [203, 59]. Bien que ces m´ethodes aient de bonnes propri´et´es th´eoriques en faible dimension, elles ne sont pas adapt´ees pour des probl`emes en grande dimension. Par exemple, dans le cadre de probl`emes de r´egression, [229] ont montr´e que la validation crois´ee sur-ajuste les donn´ees (sur-apprentissage). De mˆeme, les crit`eres AIC et BIC ont tendance `a avoir des r´esultats m´ediocres : ils ont tendance `a s´electionner plus de variables que n´ecessaire [121] lorsque le nombre de variables est beaucoup plus important que le nombre d’´echantillons.

Pour l’inf´erence de r´eseau, deux familles de m´ethodes sont utilis´ees. La premi`ere approche consiste `a modifier les crit`eres habituels afin de les adapter aux cas o`up > nou pn. La seconde approche se base sur un concept de stabilit´e [144, 135].

S´election de mod`ele

BIC Certains mod`eles, comme celui propos´e par [87], optent pour le crit`ere BIC afin de choisir le param`etre de r´egularisationρ. Dans son mod`ele, [87] proposent deux ´etapes pour choisir unρcommun pour toutes les r´egressions g`ene par g`ene. Dans un premier temps, un param`etreρjest choisi pour chaque g`enejen utilisant le crit`ere BIC (en maximisant la log-vraisemblance p´enalis´ee pour le g`enejavec le crit`ere BIC).

2.2 Inf ´erence de r ´eseaux de g `enes 51

Dans un second temps, un param`etre de r´egularisation unique est obtenu en calculant la moyenne desρj :ρ=Pp

j=1ρj/p. Puisque BIC est un crit`ere asymptotique, prendre la moyenne des param`etres de r´egularisation sur l’ensemble des r´egressions, aide `a am´eliorer la performance de l’inf´erence de r´eseau.

eBIC,BIC ´etendu Pour pallier le probl`eme de grande dimension, [44] proposent de modifier le crit`ere BIC en proposant une nouvelle famille de BIC ´etendu. L’objectif est de p´enaliser `a la fois le nombre de param`etres inconnus et la complexit´e de l’espace du mod`ele.

[83] ont alors adapt´e ce crit`ere pour les mod`eles graphiques. Le crit`ere eBIC correspond au crit`ere BIC auquel un terme de p´enalit´e a ´et´e ajout´e :

eBICγ(E) =−2L(ˆθ(E)) +|E|log(n) + 4|E|γlog(p)

avec γ un hyperparam`etre compris entre 0 et 1. Il est important de ne pas confondre l’hyperparam`etreγavecρle param`etre de r´egularisation du mod`ele graphique lasso. Cet hyperparam`etreγdoit ˆetre choisi manuellement. Lorsqu’il vaut 0, le crit`ere eBIC revient

`

a calculer le crit`ere BIC. Plus ce param`etre est ´elev´e, plus la parcimonie du r´eseau est importante (c’est-`a-dire des r´eseaux moins denses). [83] montre qu’une valeur de 0,5 pour γreste un bon compromis entre le nombre de faux positifs et de faux n´egatifs.

RIC Dans le cadre des m´ethodes de r´egression, [140] a propos´e un nouveau sch´ema de s´election qui permet de diminuer le biais de s´election avec une p´enalit´e qui s’adapte `a la dimension des donn´ees ainsi qu’`a leur structure de corr´elation. L’id´ee fondamentale derri`ere cette approche est la cr´eation de donn´ees de r´ef´erence n’ayant aucune relation avec la variable r´eponse mais avec les mˆemes caract´eristiques que les donn´ees r´eelles. Ces donn´ees sont obtenues `a partir de permutations (PIC9) ou de rotations (RIC10) des donn´ees r´eelles.

Les donn´ees de r´ef´erence sont combin´ees aux donn´ees r´eelles et l’algorithme de s´election est appliqu´e sur cette nouvelle matrice de donn´ees : il s’arrˆete lorsque la premi`ere variable du jeu de r´ef´erence (consid´er´ee comme une variable de bruit) est s´electionn´ee.

Le crit`ere RIC permet de choisir directement le meilleur param`etre de r´egularisation ρen se basant sur des rotations al´eatoires plutˆot que de trouver le meilleurρsur tout le chemin de r´egularisation en utilisant des m´ethodes coˆuteuses en temps de calcul (validation crois´ee ou r´e-´echantillonnage).

Approches bas´ees sur la stabilit´e

L’estimation de structure discr`ete comme la s´election de variables ou la mod´elisation graphique est difficile, notamment dans le cadre de la grande dimension. Une nouvelle approche pour la s´election de mod`ele, bas´ee sur la notion de stabilit´e, a g´en´er´e un int´erˆet croissant dans la litt´erature r´ecente. Cette nouvelle approche se base sur des techniques comme le r´e-´echantillonnage ou le bootstrap pour augmenter la stabilit´e des algorithmes de s´election (et pour quantifier leur incertitude). Cette notion de stabilit´e a ´et´e introduite par [30] dans le contexte de la pr´ediction.

Le principe de ces approches, cherchant `a identifier la structure stable, se base sur l’id´ee suivante : le mˆeme algorithme de s´election doit fournir des r´esultats similaires sur des jeux de donn´ees semblables.

Selection stability [144] g´en´eralisent le concept de stabilit´e et proposent une version adapt´ee `a l’inf´erence de r´eseau. L’objectif de leur approche est de fournir un r´eseau

parcimo-9. Permutated Inclusion Criterion 10.Rotation Information Criterion

nieux et stable tout en contrˆolant le nombre de faux positifs parmi les arˆetes. Leur m´ethode diff`ere des mod`eles de s´election puisqu’elle cherche `a estimer la probabilit´e de s´election des variables et non directement le param`etre de r´egularisation optimal.

Cette probabilit´e de s´election est estim´ee `a l’aide deB ex´ecutions de la m´ethode de r´egression p´enalis´ee sur diff´erents sous-´echantillons des donn´ees. Les arˆetes consid´er´ees comme stables seront souvent s´electionn´ees par les mod`eles parmi les divers

sous-´echantillons. Une arˆete peu stable sera plus sensible au r´e-´echantillonnage et ne sera s´electionn´ee que par peu de mod`eles.

Le r´esultat est obtenu sous la forme d’un chemin de stabilit´e (stability path, en anglais) repr´esentant la probabilit´e de s´election en fonction de la valeur deρ. Une caract´eristique attractive de cette m´ethode est le contrˆole de l’erreur qui est fourni en posant une borne sup´erieure sur le nombre attendu de faux positifs parmi les variables s´electionn´ees.

StARS11S’inspirant des travaux de [144], [135] proposent une nouvelle approche pour choisir le param`etre de r´egularisationρ: le crit`ere StARS. Contrairement `a la m´ethode stability selectiondont l’objectif est de limiter le nombre de faux positifs, le crit`ere StARS cherche `a inf´erer un r´eseau de telle sorte que le vrai r´eseau (inconnu) soit inclus dans le r´eseau obtenu, autrement dit `a limiter le nombre de faux n´egatif.

A partir des donn´` ees initiales,Bsous-´echantillons de taillem < nsont cr´e´es ainsi qu’un vecteurΛ contenant les valeurs des param`etres de r´egularisationρ. Un r´eseauΩ(b,ρ)est inf´er´e pour chaque sous-´echantillonbet chaque valeurρdeΛ. La fr´equence d’inclusion de l’arˆetee, arˆete pr´esente entre les g`enesjetj0, est calcul´ee comme suit :

pρe=]{b: Ω(b,ρ)jj0 6= 0}/B et sa variance vaut :

vρe =pρe(1−pρe).

La stabilit´estab(ρ)du r´eseau se d´efinit par :

stab(ρ) = 1−2¯vρ

o`u¯vρcorrespond `a la moyenne deveρ. Le crit`ere StARS s´electionne le plus petitρ(r´eseau plus dense) tel questab(ρ)≥1−2τ. En se basant sur des r´esultats th´eoriques, [135] sugg`erent d’utiliser2τ= 0.05et des sous-´echantillons de taillem=b10√

nc.

11. Stability Approach to regularization Selection criterion

2.2 Inf ´erence de r ´eseaux de g `enes 53

Chapitre 3 Contributions

Les travaux des cette th`ese s’appuient sur les donn´ees du projet DiOGenes. L’objectif de ce projet est d’´etudier les effets `a long terme d’un r´egime hypocalorique chez des personnes ob`eses. Cette ´etude cherche `a approfondir les connaissances sur les m´ecanismes biologiques du contrˆole pond´eral et des pathologies associ´ees `a l’ob´esit´e.

Pour les ´etudes cliniques cherchant `a comprendre l’ensemble des m´ecanismes li´es `a une maladie (l’ob´esit´e dans notre cas), divers types de donn´ees peuvent ˆetre mesur´ees : des mesures ph´enotypiques, cliniques mais aussi des analyses transcriptomiques effectu´ees `a partir de pr´el`evements sanguins et/ou de tissus humains (le tissu adipeux pour DiOGenes).

Les donn´ees peuvent ´egalement ˆetre mesur´ees `a diff´erents temps cl´es de l’´etude. Dans DiOGenes, des donn´ees cliniques, ph´enotypiques et transcriptomiques du tissu adipeux sont disponibles avant et apr`es chacune des deux phases de l’´etude. Obtenues `a diff´erents pas de temps, les donn´ees acquises sont donc volumineuses et complexes.

Un obstacle important survenant face `a cette masse de donn´ees h´et´erog`enes est de d´efinir une fac¸on appropri´ee pour les exploiter et les mod´eliser, tout en tenant compte de leur grande dimensionnalit´e, de leur h´et´erog´en´eit´e au niveau biologique (donn´ees acquises

`

a diff´erents niveaux de l’´echelle du vivant et `a divers moments d’une exp´erience) mais aussi au niveau de leur nature (donn´ees num´eriques, discr`etes, continues, etc.). Un autre probl`eme rencontr´e est la pr´esence d’observations avec des valeurs incompl`etes (dans un mˆeme ensemble de donn´ees) ou manquantes totalement (par exemple des individus pr´esents seulement dans certains jeux de donn´ees).

L’objectif de cette th`ese est donc de proposer des approches permettant d’int´egrer des donn´ees h´et´erog`enes complexes `a partir de divers tableaux de tailles d´es´equilibr´ees afin de r´epondre `a diverses questions biologiques telles que :

— quelles sont les interactions entre les diff´erents ensembles de donn´ees, situ´ees `a divers niveaux de l’organisme ?

— comment ces interactions ´evoluent-elles au cours du protocole ?

— quels sont les m´ecanismes biologiques cl´es qui expliquent le succ`es (maintien de l’am´elioration des param`etres m´etaboliques) ou l’´echec de l’intervention nutrition-nelle ?

Les approches propos´ees dans le cadre de cette th`ese cherchent `a prendre en compte les sp´ecificit´es des donn´ees d’expression de g`enes mesur´ees avec des techniques de s´equenc¸age

`

a haut d´ebit (RNA-Seq et QuantSeq). Pour cela, les travaux pr´esent´es utilisent des ap-proches permettant de prendre en compte le caract`ere discret des donn´ees ainsi que leur surdispersion.

La th`ese s’articule en trois grandes parties : la gestion des donn´ees manquantes, l’inf´erence de r´eseau en pr´esence d’individus manquants et l’int´egration de diff´erents types de donn´ees (cliniques et transcriptomiques) en utilisant une approche bas´ee sur de l’inf´erence de r´eseau.

55

Dans le document TH `ESE TH `ESE (Page 51-56)