• Aucun résultat trouvé

Pr ´esentation de la m ´ethode

Dans le document TH `ESE TH `ESE (Page 114-117)

Donn´ ees manquantes et inf´ erence de r´ eseau

5.2 Pr ´esentation de la m ´ethode

5.2.1 Notations

Dans la suite de ce chapitre,Xcorrespond au jeu de donn´ees RNA-Seq avecn1lignes (n1individus) etpcolonnes (pg`enes). Le comptage du g`enej,j ∈ {1, . . . , p}, pour l’individu i,i∈ {1, . . . , n1}est not´exij. Des donn´ees auxiliaires ont ´egalement ´et´e obtenues sur cesn1

individus et sur d’autres individus. On noteYla matrice de dimensionn×qavecn > n1 contenant ces donn´ees.yijcorrespond `a l’observation de la variablej,j∈ {1, . . . , q}, pour l’individui,i∈ {1, . . . , n}. Sans perte de g´en´eralit´e, les individus communs entreXetY sont suppos´es correspondre auxn1premi`eres lignes deY. Ce probl`eme peut alors ˆetre vu

comme un probl`eme de donn´ees manquantes dans la matriceX,˜ Y

de dimensionn×(p+q) dans laquelle,x˜iest d´efini par :

( xi ∀i= 1, . . . , n1

˜

xiest manquant ∀i≥n1+ 1 .

Une telle structure de donn´ees manquantes est appel´ee non-r´eponse totale (unit non-response, en anglais) puisque les valeurs manquantes correspondent `a l’absence totale d’un individu (autrement dit aucune variable n’est observ´ee pour cet individu). La figure 5.1 permet de repr´esenter sch´ematiquement cette structure de donn´ees manquantes.

X˜ Y

Figure 5.1 Sch´ema des donn´ees manquantes dans le jeu de donn´ees d’expression RNA-Seq (X) et˜ dans le jeu auxiliaire (Y).

Les individus manquantsi∈ {n1+ 1, . . . , n}du jeu de donn´ees RNA-Seq sont suppos´es ˆ

etre MCAR. Il s’agit d’une hypoth`ese standard si les individus n’ont pas ´et´e choisis selon une caract´eristique sp´ecifique parmi {1, . . . , n}mais qu’ils ont ´et´e s´electionn´es al´eatoirement ou `a cause de contraintes techniques comme une exp´erience rat´ee, un manque de tissu ou encore `a cause de contraintes financi`eres.

5.2.2 Imputation multiple hot-deck (hd-MI)

Une grande vari´et´e de m´ethodes permet d’imputer des valeurs manquantes [73, 133].

N´eanmoins, la plupart de ces m´ethodes impute les valeurs manquantes ind´ependamment les unes des autres. Dans notre cas, nous devons faire face `a deux probl´ematiques : tout d’abord, ce sont des individus en entier (et non quelques variables) qui sont consid´er´es comme manquants. Deuxi`emement, dans le contexte de l’inf´erence de r´eseau, il est important de pr´eserver, lors de l’imputation, la structure de corr´elation entre les variables. Or, les m´ethodes usuelles d’imputation ne remplissent pas ce crit`ere.

L’imputation hot-deck est souvent utilis´ee pour imputer des probl`emes de non-r´eponse totale dans les sondages [11]. Cette m´ethode est bas´ee sur le concept de donneurs. Pour chaque individu,i, appel´er´ecipient, avec une valeur manquantex˜ij, un groupe d’indi-vidus similaires (appel´esdonneurs) est cr´e´e `a partir des individus pour lesquels cette variable x˜i0j est observ´ee :{i0 : i0 6= itel quex˜i0j n’est pas manquant}. Cet ensemble de donneurs d´epend de l’individuilui-mˆeme. Il est appel´e groupe de donneurs et est not´eD(i).

Un des donneurs est finalement choisi al´eatoirement parmi les individus appartenant `aD(i).

La valeur dex˜i0j est utilis´ee pour imputerx˜ij. L’imputation hot-deck permet g´en´eralement de pr´eserver la distribution des variables et ne sous-estime pas la variance [73]. Les va-leurs imput´ees ´etant des valeurs observ´ees, elles s’av`erent donc ˆetre r´ealistes et respectent

5.2 Pr ´esentation de la m ´ethode 115

les sp´ecificit´es et caract´eristiques des variables (par exemple, la positivit´e ou le caract`ere discret).

Cependant, dans une utilisation basique de l’imputation hot-deck, la structure de corr´elation entre les variables est modifi´ee durant l’imputation puisque les diff´erentes variables manquantes pour un individuisont imput´ees ind´ependamment les unes des autres.

Pour pallier ce probl`eme dans le cas de non-r´eponse totale, [226] ont propos´e d’imputer simultan´ement toutes les variables(˜xij)j=1,...,ppar les valeurs provenant d’un seul et mˆeme donneuri0∈ D(i)dans le cadre d’un probl`eme d’int´egration de donn´ees ’omiques.

Notre approchehd-MI, sch´ematis´ee par la figure 5.2, est donc relativement proche des travaux de [226]. Nous l’adaptons pour un probl`eme d’inf´erence de r´eseau avec un jeu de donn´ees auxiliaire. Ainsi, une approche de typehot-deckest utilis´ee pour imputer des lignes enti`eres deXen utilisant de l’information de proximit´e entre individus mesur´ee avec les donn´eesY. Cette m´ethode a l’avantage de respecter les caract´eristiques initiales des donn´ees (caract`ere discret et positivit´e) et de conserver la structure de corr´elation entre les variables imput´ees. Ce dernier point est primordial pour l’inf´erence de r´eseau. La m´ethode est mise en œuvre dans un cadre d’imputation multiple permettant d’observer la stabilit´e des arˆetes inf´er´ees.

Incomplete dataset

X˜

Mduplicates ofX˜

Mimputed

datasets,X∗,m Minferred networks

Final network

Imputation hot-deck

Network inference LLGM + StARS

Combination edge frequency and thresholdr0

Figure 5.2 Aperc¸u de la m´ethode hd-MI.Les donn´ees initialesX˜ (premi`ere colonne) sont du-pliqu´eesMfois (seconde colonne). Pour chaque jeu dupliqu´e, chaque ligne manquante est imput´ee via l’approche hot-deck (troisi`eme colonne,X∗,m). Un r´eseau est inf´er´e pour chaque jeu imput´e (quatri`eme colonne) avec la m´ethode LLGM (le crit`ere StARS est utilis´e pour choisir le param`etre de r´egularisation,ρ). Pour finir, les r´eseaux sont com-bin´es en un seul en utilisant le seuilr0pour s´electionner les arˆetes les plus fr´equentes parmi lesM r´eseaux obtenus (cinqui`eme colonne).

Pour r´esumer, une m´ethode d’imputation multiple hot-deck est mis en œuvre :

1. Dans un premier temps, pour tous les individus manquants dansX, i˜ =n1+ 1, . . . , n, le groupe de donneursD(i)est cr´e´e et contient tous les individusi0n1 qui sont similaires `a l’individui. Pour estimer cette similarit´e entre les individus, les donn´ees auxiliairesY sont utilis´ees. Diff´erentes similarit´es peuvent ˆetre calcul´ees entre les individus sur ce jeu de donn´eesY. Parmi elles, nous proposons d’utiliser un score

d’affinit´e, propos´e dans [58]. Ce score d’affinit´e est calcul´e pour tous les individusi0

dans laquelleσest un seuil fix´e. Le groupe de donneurs est alors d´efini parD(i) = {i0:s(i, i0) = maxl=1,...,n1s(i, l)}. Le score correspond au nombre moyen de variables observ´ees pour lesquelles les individusieti0sontproches;

2. Dans un second temps, un individu i0 est choisi al´eatoirement dans le groupe de donneursD(i). La ligne enti`ereideX˜ est imput´ee par la lignei0 deX. Cette ´˜ etape est r´ep´et´ee pour touti=n1+ 1, . . . , npour produire un jeu de donn´ee complet, not´eX. Dans le contexte de l’imputation multiple, cette proc´edure est r´ep´et´eeM fois afin de produireM jeux de donn´ees completsX∗,m. La seconde ´etape de l’analyse consiste alors

`

a inf´erer un r´eseau pour chacun de ces jeux de donn´ees complets en utilisant le mod`ele log-lin´eaire de Poisson (LLGM), propos´e par [6]. LesM r´eseaux sont finalement combin´es en un seul r´eseau. Pour cela, nous ´etudions le nombre de fois o`u une arˆete est pr´edite parmi cesM r´eseaux :

r(e) = nombre de fois o`u l’arˆeteeest pr´edite

M .

Un seuil de fiabilit´e,r0, est finalement choisi et le r´eseau final est compos´e des arˆetesetel que r(e)r0. Cette approche est similaire au crit`ere de stabilit´e d´ecrit par [143]. L’incertitude de l’imputation est trait´ee de la mˆeme fac¸on que les approches standards pour am´eliorer la qualit´e de l’inf´erence de r´eseau [8, 17]. Ces travaux utilisent pour cela des poids moyens ou des rangs moyens entre plusieurs r´eseaux provenant de diff´erents r´e-´echantillonnages ou d’exp´erimentations ind´ependantes.

Finalement, hd-MI ne requiert pas d’ajuster un nombre trop important d’hyperpa-ram`etres. Un param`etre, σ, est `a d´efinir pour le groupe de donneur D(i). Il convient

´

egalement de choisirM, le nombre de fois o`u l’imputation hot-deck est appliqu´ee. L’´etape de combinaison requiert ´egalement de d´efinir le seuil de fiabilit´er0. Un param`etre est ´egalement

`

a choisir lors de l’inf´erence du r´eseau : le param`etre de r´egularisationρ. Les choix de ces param`etres sont discut´es dans la section suivante.

Dans le document TH `ESE TH `ESE (Page 114-117)