• Aucun résultat trouvé

5.2.1

Notations

Dans la suite de ce chapitre, X correspond au jeu de donn´ees RNA-Seq avec n1lignes

(n1individus) et p colonnes (p g`enes). Le comptage du g`ene j, j ∈ {1, . . . , p}, pour l’individu i, i ∈ {1, . . . , n1} est not´e xij. Des donn´ees auxiliaires ont ´egalement ´et´e obtenues sur ces n1

individus et sur d’autres individus. On note Y la matrice de dimension n × q avec n > n1

contenant ces donn´ees. yijcorrespond `a l’observation de la variable j, j ∈ {1, . . . , q}, pour l’individu i, i ∈ {1, . . . , n}. Sans perte de g´en´eralit´e, les individus communs entre X et Y sont suppos´es correspondre aux n1premi`eres lignes de Y. Ce probl`eme peut alors ˆetre vu

comme un probl`eme de donn´ees manquantes dans la matrice˜

X, Y de dimension n×(p+q) dans laquelle, ˜xiest d´efini par :

(

xi ∀i = 1, . . . , n1

˜

xiest manquant ∀i ≥ n1+ 1 .

Une telle structure de donn´ees manquantes est appel´ee non-r´eponse totale (unit non-

response, en anglais) puisque les valeurs manquantes correspondent `a l’absence totale d’un individu (autrement dit aucune variable n’est observ´ee pour cet individu). La figure 5.1 permet de repr´esenter sch´ematiquement cette structure de donn´ees manquantes.

˜

X Y

Figure 5.1 Sch´ema des donn´ees manquantes dans le jeu de donn´ees d’expression RNA-Seq ( ˜X) et

dans le jeu auxiliaire (Y).

Les individus manquants i ∈ {n1+ 1, . . . , n}du jeu de donn´ees RNA-Seq sont suppos´es

ˆ

etre MCAR. Il s’agit d’une hypoth`ese standard si les individus n’ont pas ´et´e choisis selon une caract´eristique sp´ecifique parmi {1, . . . , n} mais qu’ils ont ´et´e s´electionn´es al´eatoirement ou `a cause de contraintes techniques comme une exp´erience rat´ee, un manque de tissu ou encore `a cause de contraintes financi`eres.

5.2.2

Imputation multiple hot-deck (hd-MI)

Une grande vari´et´e de m´ethodes permet d’imputer des valeurs manquantes [73, 133]. N´eanmoins, la plupart de ces m´ethodes impute les valeurs manquantes ind´ependamment les unes des autres. Dans notre cas, nous devons faire face `a deux probl´ematiques : tout d’abord, ce sont des individus en entier (et non quelques variables) qui sont consid´er´es comme manquants. Deuxi`emement, dans le contexte de l’inf´erence de r´eseau, il est important de pr´eserver, lors de l’imputation, la structure de corr´elation entre les variables. Or, les m´ethodes usuelles d’imputation ne remplissent pas ce crit`ere.

L’imputation hot-deck est souvent utilis´ee pour imputer des probl`emes de non-r´eponse totale dans les sondages [11]. Cette m´ethode est bas´ee sur le concept de donneurs. Pour chaque individu, i, appel´er´ecipient, avec une valeur manquante ˜xij, un groupe d’indi-

vidus similaires (appel´esdonneurs) est cr´e´e `a partir des individus pour lesquels cette

variable ˜xi0j est observ´ee : {i0 : i0 6= i tel que ˜xi0j n’est pas manquant}. Cet ensemble de

donneurs d´epend de l’individu i lui-mˆeme. Il est appel´e groupe de donneurs et est not´e D(i). Un des donneurs est finalement choisi al´eatoirement parmi les individus appartenant `a D(i). La valeur de ˜xi0j est utilis´ee pour imputer ˜xij. L’imputation hot-deck permet g´en´eralement

de pr´eserver la distribution des variables et ne sous-estime pas la variance [73]. Les va- leurs imput´ees ´etant des valeurs observ´ees, elles s’av`erent donc ˆetre r´ealistes et respectent

les sp´ecificit´es et caract´eristiques des variables (par exemple, la positivit´e ou le caract`ere discret).

Cependant, dans une utilisation basique de l’imputation hot-deck, la structure de corr´elation entre les variables est modifi´ee durant l’imputation puisque les diff´erentes variables manquantes pour un individu i sont imput´ees ind´ependamment les unes des autres. Pour pallier ce probl`eme dans le cas de non-r´eponse totale, [226] ont propos´e d’imputer simultan´ement toutes les variables (˜xij)j=1,...,ppar les valeurs provenant d’un seul et mˆeme donneur i0∈ D(i) dans le cadre d’un probl`eme d’int´egration de donn´ees ’omiques.

Notre approchehd-MI, sch´ematis´ee par la figure 5.2, est donc relativement proche des travaux de [226]. Nous l’adaptons pour un probl`eme d’inf´erence de r´eseau avec un jeu de donn´ees auxiliaire. Ainsi, une approche de typehot-deckest utilis´ee pour imputer des

lignes enti`eres de X en utilisant de l’information de proximit´e entre individus mesur´ee avec les donn´ees Y. Cette m´ethode a l’avantage de respecter les caract´eristiques initiales des donn´ees (caract`ere discret et positivit´e) et de conserver la structure de corr´elation entre les variables imput´ees. Ce dernier point est primordial pour l’inf´erence de r´eseau. La m´ethode est mise en œuvre dans un cadre d’imputation multiple permettant d’observer la stabilit´e des arˆetes inf´er´ees.

Incomplete dataset ˜ X M duplicates of ˜X M imputed

datasets, X∗,m M inferrednetworks

Final network Imputation hot-deck Network inference LLGM + StARS Combination edge frequency and threshold r0

Figure 5.2 Aperc¸u de la m´ethode hd-MI. Les donn´ees initiales ˜X (premi`ere colonne) sont du-

pliqu´ees M fois (seconde colonne). Pour chaque jeu dupliqu´e, chaque ligne manquante est imput´ee via l’approche hot-deck (troisi`eme colonne, X∗,m). Un r´eseau est inf´er´e

pour chaque jeu imput´e (quatri`eme colonne) avec la m´ethode LLGM (le crit`ere StARS est utilis´e pour choisir le param`etre de r´egularisation, ρ). Pour finir, les r´eseaux sont com- bin´es en un seul en utilisant le seuil r0pour s´electionner les arˆetes les plus fr´equentes

parmi les M r´eseaux obtenus (cinqui`eme colonne).

Pour r´esumer, une m´ethode d’imputation multiple hot-deck est mis en œuvre :

1. Dans un premier temps, pour tous les individus manquants dans ˜X, i = n1+ 1, . . . , n,

le groupe de donneurs D(i) est cr´e et contient tous les individus i0 ≤ n

1 qui sont

similaires `a l’individu i. Pour estimer cette similarit´e entre les individus, les donn´ees auxiliaires Y sont utilis´ees. Diff´erentes similarit´es peuvent ˆetre calcul´ees entre les individus sur ce jeu de donn´ees Y. Parmi elles, nous proposons d’utiliser un score

d’affinit´e, propos´e dans [58]. Ce score d’affinit´e est calcul´e pour tous les individus i0 de la fac¸on suivante : s(i, i0) =1 q q X j=1 I{|yij−yi0 j|<σ}

dans laquelle σ est un seuil fix´e. Le groupe de donneurs est alors d´efini par D(i) = {i0: s(i, i0) = max

l=1,...,n1s(i, l)}. Le score correspond au nombre moyen de variables

observ´ees pour lesquelles les individus i et i0sontproches;

2. Dans un second temps, un individu i0 est choisi al´eatoirement dans le groupe de

donneurs D(i). La ligne enti`ere i de ˜Xest imput´ee par la ligne i0 de ˜X. Cette ´etape est

r´ep´et´ee pour tout i = n1+ 1, . . . , npour produire un jeu de donn´ee complet, not´e X∗.

Dans le contexte de l’imputation multiple, cette proc´edure est r´ep´et´ee M fois afin de produire M jeux de donn´ees complets X∗,m. La seconde ´etape de l’analyse consiste alors

`

a inf´erer un r´eseau pour chacun de ces jeux de donn´ees complets en utilisant le mod`ele log-lin´eaire de Poisson (LLGM), propos´e par [6]. Les M r´eseaux sont finalement combin´es en un seul r´eseau. Pour cela, nous ´etudions le nombre de fois o`u une arˆete est pr´edite parmi ces M r´eseaux :

r(e) = nombre de fois o`u l’arˆete e est pr´edite

M .

Un seuil de fiabilit´e, r0, est finalement choisi et le r´eseau final est compos´e des arˆetes e tel que r(e) ≥ r0. Cette approche est similaire au crit`ere de stabilit´e d´ecrit par [143]. L’incertitude

de l’imputation est trait´ee de la mˆeme fac¸on que les approches standards pour am´eliorer la qualit´e de l’inf´erence de r´eseau [8, 17]. Ces travaux utilisent pour cela des poids moyens ou des rangs moyens entre plusieurs r´eseaux provenant de diff´erents r´e-´echantillonnages ou d’exp´erimentations ind´ependantes.

Finalement, hd-MI ne requiert pas d’ajuster un nombre trop important d’hyperpa- ram`etres. Un param`etre, σ, est `a d´efinir pour le groupe de donneur D(i). Il convient ´

egalement de choisir M , le nombre de fois o`u l’imputation hot-deck est appliqu´ee. L’´etape de combinaison requiert ´egalement de d´efinir le seuil de fiabilit´e r0. Un param`etre est ´egalement

`

a choisir lors de l’inf´erence du r´eseau : le param`etre de r´egularisation ρ. Les choix de ces param`etres sont discut´es dans la section suivante.