Pr ´esentation de la m ´ethode - Donn´ ees manquantes et inf´ erence de r´ eseau

Donn´ ees manquantes et inf´ erence de r´ eseau

5.2 Pr ´esentation de la m ´ethode

5.2.1 Notations

Dans la suite de ce chapitre,Xcorrespond au jeu de données RNA-Seq avecn1lignes (n₁individus) etpcolonnes (pgènes). Le comptage du gènej,j ∈ {1, . . . , p}, pour l’individu i,i∈ {1, . . . , n1}est notéxij. Des données auxiliaires ont également été obtenues sur cesn1

individus et sur d’autres individus. On noteYla matrice de dimensionn×qavecn > n₁ contenant ces données.yijcorrespond à l’observation de la variablej,j∈ {1, . . . , q}, pour l’individui,i∈ {1, . . . , n}. Sans perte de généralité, les individus communs entreXetY sont supposés correspondre auxn1premières lignes deY. Ce problème peut alors être vu

comme un probl`eme de donn´ees manquantes dans la matriceX,˜ Y

de dimensionn×(p+q) dans laquelle,x˜iest d´efini par :

( x_i ∀i= 1, . . . , n₁

xiest manquant ∀i≥n1+ 1 .

Une telle structure de données manquantes est appelée non-réponse totale (unit non-response, en anglais) puisque les valeurs manquantes correspondent `a l’absence totale d’un individu (autrement dit aucune variable n’est observée pour cet individu). La figure 5.1 permet de représenter schématiquement cette structure de données manquantes.

X˜ Y

Figure 5.1 Schéma des données manquantes dans le jeu de données d’expression RNA-Seq (X) et˜ dans le jeu auxiliaire (Y).

Les individus manquantsi∈ {n1+ 1, . . . , n}du jeu de donn´ees RNA-Seq sont suppos´es ˆ

etre MCAR. Il s’agit d’une hypothèse standard si les individus n’ont pas été choisis selon une caractéristique spécifique parmi {1, . . . , n}mais qu’ils ont été sélectionnés aléatoirement ou à cause de contraintes techniques comme une expérience ratée, un manque de tissu ou encore à cause de contraintes financières.

5.2.2 Imputation multiple hot-deck (hd-MI)

Une grande variété de méthodes permet d’imputer des valeurs manquantes [73, 133].

Néanmoins, la plupart de ces méthodes impute les valeurs manquantes indépendamment les unes des autres. Dans notre cas, nous devons faire face à deux problématiques : tout d’abord, ce sont des individus en entier (et non quelques variables) qui sont considérés comme manquants. Deuxièmement, dans le contexte de l’inférence de réseau, il est important de préserver, lors de l’imputation, la structure de corrélation entre les variables. Or, les méthodes usuelles d’imputation ne remplissent pas ce critère.

L’imputation hot-deck est souvent utilisée pour imputer des problèmes de non-réponse totale dans les sondages [11]. Cette méthode est basée sur le concept de donneurs. Pour chaque individu,i, appel´erécipient, avec une valeur manquantex˜ij, un groupe d’indi-vidus similaires (appelésdonneurs) est créé à partir des individus pour lesquels cette variable x˜i⁰j est observée :{i⁰ : i⁰ 6= itel quex˜i⁰j n’est pas manquant}. Cet ensemble de donneurs dépend de l’individuilui-même. Il est appelé groupe de donneurs et est notéD(i).

Un des donneurs est finalement choisi al´eatoirement parmi les individus appartenant `aD(i).

La valeur dex˜i⁰j est utilisée pour imputerx˜ij. L’imputation hot-deck permet généralement de préserver la distribution des variables et ne sous-estime pas la variance [73]. Les va-leurs imputées étant des valeurs observées, elles s’avèrent donc être réalistes et respectent

5.2 Pr ´esentation de la m ´ethode 115

les spécificités et caractéristiques des variables (par exemple, la positivité ou le caractère discret).

Cependant, dans une utilisation basique de l’imputation hot-deck, la structure de corrélation entre les variables est modifiée durant l’imputation puisque les différentes variables manquantes pour un individuisont imputées indépendamment les unes des autres.

Pour pallier ce problème dans le cas de non-réponse totale, [226] ont proposé d’imputer simultanément toutes les variables(˜x_ij)_j=1,...,ppar les valeurs provenant d’un seul et même donneuri⁰∈ D(i)dans le cadre d’un problème d’intégration de données ’omiques.

Notre approchehd-MI, schématisée par la figure 5.2, est donc relativement proche des travaux de [226]. Nous l’adaptons pour un problème d’inférence de réseau avec un jeu de données auxiliaire. Ainsi, une approche de typehot-deckest utilisée pour imputer des lignes entières deXen utilisant de l’information de proximité entre individus mesurée avec les donnéesY. Cette méthode a l’avantage de respecter les caractéristiques initiales des données (caractère discret et positivité) et de conserver la structure de corrélation entre les variables imputées. Ce dernier point est primordial pour l’inférence de réseau. La méthode est mise en œuvre dans un cadre d’imputation multiple permettant d’observer la stabilité des arêtes inférées.

Incomplete dataset

X˜

Mduplicates ofX˜

Mimputed

datasets,X^∗,m Minferred networks

Final network

Imputation hot-deck

Network inference LLGM + StARS

Combination edge frequency and thresholdr0

Figure 5.2 Aperçu de la méthode hd-MI.Les données initialesX˜ (première colonne) sont du-pliquéesMfois (seconde colonne). Pour chaque jeu dupliqué, chaque ligne manquante est imputée via l’approche hot-deck (troisième colonne,X^∗,m). Un réseau est inféré pour chaque jeu imputé (quatrième colonne) avec la méthode LLGM (le critère StARS est utilisé pour choisir le paramètre de régularisation,ρ). Pour finir, les r´eseaux sont com-binés en un seul en utilisant le seuilr0pour sélectionner les arêtes les plus fréquentes parmi lesM réseaux obtenus (cinquième colonne).

Pour r´esumer, une m´ethode d’imputation multiple hot-deck est mis en œuvre :

1. Dans un premier temps, pour tous les individus manquants dansX, i˜ =n1+ 1, . . . , n, le groupe de donneursD(i)est créé et contient tous les individusi⁰ ≤ n1 qui sont similaires à l’individui. Pour estimer cette similarité entre les individus, les données auxiliairesY sont utilisées. Différentes similarités peuvent être calculées entre les individus sur ce jeu de donnéesY. Parmi elles, nous proposons d’utiliser un score

d’affinité, proposé dans [58]. Ce score d’affinité est calculé pour tous les individusi⁰

dans laquelleσest un seuil fixé. Le groupe de donneurs est alors défini parD(i) = {i⁰:s(i, i⁰) = maxl=1,...,n₁s(i, l)}. Le score correspond au nombre moyen de variables observées pour lesquelles les individusieti⁰sontproches;

2. Dans un second temps, un individu i⁰ est choisi aléatoirement dans le groupe de donneursD(i). La ligne entièreideX˜ est imputée par la lignei⁰ deX. Cette ´˜ etape est répétée pour touti=n1+ 1, . . . , npour produire un jeu de donnée complet, notéX^∗. Dans le contexte de l’imputation multiple, cette procédure est répétéeM fois afin de produireM jeux de données completsX^∗,m. La seconde étape de l’analyse consiste alors

a inférer un réseau pour chacun de ces jeux de données complets en utilisant le modèle log-linéaire de Poisson (LLGM), proposé par [6]. LesM réseaux sont finalement combinés en un seul réseau. Pour cela, nous étudions le nombre de fois où une arête est prédite parmi cesM réseaux :

r(e) = nombre de fois où l’arêteeest prédite

M .

Un seuil de fiabilité,r0, est finalement choisi et le réseau final est composé des arêtesetel que r(e)≥r₀. Cette approche est similaire au critère de stabilité décrit par [143]. L’incertitude de l’imputation est traitée de la même façon que les approches standards pour améliorer la qualité de l’inférence de réseau [8, 17]. Ces travaux utilisent pour cela des poids moyens ou des rangs moyens entre plusieurs réseaux provenant de différents ré-échantillonnages ou d’expérimentations indépendantes.

Finalement, hd-MI ne requiert pas d’ajuster un nombre trop important d’hyperpa-ramètres. Un paramètre, σ, est `a définir pour le groupe de donneur D(i). Il convient

egalement de choisirM, le nombre de fois où l’imputation hot-deck est appliquée. L’étape de combinaison requiert également de définir le seuil de fiabilitér0. Un paramètre est également

a choisir lors de l’inférence du réseau : le paramètre de régularisationρ. Les choix de ces paramètres sont discutés dans la section suivante.

Dans le document TH `ESE TH `ESE (Page 114-117)