• Aucun résultat trouvé

Inférence de réseaux pour des données gaussiennes inflatées en zéros par double troncature

N/A
N/A
Protected

Academic year: 2021

Partager "Inférence de réseaux pour des données gaussiennes inflatées en zéros par double troncature"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-02335105

https://hal.archives-ouvertes.fr/hal-02335105

Submitted on 28 Oct 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Inférence de réseaux pour des données gaussiennes inflatées en zéros par double troncature

Clémence Karmann, Anne Gégout-Petit, Aurélie Muller-Gueudin

To cite this version:

Clémence Karmann, Anne Gégout-Petit, Aurélie Muller-Gueudin. Inférence de réseaux pour des données gaussiennes inflatées en zéros par double troncature. Journées de statistique 2019, Jun 2019, Nancy, France. �hal-02335105�

(2)

Inf´ erence de r´ eseaux pour des donn´ ees gaussiennes inflat´ ees en z´ eros par double troncature

Cl´emence Karmann1,2, Anne G´egout Petit1,2 & Aur´elie Gueudin 1,2,3

1 INRIA Nancy, ´equipe BIGS, 615 Rue du Jardin-Botanique, 54600 Villers-l`es-Nancy ; clemence.karmann@inria.fr

2 Universit´e de Lorraine, Institut Elie Cartan de Lorraine, UMR 7502 ; anne.gegout-petit@univ-lorraine.fr

3 aurelie.gueudin@univ-lorraine.fr

R´esum´e. On s’int´eresse `a inf´erer la structure de d´ependances conditionnelles dans le cas de donn´ees gaussiennes inflat´ees en z´eros par double troncature (`a droite et `a gauche). On dispose d’un p-vecteur gaussien X observ´e au travers du vecteur tronqu´e Y :=X1a≤X≤b. L’objectif est de retrouver la matrice de pr´ecision de X `a partir d’obser- vations deY. Pour ce faire, on propose une proc´edure d’estimation qui consiste `a estimer d’abord chacun des termes de la matrice de covariance par maximum de vraisemblance, puis la matrice de pr´ecision `a l’aide du graphical Lasso. On donne un r´esultat th´eorique concernant la convergence de la matrice de pr´ecision estim´ee par cette m´ethode.

Mots-cl´es.Gaussiennes tronqu´ees, inf´erence de graphe, z´ero-inflat´e, matrice de pr´ecision.

Abstract. We are interested in inferring the structure of conditional dependencies in the case of Gaussian data zero-inflated by double truncation. We have a Gaussian p- vector X observed through the truncated vector Y :=X1a≤X≤b. The objective is to find the precision matrix of X from observations of Y. To do this, we propose an estimation procedure, that consists of first estimating each of the terms of the covariance matrix by maximum likelihood estimation, and then the precision matrix using the graphical Lasso.

We give a theoretical result about the convergence of the estimated precision matrix.

Keywords. Truncated gaussian, graph inference, zero-inflated, precision matrix.

1 Mod` ele th´ eorique

Soient µ = (µj)j=1,...,p, Σ = (Σjk)1≤j,k≤p et X ∼ Np(µ,Σ). On consid`ere le vecteur Y d´efini par Yj = 1aj≤Xj≤bjXj pour tout j ∈ {1, . . . , p} o`u aj, bj ∈ R connus, tels que aj < bj. Quitte `a estimer µj et Σjj grˆace aux m´ethodes pr´esent´ees dans la litt´erature des gaussiennes univari´ees ”doublement” tronqu´ees (voir par exemple, Cohen (1957)), on se restreint ici au cas o`u X est centr´e et r´eduit, c’est-`a-dire µj = 0 et Σjj = 1 pour tout j ∈ {1, . . . , p}.

(3)

Rappelons que le mod`ele gaussien est particuli`erement appropri´e `a l’inf´erence de graphe de d´ependance conditionnelle. Ces d´ependances conditionnelles sont en effet sp´ecifi´ees par la matrice de pr´ecision Θ := (Σ)−1 du vecteur gaussien X, qui fournit facilement cette structure latente de graphe. Plus pr´ecis´ement, ce graphe contient une arˆete entre les variables Xj etXk si :

Xj ←→Xk⇐⇒Xj 6 |= Xk | (Xl)l6=j,k

⇐⇒cor(Xj, Xk |(Xl)l6=j,k)6= 0

⇐⇒Θjk 6= 0.

L’objectif est de retrouver la structure latente de graphe, donc la structure de d´ependances conditionnelles entre les variables du vecteur X donn´ee par Θ, `a partir d’observations du vecteur Y.

Ce mod`ele peut par exemple ˆetre utilis´e dans le cadre de mod´elisation d’interactions de populations microbact´eriennes. La troncature `a gauche mod´elise des ph´enom`enes li´es aux m´ethodes de r´eplications et la troncature `a droite est en fait une hypoth`ese (non restrictive) introduite pour obtenir des r´esultats th´eoriques.

2 Proc´ edure d’estimation

2.1 Premi` ere ´ etape : estimation de la matrice de covariance

On souhaite dans un premier temps estimer la matrice de covariance Σ du vecteur X

`

a partir d’observations du vecteur Y.

Estimer cette matrice de covariance de fa¸con empirique `a partir des observations Y du vecteur Y conduirait `a des r´esultats m´ediocres. Une autre id´ee pourrait ˆetre de l’es- timer par maximisation de la vraisemblance du vecteur Y. Or, cette vraisemblance est tr`es difficile `a ´ecrire. On voit que la vraisemblance d’un couple de variables du vecteur Y, donn´ee en (1), est une somme de quatre termes permettant de traiter les quatre cas possibles (selon la nullit´e de chacune des variables). Ainsi, la vraisemblance du vecteur Y se d´ecouperait en 2p termes correspondant `a des int´egrales multiples de la densit´e du vecteur gaussien X en dehors des points de troncature.

Au regard de ces difficult´es, on propose d’estimer cette matrice de covariance terme

`

a terme en se ramenant `a l’´etude des couples (Yj, Yk), j < k de variables du vecteur Y. Soit (j, k) ∈ {1, . . . , p}2, j < k. On note fjk(x, y) la densit´e du couple gaussien

(4)

(Xj, Xk)∼ N2

0 0

,

1 Σjk Σjk 1

!

. On afjk(x, y) = f(x, y,Σjk) o`u :

f(x, y, σ) = 1 2π√

1−σ2 exp

− x2−2σxy+y2 2(1−σ2)

.

La vraisemblance du couple (Yj, Yk) est Ljkjk, y) o`uycorrespond `a la r´ealisation du vecteurY et :

Ljk(σ, y) =

1

X

a,b=0

φab,jk(σ, yj, yk)nab(yj, yk), (1) avec :

— nab(yj, yk) = 1ζj=a,ζk=b o`u ζl =

1 si yl ∈[al, bl]\ {0}, 0 si yl = 0.

1

X

a,b=0

nab(yj, yk) = 1

— φ11,jk(σ, yj, yk) = f(yj, yk, σ)

— φ01,jk(σ, yj, yk) = φ01,jk(σ, yk) = Z

[aj,bj]c

f(x, yk, σ)dx

— φ10,jk(σ, yj, yk) = φ10,jk(σ, yj) = Z

[ak,bk]c

f(yj, y, σ)dy

— φ00,jk(σ, yj, yk) = φ00,jk(σ) = Z Z

[aj,bj]c×[ak,bk]c

f(x, y, σ)dxdy.

On dispose d’unn-´echantillonY:= (Y(1), . . . , Y(n)) du vecteurY. La log-vraisemblance vaut alorsL(n)jkjk,y) o`u :

L(n)jk (σ,y) =

n

X

i=1 1

X

a,b=0

nab(y(i)j , y(i)k ) log

φab,jk(σ, yj(i), yk(i))

=

n

X

i=1 i:yj(i)=y(i)k =0

log

φ00,jk(σ) +

n

X

i=1 i:yj(i)=0,yk(i)6=0

log

φ01,jk(σ, y(i)k )

+

n

X

i=1 i:yj(i)6=0,y(i)k =0

log

φ10,jk(σ, yj(i)) +

n

X

i=1 i:yj(i)6=0,yk(i)6=0

log

φ11,jk(σ, y(i)j , y(i)k ) ,

o`uy:= (y(1), . . . , y(n)) correspond `a la r´ealisation du n-´echantillon Y.

(5)

Finalement, on estime Σ par Σe(n) en estimant chacun de ses coefficients Σjk par maximisation de la log-vraisemblance de l’´echantillon du couple (Yj(i), Yk(i))i=1,...,n :

Σe(n)jk = argmax

|σ|≤1

L(n)jk (σ,y) (2)

2.2 Deuxi` eme ´ etape : estimation de la matrice de pr´ ecision

Notre objectif ´etant de retrouver le graphe sous-jacent, on va ensuite utiliser l’estima- teur de la matrice de pr´ecision Θ donn´e par le graphical Lasso introduit par Friedman et al. (2008). Le graphical Lasso est une proc´edure utilis´ee dans le mod`ele graphique gaus- sien qui consiste `a estimer la matrice de pr´ecision en maximisant la log-vraisemblance p´enalis´ee du mod`ele gaussien sur l’ensemble des matrices d´efinies positives de dimension p×p :

argmax

Θ0

log det(Θ)−trace(ΘS)−λn||Θ||1,off, o`u ||Θ||1,off =

p

P

j,k=1 j6=k

jk|, S est la matrice de covariance empirique des observations du vecteur gaussien X etλn >0 est le param`etre de la p´enalisation Lasso.

Dans notre cas, on ne peut pas obtenir la matrice de covariance empirique car les observations du vecteurX sont inaccessibles. Au lieu de calculer la matrice de covariance empirique des X comme la matrice de covariance empirique des observations du vecteur Y, on remplace cette matrice de covarianceSpar l’estimateur Σe(n) de Σ obtenu `a l’´etape pr´ec´edente. Θb(n) est donc d´efini comme l’unique solution du probl`eme d’optimisation convexe suivant :

Θb(n) = argmax

Θ0

log det(Θ)−trace(ΘeΣ(n))−λn||Θ||1,off. (3)

3 R´ esultats th´ eoriques

L’objectif de cette partie est d’´etudier les propri´et´es de Θb(n). On ´enonce au pr´ealable trois hypoth`eses :

(H1) Pour tout j < k, |Σjk| 6= 1. Ainsi, il existe δ > 0 tel que pour tout j < k,

jk|<1−δ.

(H2) Soit j < k. On consid`ere l’application g : σ ∈ [−1 +δ,1−δ] 7→ E

L(n)jk (σ,y) . Alors :

• −1 +δ et 1−δ ne sont pas des points critiques de g,

(6)

• g admet un nombre fini de points critiques,

• tous les points critiques de g, diff´erents de Σjk, sont non-d´eg´en´er´es, c’est-`a- dire :

pour tout σ6= Σjk, g0(σ) = 0 ⇒g00(σ)6= 0.

Notons que Σjk est un point critique non-d´eg´en´er´e de g.

(H3) Cette hypoth`ese est technique et ne sera pas ´enonc´ee par souci de simplicit´e. L’in- tuition sous-jacente est de limiter l’influence des termes relatifs `a des ”non-arˆetes”

sur les termes relatifs `a des arˆetes.

Voici un r´esultat interm´ediaire concernant la matrice de covariance estim´ee Σe(n), qui s’appuie sur des r´esultats r´ecents de Mei et al. (2017).

Proposition 3.1. On suppose les hypoth`eses (H1) et (H2). Soit 0 < ρ < 1. Il existe des constantes B, C et D connues telles que si n satisfait n

logn ≥ ClogB ρ

, alors la matrice de covariance estim´ee Σe(n) d´efinie par (2) v´erifie :

P

(n)−Σ

≥D s

logn

n logB ρ

!

≤ρp(p−1)

2 ,

o`u ||A|| = max

j,k∈{1,...,p}|Ajk| est la norme infinie de la matrice A vue comme un ´el´ement de Rp

2.

Avant d’´enoncer le r´esultat sur la convergence de la matrice de pr´ecision estim´eeΘb(n), introduisons encore quelques notations :

— si M ∈ Mr,m(R), A ⊂ J1, rK et B ⊂ J1, mK, MAB d´esigne la matrice extraite (mij)i∈A,j∈B,

— S = S(Θ) := E(Θ)∪ {(1,1), . . . ,(p, p)} o`u Θ = (Σ)−1 et E(Θ) = {(j, k) ∈ {1, . . . , p}2, j 6=k, Θjk 6= 0},

— Γ = Σ⊗Σo`u⊗d´esigne le produit de Kronecker. On a : Γ(j,k),(l,m) = cov(XjXk, XlXm),

— κΣ :=|||Σ||| = max

j=1,...,p p

P

k=1

jk|,

— κΓ :=

ΓSS −1

.

Th´eor`eme 3.1. On suppose (H1), (H2) et(H3). Soit c >2, Θb(n) l’unique solution de (3) et d le degr´e maximal du graphe d´efini par :

d= max

j=1,...,p

{k ∈J1, pK: Θjk 6= 0}

.

(7)

Il existe des constantes B, C et D connues telles que pour n v´erifiant n

logn > D2log Bpc

maxn

√C

D ,6(1 + 8α−1)dmax{κΣκΓ, κ3Σκ2Γ}o2

et λn = 8D α

rlogn

n log Bpc

le param`etre de p´enalisation de l’´equation Lasso (3), on a, avec probabilit´e 1− 1

pc−2 :

(a) L’estimateur Θb(n) de Θ satisfait :

||Θb(n)−Θ||≤2D(1 + 8α−1Γ

rlogn

n log Bpc .

(b) E(bΘ(n))⊂E(Θ) et l’arˆete (j, k) est correctement retrouv´ee d`es que : Θjk

>2D(1 + 8α−1Γ

rlogn

n log Bpc .

Le param`etre c du Th´eor`eme 3.1 est en fait un param`etre `a d´efinir par l’utilisateur.

Pluscest grand, plus la probabilit´e pour laquelle les deux r´esultats du th´eor`eme tiennent sera grande. En revanche, de grandes valeurs de ce param`etre c conduisent ´egalement `a de plus fortes exigences sur la taillen de l’´echantillon.

La preuve de ce r´esultat utilise les r´esultats de Ravikumar et al. (2011).

Bibliographie

Cohen, A. Clifford (1957). On the solution of estimating equations for truncated and cen- sored samples from normal populations,Biometrika, 44, pp. 225–2236.

Mei, S., Bai, Y. and Montanari, A. (2017). The landscape of empirical risk for non-convex losses, https ://arxiv.org/abs/1607.06534.

Ravikumar, P., Wainwright, M. J., Raskutti, G. and Yu, B. (2011). High-dimensional covariance estimation by minimizing `1-penalized log-determinant divergence, Electronic Journal of Statistics, 5, pp. 935–980.

Friedman, J., Hastie, T. and Tibshirani, R. (2008). Sparse inverse covariance estimation with the graphical lasso, Biostatistics, 9, pp. 432–441.

Références

Documents relatifs

Finalement, le signal sera modélisé dans ce papier comme un fouillis hétérogène SIRV de rang R M plus un bruit blanc gaussien (BBG).. Dans ce contexte, nous dérivons un algorithme

• Bref, une question bien difficile, et inutilement : la diagonalisation de la matrice 2 se fait bien plus aisée, et on embraye sur la question 3 en écrivant … Et c’est dommage

Donner une base suivant laquelle la matrice de u se décompose en deux blocs

Plus généralement, on doit se rappeler qu’une matrice triangulaire est inversible si, et seulement si, ses éléments diagonaux sont non nuls.. Or, il n’est pas difficile

Trouver une condition sur b pour que la fonction ϕ(x) soit une contraction sur l’in- tervalle [1,

[r]

Dans le cas particulier où 03B3 = 1 et 8 == 1, nous obtenons les fonctions d’influence des corrélations canoniques et vecteurs canoniques où l’ estimateur de la

suivent s’inscrit dans le cadre d’une étude de ce type portant sur la prévision de l’équipement 1970 des ménages en appareils de chauffage.. Une étude