• Aucun résultat trouvé

Approche bayésienne des modèles à équations structurelles

N/A
N/A
Protected

Academic year: 2021

Partager "Approche bayésienne des modèles à équations structurelles"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: inria-00494790

https://hal.inria.fr/inria-00494790

Submitted on 24 Jun 2010

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Approche bayésienne des modèles à équations structurelles

Séverine Demeyer, Nicolas Fischer, Gilbert Saporta

To cite this version:

Séverine Demeyer, Nicolas Fischer, Gilbert Saporta. Approche bayésienne des modèles à équations

structurelles. 42èmes Journées de Statistique, 2010, Marseille, France, France. �inria-00494790�

(2)

Approche bay´ esienne des mod` eles ` a ´ equations structurelles

S´ everine Demeyer 1,2 & Nicolas Fischer 1 & Gilbert Saporta 2

1 LNE, Laboratoire National de M´ etrologie et d’Essais

29 avenue Roger Hennequin, 78197 Trappes, France, severine.demeyer@lne.fr

2 Chaire de statistique appliqu´ ee & CEDRIC, CNAM 292 rue Saint Martin, Paris, France

R´ esum´ e

Les mod` eles ` a ´ equations structurelles (SEMs) sont des mod` eles multivari´ es ` a variables la- tentes utilis´ es pour mod´ eliser les structures de causalit´ e dans les donn´ ees. Une approche bay´ esienne d’estimation et de validation des mod` eles SEMs est propos´ ee et l’identifiabilit´ e des param` etres est ´ etudi´ ee. Cette ´ etude montre qu’une ´ etape de r´ eduction des vari- ables latentes au sein de l’algorithme de Gibbs permet de garantir l’identifiabilit´ e des param` etres. Cette heuristique permet en fait d’introduire les contraintes d’identifiabilit´ e dans l’analyse. Pour illustrer ce point, les contraintes d’identifiabilit´ e sont calcul´ ees dans une application en marketing, dans laquelle les distributions des contraintes sont obtenues par combinaisons des tirages a posteriori des param` etres.

Abstract

Structural equation models (SEMs) are multivariate latent variable models used to model causality structures in data. A Bayesian estimation and validation of SEMs is proposed and identifiability of parameters is studied. The latter study shows that latent variables should be standardized in the analysis to ensure identifiability. This heuristics is in fact introduced to deal with complex identifiability constraints. To illustrate the point, iden- tifiability constraints are calculated in a marketing application, in which posterior draws of the constraints are derived from the posterior conditional distributions of parameters.

Mots cl´ es : mod` eles ` a ´ equations structurelles, variables latentes, algorithme de Gibbs, identifiabilit´ e, m´ ethodes bay´ esiennes, marketing

1 Mod` eles ` a ´ equations structurelles

1.1 Contexte

Les variables observ´ ees (manifestes) sont group´ ees puis associ´ ees aux variables latentes

dans le mod` ele externe (mod` ele de mesure) et les relations de causalit´ e entre les variables

(3)

latentes sont repr´ esent´ ees dans le mod` ele interne (structurel) Cette situation est typique des ´ etudes de satisfaction en marketing, comme illustr´ e dans l’application, o` u les variables observ´ ees sont des questions regroup´ ees selon des th´ ematiques et les variables latentes sont ces th´ ematiques, ` a savoir la satisfaction, la fid´ elit´ e et l’image (voir figure 3).

1.2 Mod` ele

Le vecteur ligne Y i des valeurs observ´ ees pour l’individu i sur les p variables manifestes est exprim´ e en fonction du vecteur ligne Z i de ses scores sur les q variables latentes, par le mod` ele de r´ egression suivant (appel´ e le mod` ele de mesure) :

Y i = Z i θ + ε i , 1 ≤ i ≤ n (1)

avec ε i ∼ N (0, Σ ε ) et o` u θ est la matrice p × q des coefficients de r´ egression.

Si Z i ´ etait connu, le mod` ele de mesure (1) serait un mod` ele de r´ egression lin´ eaire clas- sique. En notant H i les variables latentes endog` enes et Ξ i les variables latentes exog` enes, les ´ equations structurelles sont donn´ ees de mani` ere ´ equivalente par les trois expressions :

H i = H i Π + Ξ i Γ + δ i

H i = Z i Λ + δ i Λ t = Π t Γ t Π t 0 H i = Γ t Ξ i + δ i Π 0 = Id − Π

(2) o` u Π est la matrice q 1 × q 1 des coefficients de r´ egression entre les variables latentes endog` enes , Γ est la matrice q 2 ×q 1 des coefficients de r´ egression entre les variables latentes endog` enes et exog` enes, δ i est ind´ ependant de Ξ i , δ i ∼ N (0, Σ δ ), et Ξ i ∼ N (0, Φ).

1.3 Etude de l’identifiabilit´ e des param` etres

Garantir l’identifiabilit´ e des mod` eles ` a ´ equations structurelles est ´ equivalent ` a v´ erifier l’injectivit´ e de la fonction de vraisemblance int´ egr´ ee sur les variables latentes. En notant Θ = {θ, Σ ε , Π 0 , Γ, Σ δ , Φ} l’ensemble des param` etres du mod` eles, l’identifiabilit´ e s’´ ecrit :

∀Y i , [Y i |Θ] = h Y i | Θ ˜ i

= ⇒ Θ = ˜ Θ (3)

o` u Y i est marginalement distribu´ e N (0, Σ Y ) et Σ Y = θ t Σ Z θ + Σ ε o` u Σ Z est la matrice de covariance des variables latentes.

En notant de plus θ k = (θ k1 . . . θ kn

k

), le vecteur des coefficients de r´ egression du bloc k et Σ Z = {ρ ij , 1 ≤ i, j ≤ K}, Σ Y est la matrice bloc :

Σ Y =

ρ 11 θ 1 θ 1 t + Σ ε1 ρ 12 θ 1 θ 2 t . . . ρ 1K θ 1 θ K t ρ 12 θ 1 θ t 2 ρ 22 θ 2 θ t 2 + Σ ε2 . . . .. .

.. .

ρ 1K θ 1 θ t K . . . . . . ρ KK θ K θ t K + Σ εK

(4)

(4)

La d´ efinition de l’identifiabilit´ e (3) appliqu´ ee ` a une vraisemblance gaussienne donne Σ Y = ˜ Σ Y . Les ´ equations d’identifiabilit´ e qui d´ ecoulent de cette ´ egalit´ e sont :

ρ kk θ 2 ki + σ ki 2 = ˜ ρ kk θ ˜ 2 ki σ ˜ 2 ki , i = 1 . . . n k , k = 1 . . . K (5) ρ kk θ ki θ kj = ˜ ρ kk θ ˜ ki θ ˜ kj , 1 ≤ i < j ≤ n k , k = 1 . . . K (6) ρ kk

0

θ ki θ k

0

j = ˜ ρ kk

0

θ ˜ ki θ ˜ k

0

j , 1 ≤ i ≤ n k , 1 ≤ j ≤ n k

0

, k = 1 . . . K (7) Les ´ equations (5) et (6) sont obtenues en ´ egalant les ´ el´ ements bloc diagonaux de Σ Y et ˜ Σ Y et l’´ equation (7) vient de l’´ egalisation des ´ el´ ements hors des blocs diagonaux.

Si θ k1 = ˜ θ k1 et ρ kk = ρ kk

0

pour un k fix´ e, alors l’´ equation (6) donne θ kj = ˜ θ kj pour tous les j. Reporter ce r´ esultat dans l’´ equation 5 donne σ 2 ki = ˜ σ ki 2 pour tout k, i. Re- porter ce dernier r´ esultat dans l’´ equation (7) donne ρ kk

0

= ˜ ρ kk

0

pour tout k, k 0 . En cons´ equence, θ k1 = 1 and ρ kk = 1 pour tout k constitue un ensemble suffisant de condi- tions d’identifiabilit´ e.

La contrainte ρ kk = 1 s’exprime en fait en fonction des param` etres int´ erieurs, obtenue en ´ egalant ` a 1 les ´ el´ ements diagonaux de Σ Z . Cependant, la simulation a posteriori des param` etres conditionnellement ` a ces contraintes est compliqu´ ee. L’heuristique, qui consiste ` a r´ eduire les variables latentes apr` es qu’elles ont ´ et´ e tir´ ees dans leur distribution conditionnelle a posteriori, permet de contourner cette difficult´ e (voir l’application).

2 Estimation bay´ esienne des mod` eles SEM

Dans ce mod` ele ` a variables latentes, les techniques d’augmentation des donn´ ees et d’imput- ation, voir Tanner and Wong (1987), sont impl´ ement´ ees dans un algorithme de Gibbs sous des hypoth` eses de normalit´ e et de conjugaison. On se reportera ` a Box and Tiao (1973) pour les calculs dans les mod` eles multivari´ es gaussiens et ` a Gelman et al. (2004) pour des d´ etails sur l’´ echantillonneur de Gibbs. On reporte ci-dessous les expressions finales des distributions a posteriori invoqu´ ees par l’algorithme de Gibbs (voir figure 1) :

Z i |Y i , θ, Σ ε , Λ, Σ δ , Φ ∼ N DθΣ −1 ε Y i , D

, D −1 = θΣ −1 ε θ t + Σ −1 Z

θ kj |Y, Z, Σ εkj ∼ N (D kj A kj , Σ εkj D kj ) , D kj = Z k t Z k + Σ −1 ε0k −1

, A kj = Σ −1 ε0k θ 0k + Z k t Y kj Σ −1 εk1 ∼ G

n

2 + α 0εkj , β 0εkj + 1

2 (Y kj − Z k ) t (Y kj − Z k )

Σ −1 εkj ∼ G n

2 + α 0εkj , β 0εkj + 1 2

Y kj t Y kj − (D kj A kj ) t D kj −1 D kj A kj + θ 0k 2 Σ ε0k

(5)

Initialisation : θ

0

, Σ

0ε

, Λ

0

, Σ

0δ

, Φ

0

. A l’it´ eration t : 1. Z

t

∼ Z|Y, θ

t−1

, Σ

t−1ε

, Λ

t−1

, Σ

t−1δ

, Φ

t−1

2. r´ eduction des variables latentes: soit Z

∗t

la VL r´ eduite 3. Σ

tε

∼ Σ

ε

|Y, Z

∗t

, θ

t−1

, Λ

t−1

, Σ

t−1δ

, Φ

t−1

4. θ

t

∼ θ|Y, Z

∗t

, Σ

tε

, Λ

t−1

, Σ

t−1δ

, Φ

t−1

5. Σ

tδ

∼ Σ

|δ

Y, Z

∗t

, Λ

t−1

, θ

t

, Σ

tε

, Φ

t−1

6. Λ

t

∼ Λ|Y, Z

∗t

, Σ

tδ

, θ

t

, Σ

tε

, Φ

t−1

7. Φ

t

∼ Φ|Y, Z

∗t

, θ

t

, Σ

tε

, Λ

t

, Σ

tδ

Figure 1: Etapes de l’algorithme de Gibbs

Λ k |Y, Z, Σ δk ∼ N

D ˜ k A ˜ k , Σ εk D ˜ k

, D ˜ k = Z k t Z k + Σ −1 δk −1

, A ˜ k = Σ −1 δk Λ 0k + Z t H k Σ −1 δk ∼ G

n

2 + α 0δk , β 0δk + 1 2

Y k t Y k

D ˜ k A ˜ k t

D ˜ k −1 D ˜ k A ˜ k + Λ t 0k Σ −1 δk Λ 0k

Φ|Z ∼ InvW ishart Ξ t Ξ + R −1 0 , n + d 0

o` u les param` etres indic´ es par 0 sont les param` etres ` a priori des distributions conjugu´ ees correspondantes.

L’algorithme de Gibbs (voir figure 1) alterne le tirage dans les distributions condition- nelles a posteriori des param` etres sachant les donn´ ees (Etape 1) et le tirage dans les distri- butions conditionnelles a posteriori des variables latentes sachant les param` etres (Etapes 3 ` a 7). L’´ etape 2 est l’heuristique qui permet d’assurer l’identifiabilit´ e des param` etres du mod` ele en r´ eduisant les variables latentes (VL).

La validation du mod` ele peut-ˆ etre r´ ealis´ ee en calculant les ”Posterior Predictive p- values” (voir Gelman and al. (1996)). Les PP p-values sont calcul´ ees ` a partir des dis- tribution pr´ edictive a posteriori int´ egr´ ees sur les param` etres et les variables latentes. Le mod` ele n’est pas rejet´ e si la PP p-value est proche de 0.5.

3 Application

Les relations entre la fid´ elit´ e, la satisfaction et l’image sont ´ etudi´ ees dans le cadre des mod` eles ECSI sur un sous-ensemble de n = 202 individus sans donn´ ees manquantes provenant du jeu de donn´ ees de d´ emonstration du logiciel XLStat. Les variables cat´ egorielles sont centr´ ees, r´ eduites et trait´ ees comme continues. L’algorithme est impl´ ement´ e sous R.

On note θ 0 et λ 0 les valeurs a priori des param` etres. Les valeurs a priori choisies

refl` etent la confiance dans les liens de causalit´ e : θ 0 = 0.5, Λ 0 = 0.5, Σ ε0 = 1, Σ δ0 = 1

(6)

Figure 2: Distributions a posteriori des contraintes b) de gauche ` a droite θ 12 θ 22 θ 23 θ 32 θ 33 θ 34 θ 35 π 12 λ 1 λ 2 moyenne 0.774 0.705 0.784 0.605 0.457 0.732 0.658 0.475 0.307 0.796

´ ecart-type 0.060 0.051 0.053 0.063 0.067 0.059 0.059 0.127 0.130 0.047 Table 1: Coefficients de r´ egression: moyenne et ´ ecart-type a posteriori

and Φ 0 = 1. On observe une convergence rapide de l’algorithme de Gibbs pour tous les param` etres et une faible autocorr´ elation dans les ´ echantillons a posteriori. En explicitant Π 0 =

1 1

−π 12 1

et Γ = (λ 1 λ 2 ) on obtient l’expression suivante de Σ Z :

Σ Z =

λ 2 1 + Σ δ1 + π 12 λ 1 λ 2 + π 2 12 λ 2 2 + Σ δ2

λ 1 λ 2 + π 12 2 λ 2 2 + Σ δ2

Φ (λ 1 + λ 1 λ 2 ) λ 1 λ 2 + π 12 2 λ 2 2 + Σ δ2

λ 2 2 + Σ δ2 Φλ 2

Φ (λ 1 + λ 1 λ 2 ) Φλ 2 Φ

D’apr` es la section 1.3, les contraintes d’identifiabilit´ e sont (o` u les contraintes b) sont obtenues en ´ egalant ` a 1 les ´ el´ ements diagonaux de Σ Z ) :

a)θ 11 = 1, θ 21 = 1, θ 31 = 1

b)Φ = 1, λ 2 2 + Σ δ2 = 1, λ 2 1 + Σ δ1 + π 12 λ 1 λ 2 + π 2 12 λ 2 2 + Σ δ2

= 1

Des ´ echantillons a posteriori de ces contraintes sont calcul´ es ` a partir des ´ echantillons a posteriori des param` etres. Ces distributions sont centr´ ees en 1 avec une faible dispersion comme le montre la figure 2, ce qui est en faveur de l’heuristique.

Les valeurs d’int´ erˆ et pour cette application sont les corr´ elations entre les variables manifestes et les variables latentes et entre les variables latentes. Dans la table 1, θ 12 , θ 22 , θ 23 , θ 32 , θ 3334 , θ 35 et λ 2 sont des coefficients de corr´ elation alors que π 12 et λ 1 sont les co- efficients d’une r´ egression multiple. Satisfaction et Image sont fortement corr´ el´ ees (0.796, voir table 1), ce qui signifie que l’Image a une influence importante sur la Satisfaction.

Toutes les corr´ elations sont repr´ esent´ ees dans le graphique de la figure 3.

La PP p-value de 0.37 < 0.5 vient de ce que les donn´ ees, cat´ egorielles, ne suivent pas

des lois gaussiennes. Il demeure que cet exemple illustre des caract´ eristiques int´ eressantes

(7)

Figure 3: Graphique des corr´ elations

des approches bay´ esiennes, comme les tests d’hypoth` eses avec les PPp-values et la possi- bilit´ e d’observer la variabilit´ e des param` etres et la variabilit´ e de fonctions des param` etres.

4 Conclusion et perspectives

Les distributions a posteriori des param` etres des mod` eles SEMs sont calcul´ ees sous les hy- poth` eses de normalit´ e et de conjugaison. Ces distributions permettent d’´ etudier diff´ erents aspects du mod` ele comme la variabilit´ e des param` etres et de fonctions de param` etres et aussi de r´ ealiser des tests d’hypoth` eses. L’algorithme de Gibbs propos´ e pour prendre en compte les contraintes d’identifiablit´ e converge rapidement avec de faibles autocorr´ elations des simulations a posteriori, r´ eduisant ainsi le nombre de simulations n´ ecessaires. La suite de ce travail consiste en l’´ etude des mod` eles SEMs sur donn´ ees manifestes cat´ egorielles.

Bibliographie

[1] Box, G. E. P. et Tiao G.C. (1973) Bayesian Inference in Statistical Analysis, Wiley.

[2] Gelman, A., Meng, X. L. et Stern, H. (1996) Posterior Predictive Assessment of Model Fitness via Realized Discrepancies. Statistica Sinica, 6, 733-807.

[3] Gelman, A., Carlin, J.B., Stern, H.S., Rubin, D.B. (2004) Bayesian Data Analysis, Chapman & Hall/CRC.

[4] Lee, S. Y. (2007) Structural Equation Modelling: A Bayesian Approach, Wiley.

[5] Palomo, J., Dunson, D. B. and Bollen, K. (2007) Bayesian Structural Equation Model- ing. In: S. Y. Lee (Ed): Handbook of latent variable and related models, Elsevier, 163–188.

[6] Tanner, M.A., Wong, W.H. (1987) The Calculation of Posterior Distributions by Data

Augmentation, Journal of the American Statistical Association, 82, 528–540.

Références

Documents relatifs

(2003) apply the same model to unemployment rate estimation for the Canadian Labour Force Survey using shorter time series data and do not consider seasonal adjustments.. In this

hi´ erarchique R´ eponse Normale Introduit les Mod` eles de Markov Latents en SAE Enquˆ ete LFS: donn´ ees trimestrielles 2004-2014.. Meilleure Pr´ ediction Empirique SAE avec donn´

En r ´ealit ´e le m ´ecanisme est plus complexe, c’est une r ´eaction d’autocatalyse dans laquelle interviennent plusieurs r ´eactions avec des vitesses de diff ´erents ordres

On veut utiliser un mod`ele d’Ising (avec la convention, potentiel de valeur 0 quand les deux sites voisins sont de mˆeme classe et β quand les deux sites voisins sont dans des

Ecrire l’´ equation et les hypoth` eses d´ efinissant un mod` ele de r´ egression pour la variable r´ eponse Y repr´ esentant le prix d’une bouteille d’un certain vin AOC

l’algorithme EM pour l’estimation dans les mod` eles de mixture l’estimation des Chaˆınes de Markov Cach´ ees. nous avons vu la n´ ecessit´ e de faire des calculs de

Th´ eor` eme quantile : besoin d’un terme suppl´

Dans le cas o` u le nombre total de politiques stationnaires est fini (e.g., si X et U le sont), on peut remplacer “&gt; ” par “&gt; 0” et l’algorithme s’arrˆ ete toujours