partie III Un mod` ele hi´ erarchique pour donn´ ees multivari´ ees de types
6.3 Limites et extensions
6.3.3 Extensions du mod`ele non explor´ees dans cette th`ese
a travers des variables Y
j, c’est la corr´elation des variables latentes qui va nous int´eresser.
Supposons par exemple que l’on veut mod´eliser les donn´ees d’abondances de deux esp`eces,
qui correspondent toutes les deux `a la surface occup´ee par chaque esp`ece, mais que l’une a
´et´e r´ecolt´ee comme une donn´ee continue et l’autre comme une donn´ee ordinale. L’utilisation
d’un mod`ele gaussien sousjacent se justifie alors par la volont´e de mod´eliser les variables
latentes d’int´erˆet, c’est-`a-dire les surfaces occup´ees par chacune des deux esp`eces, et dans
ce cas c’est bien la corr´elation de la loi gaussienne sousjacente qui nous int´eresse.
L’in-terpr´etation de la corr´elation de la loi gaussienne latente n’est pas aussi directe lorsqu’on
n’a pas d’interpr´etation du vecteur de variables latentes.
Aller plus loin dans la description de la d´ependance : les copules
Pour d´ecrire des structures de d´ependance plus complexes entre variables, les copules
peuvent ˆetre utilis´ees (Hoff, 2007; Nikoloulopoulos & Karlis, 2008; Drouet-Mari & Kotz,
2001; Genest & Favre, 2007). Les copules sont des distributions multivari´ees avec des
mar-ginales uniformes. L’utilisation des copules permet de d´ecrire les effets de la d´ependance
entre variables ind´ependemment des distributions marginales. La formulation d’une
distri-bution multivari´ee en utilisant une copule se base sur l’id´ee qu’il existe une transformation
simple pour chaque variable marginale telle que la variable transform´ee suive une
distri-bution uniforme. La structure de d´ependance peut ensuite ˆetre exprim´ee par une copule,
comme une distribution multivari´ee ayant des marginales uniformes. Il est possible ainsi de
g´en´erer des distributions multivari´ees avec des distributions marginales donn´ees. La forme
de la d´ependance vient du choix de la copule. De nombreuses copules ont ´et´e propos´ees et
´etudi´ees (voir Drouet-Mari & Kotz, 2001;Nikoloulopoulos & Karlis,2008).
6.3.3 Extensions du mod`ele non explor´ees dans cette th`ese
Dans cette th`ese nous avons choisi d’´etendre ce mod`ele `a un m´elange fini pour la
classi-fication automatique de donn´ees de types diff´erents. De nombreuses autres extensions de ce
mod`ele sont possibles, dont plusieurs ont d´ej`a ´et´e propos´ees, notamment dans la litt´erature
des mod`eles lin´eaires g´en´eralis´es `a effets mixtes (GLMM ou Generalized Linear Mixed
6.3 Limites et extensions 77
Les donn´ees ordinales
Nous n’avons pas pr´esent´e d’exemple de mod´elisation de donn´ees ordinales dans le
cha-pitre 7. Plusieurs mod´elisations pour donn´ees ordinales et donn´ees mixtes continues et
ordinales ont ´et´e propos´ees dans la litt´erature. Everitt(1988) propose de cr´e´er des variables
ordinales `a partir de variables latentes continues par seuillage. Cette m´ethode est
directe-ment utilisable dans notre cas.
Une approche diff´erente a ´et´e propos´ee parOlkin & Tate(1961) qui pr´esentent le “mod`ele
de localisation” pour donn´ees mixtes cat´egorielles et continues (location model for mixed
data), qui consiste `a remplacer les donn´ees cat´egorielles observ´ees `a un site par la r´ealisation
d’une multinomiale `amcellules, avecm=P
qi=1m
i, o`u lai
`emevariable cat´egorielle poss`ede
m
imodalit´es. Dans ce cas les variables cat´egorielles ne sont pas n´ecessairement ordonn´ees,
et cette m´ethode ne tient pas compte de l’ordre.
EnfinChagneau et al.(2010) s’appuient sur les travaux deChib & Greenberg (1998) et
Chaubert et al.(2010) pour d´efinir des variables ordinales.
L’hypoth`ese de normalit´e
Une extension possible du mod`ele hi´erarchique pr´esent´e consisterait `a relˆacher
l’hy-poth`ese de normalit´e pour la distribution de la variable latente. Ceci peut amener plus
de flexibilit´e quant aux formes des lois finales obtenues et aboutirait dans certains cas `a
des mod`eles d´ej`a existants (par exemple dans le cas d’une loi Gamma en couche latente,
combin´ee avec des lois de Poisson en couche d’observation). Cependant, mis `a part la loi
normale, dont les propri´et´es sont remarquables et bien connues dans le cas multivari´e, la
plupart des autres lois usuelles ne sont pas aussi interpr´etables dans le cas multivari´e, et
leurs propri´et´es sont souvent m´econnues et ont rarement fait l’objet d’´etudes approfondies.
Cette g´en´eralisation demanderait donc une ´etude approfondie des propri´et´es d’autres lois
potentielles dans le cas multivari´e (telle que la loi Gamma), et nous devrions faire face `a
des difficult´es d’estimation et d’interpr´etation.
Pour toutes ces raisons, nous nous sommes limit´es ici `a la loi normale en couche latente
car ce mod`ele, d´ej`a assez riche, n’est qu’une premi`ere ´etape, dont le but est d’ˆetre int´egr´e
dans un mod`ele plus riche encore de m´elange fini de telles lois hi´erarchique, pour ˆetre utilis´e
en classification.
Les covariables
Une autre extension utile de ce mod`ele consiste `a prendre en compte des covariables
observ´ees, dans le cadre de mod`eles lin´eaires g´en´eralis´es `a effets mixtes (GLMM). Ceci
permettrait de mod´eliser les variables observ´ees (appel´ees variables r´eponses ou variables `a
expliquer dans le cadre GLMM) en prenant en compte des effets al´eatoires corr´el´es de types
diff´erents et des effets fixes (covariables observ´ees).
78 6 Probl´ematique : un cadre de mod´elisation et d’estimation g´en´eral pour des types de donn´ees vari´es
Plusieurs auteurs ont trait´e ce probl`eme et des mod`eles bas´es sur des variables latentes
ont ´et´e propos´es parSammel, Ryan & Legler(1997);Dunson(2000) etChib & Winkelmann
(2001).Sammel, Ryan & Legler(1997) ont propos´e un mod`ele `a variables latentes qui permet
de mod´eliser des variables r´eponses de type continu et discret. Avec les notations d´efinies en
6.1et pour une observationd-dimensionnelle i, leur mod`ele s’´ecrit de la mani`ere suivante :
(
Y
ij|θ
i∼L
j(g
−j1(θ
i)) j = 1, . . . , d
θ
i∼N(µ, σ
2),
o`u :
g
j−1(θ
i, u
i) =x
Tiβ
j=β
0j+θ
iβ
1j+u
i1β
3j+. . .+u
ipβ
(p+1)j.
et u
i= (u
i1, . . . , u
ip)
Test le vecteur des p covariables fix´ees, x
i= (1, θ
i, u
i1, . . . , u
ip)
Tet
β
j= (β
0j, . . . , β
(p+1)j)
T.
Par exemple pour une variable binaire Y
1et une variable continue Y
2, ils supposent
respectivement une fonction de lien logistique et un lien identit´e :
(
Y
i1|θ
i∼Bernoulli(1/(1 +e
−xTiβ1))
Y
i2|θ
i∼N(x
Tiβ
2, σ
22),
En fait, ils ´etudient seulement le cas univari´e, avec une seule variable latente, et se limitent
aux distributionsL de la famille exponentielle `a un param`etre. Conditionnellement `a la
va-riable latente, les vava-riables observ´ees sont suppos´ees ind´ependantes. Ils illustrent leur mod`ele
par une ´etude concernant les effets de l’utilisation d’un m´edicament anticonvulsant pendant
la grossesse sur le d´eveloppement de d´efauts `a la naissance. Les donn´ees observ´ees (variables
d’int´erˆet) contiennent des mesures de taille (variables continues) et des indicateurs binaires
d’anomalies physiques (variables discr`etes). Ils consid`erent que ces variables r´eponses sont
dues `a un score de s´ev´erit´e/gravit´e non observ´e qui correspond `a la variable continue latente
de leur mod`ele. Ils estiment les param`etres grˆace `a un algorithme EM et proposent pour
l’´etape E, qui n’admet pas toujours de solution analytique, soit une int´egration num´erique
(par la quadrature de Gauss-Hermite), soit une ´etape de Monte Carlo.
Dunson (2000) propose des mod`eles bay´esiens latents pour des variables r´eponses de
types diff´erents. Le travail de Dunson (2000) est pr´esent´e dans un cadre tr`es g´en´eral qui
inclut le GLMM et le mod`ele deSammel, Ryan & Legler (1997). Le choix des distributions
est laiss´e libre pour chaque couche du mod`ele. Il propose une estimation dans un cadre
bay´esien avec des proc´edures MCMC. Chib & Winkelmann (2001) pr´esentent un mod`ele
pour l’analyse de donn´ees de comptages corr´el´es. Leur mod`ele s’inspire du mod`ele MPLN
de Aitchison & Ho(1989) qu’ils adaptent au cadre GLMM en introduisant des covariables.
Dans ce cas ´egalement l’estimation se fait par MCMC.
L’autocorr´elation spatiale
Enfin ce mod`ele pourrait ˆetre g´en´eralis´e pour des donn´ees spatiales en introduisant
ex-plicitement des mod`eles d’autocorr´elation spatiale. Ce type de mod`eles a d´ej`a ´et´e explor´e
6.3 Limites et extensions 79
dans un cadre GLMM. Diggle, Tawn & Moyeed (1998) ont ´et´e les premiers `a proposer
des mod`eles lin´eaires g´en´eralis´es mixtes (GLMM) `a un effet al´eatoire spatialement corr´el´e.
Il s’agit de mod`eles hi´erarchiques, dans lesquels la couche latente est mod´elis´ee par un
champ gaussien. Conditionnellement `a ce champ gaussien les observations sont consid´er´ees
ind´ependantes spatialement. Dans ce cadre, Desassis (2007) utilise la mˆeme m´ethode
d’es-timation que nous (MCEM de Booth & Hobert, 1999). Tr`es r´ecemment, Chagneau et al.
(2010) ont g´en´eralis´e ces mod`eles au cas multivari´e. Ils utilisent des processus gaussiens
latents corr´el´es pour introduire la d´ependance entre variables tout en tenant compte de
l’autocorr´elation spatiale. Comme dans notre cas, leur mod`ele est pr´evu pour prendre en
compte des donn´ees de types diff´erents. Ils proposent d’estimer les param`etres de leur mod`ele
par une approche bay´esienne par MCMC.
7
A Hierarchical Model for Multivariate Data of Different
Types and Maximum Likelihood Estimation
By Vera Georgescu
1,∗, Nicolas Desassis
2, Samuel Soubeyrand
1, Andr´e Kretzschmar
1, Rachid
Senoussi
1submitted to Statistics and Computing
1
INRA, UR546 Biostatistique et Processus Spatiaux, Agroparc, F-84914 Avignon, France
2
Ecole Nationale sup´erieure des Mines de Paris, Centre de G´eosciences, F-77300 Fontainebleau, France´
∗