• Aucun résultat trouvé

Un mauvais diagnostic de la co-infection entre arbovirus et paludisme peut augmenter la propagation des maladies arbovirales dans les zones o`u les tests ne sont pas accessibles. Cette ´etude propose une m´ethodologie statistique qui pourra aider le m´edecin `a ´elaborer un bon diagnostic de la co-infection en cas de paludisme, mais aussi lui offrir une re-commandation de traitement en cas de co-infection. L’un des principaux objectifs de ce chapitre ´etait de disposer d’une proc´edure qui peut pr´e-traiter les donn´ees, appliquer des techniques statistiques appropri´ees afin de fournir des pr´edictions raisonnablement pr´ecises et cliniquement utiles. Notre analyse est bas´ee sur un jeu de donn´ees r´eelles. Le jeu de donn´ees IgM − data, les individus positifs aux arbovirus sont identifi´es dans les premiers stades de la maladie. Cependant, les cas positifs constituent une tr`es petite par-tie (39 cas sur 12288 individus). Plusieurs strat´egies d’´echantillonnage sont d´evelopp´ees pour ´etudier des donn´ees d´es´equilibr´ees ([67]) et faire une bonne classification. Branco et al. [61] propose de classer ces approches en deux cat´egories : pr´e-traitement de donn´ees et modifications d’algorithmes d’apprentissage. Des strat´egies de traitement incluant les solutions via forˆets al´eatoires y sont discut´ees ([68], [69]).

Pour analyser les donn´ees de co-infection, nous avons propos´e une m´ethodologie avec trois ´etapes : 1. une s´election de variables par forˆets al´eatoires, par test du rapport de vraisemblance et par stepwise, 2. une analyse des facteurs influents par le calcul des odds ratio `a partir de la r´egression logistique multinomiale, 3. une analyse pr´edictive bas´ee sur la probabilit´e de co-infection.

A partir de notre analyse, on peut dire que la combinaison des forˆets al´eatoire et du test du rapport de vraisemblance est une m´ethode robuste pour s´electionner les variables importantes pour les diff´erentes maladies. L’analyse des odds ratio permet d’identifier les facteurs de risque qui caract´erisent chaque maladie. Nous avons observ´e que les va-leurs ´elev´ees du nombre de jours de maladie et de l’ˆage sont principalement r´ev´elatrices d’une maladie arbovirale alors que des fortes temp´eratures et la pr´esence de naus´ee et/ou vomissements pendant la saison des pluies sont principalement r´ev´elatrices d’une ma-ladie du paludisme. La r`egle de classification bas´ee sur la probabilit´e de co-infection, l’ˆage et le nombre de jours de maladie identifie les patients co-infect´es `a traiter pour des maladies arbovirales avec une pr´ecision globale de 65%. Les r´esultats pourraient ˆetre am´elior´es sur un autre jeu de donn´ees beaucoup plus appropri´e. Une future ´etude ap-pliquera cette m´ethodologie aux donn´ees de co-infection entre le paludisme et d’autres agents pathog`enes plus facilement d´etectables, au d´ebut de l’infection, que les arbovirus.

Chapitre 3

M´elange de mod`eles lin´eaires

g´en´eralis´es et m´ethode des

moments : identifiabilit´e &

applications

Sommaire

3.1 Introduction . . . 58 3.2 Notation & mod`ele . . . 59 3.2.1 Notations et d´efinitions . . . 59 3.2.2 Mod`eles . . . 60 3.3 Algorithme . . . 61 3.3.1 Estimation des directions . . . 61 3.3.2 Estimation de tous les param`etres du mod`ele . . . 68 3.4 R´esultats th´eoriques . . . 69 3.4.1 Identifiabilit´e . . . 69 3.4.2 Consistance . . . 73 3.4.3 Normalit´e Asymptotique . . . 75 3.5 Applications . . . 83 3.5.1 Package R . . . 83 3.5.2 Simulations . . . 84 3.5.3 S´election de variables . . . 94

R´esum´e

Le mod`ele de m´elange fini consiste `a supposer que les donn´ees proviennent d’une source contenant plusieurs sous-populations. Chaque sous-population est mod´elis´ee de mani`ere s´epar´ee. La population totale est un m´elange de ces diff´erentes sous-populations. Les m´ethodes de vraisemblance pour les mod`eles de m´elange peuvent utiliser l’algo-rithme EM (Dempster et al. [28]). Des m´ethodes variationnelles de Bayes ont aussi ´et´e d´evelopp´ees pour l’´etude des mod`ele de m´elange fini. Mais ces m´ethodes peuvent conver-ger vers des optimums locaux et peuvent pr´esenter des vitesses de convergence faibles en grande dimension. En plus, elles peuvent pr´esenter des temps de calcul assez longs.

Nous pr´esentons ici une m´ethode de moindres carr´es qui est une combinaison d’une m´ethode spectrale et d’une m´ethode de diagonalisation jointe. Sous certaines conditions, notre m´ethode garantit de bien retrouver les param`etres. L’id´ee de base est d’´ecrire les moments crois´es entre les entr´ees x et la r´eponse y comme des tenseurs sym´etriques et d’utiliser l’identit´e de Stein.

Dans cette ´etude, nous nous int´eressons aux mod`eles de m´elanges lin´eaires g´en´eralis´es pour des observations binaires. C’est-`a-dire que, si y est la r´eponse et x le vecteur de covariables, P(Y = 1|X) = K X k=1 ωkg(< βk, X > +bk)

o`u g est la fonction lien, par exemple la fonction logistique, et o`u pour k = 1, . . . , K, et pour la k-i`eme sous-population, ωk est la proportion de la sous-population, βk est le vecteur de r´egression et bk est l’intercept.

Avec ce mod`ele, nous pr´esentons l’algorithme spectral en deux ´etapes : (1) une ´etape d’estimation des vecteurs de r´egression normalis´es et (2) une ´etape d’estimation de tous les param`etres du mod`ele. Nous prouvons ensuite les r´esultats th´eoriques, sous des hy-poth`eses raisonnables : identifiabilit´e du mod`ele, consistance et normalit´e asymptotique

des estimateurs. Nous montrons dans une ´etape d’application (par simulation) qu’on

arrive `a bien estimer les param`etres. Nous montrons aussi que les estimateurs par la m´ethode spectrale peuvent ˆetre meilleurs pour des ´echantillons de taille mod´er´ee que ceux obtenus par maximum de vraisemblance quand la dimension augmente. Le temps de calcul aussi reste assez faible compar´e `a la m´ethode du maximum de vraisemblance. Toutes ces applications sont pr´esent´ees via un package R qui pourra ˆetre utilis´e pour une ´

eventuelle futur ´etude.

Mots cl´es : Diagonalisation jointe, Mod`ele de m´elange, Mod`ele lin´eaire g´en´eralis´e, M´ethode spectrale, M´ethode des moments.

Abstract

The finite mixture model assumes that the data come from a source containing several subpopulations. Each subpopulation is modeled separately. The total population is a mixture of these different subpopulations. Likelihood methods for the finite mixture model can use the EM algorithm (Dempster et al., [28]). Bayesian variational methods have also been developed to deal with such models. But both of these methods can converge to spurious local optima and can have low convergence rate in high dimensional models. In addition, they can have quite long computing times.

We present here a least squares method which is a combination of a moment method and of a joint diagonalization method. Under some weak conditions, our method is proved to recover the parameters. The basic idea is to write cross moments between the entries x and the response y as symmetric tensors and to use Stein’s identity.

In this study, we will focus on finite mixtures of regression models for binary output. That means that, if y is the output and x the vector of covariates :

P(y = 1|x) =

K

X

k=1

ωkg(< βk, x > +bk)

where g is the link function, for instance the logistic function, and where for k = 1, . . . , K, and for the k-th subpopulation, ωkis the proportion of the subpopulation, βkis the regres-sion vector and bk is the intercept. With this model, we present our spectral algorithm in two steps : (1) first, we present the estimation of the normalized regression vectors and (2) secondly we present the estimation of all the model parameters. We then prove our theoretical results, which hold under mild assumptions : identifiability of the model, consistency and asymptotic normality of the estimators. We show in an application step (using simulation studies) that we can recover all the model parameters. We also show that the estimators provided by spectral method may be better for finite samples than those obtained by maximum likelihood when the dimension increases. The computation time also remains rather low compared to the maximum likelihood method. All these applications are presented using an R package which can be used for a possible future study.

Keywords : Generalized linear model, Joint diagonalization, Mixture Model, Mo-ments method, Spectral method.

3.1 Introduction

Le mod`ele de m´elange fini est utilis´e depuis plus d’un si`ecle (Newcomb (1886) [19], Pearson (1894) [20]) mais depuis plusieurs ann´ees, l’utilisation du mod`ele de m´elange s’est consid´erablement d´evelopp´ee avec la parution de l’article de Dempster et al. [28]. Le mod`ele de m´elange fini consiste `a supposer que les donn´ees proviennent d’une source contenant plusieurs sous-populations. Chaque sous-population est mod´elis´ee de mani`ere s´epar´ee. La population totale est un m´elange de ces diff´erentes sous-populations. Le mod`ele r´esultant est un mod`ele de m´elange fini de densit´e f d´efinie par :

f (.) =

K

X

k=1

πkfk(.),

avec, πk : proportions du m´elange, fk : densit´es des composantes du m´elange.

Le mod`ele lin´eaire g´en´eralis´e est une extension de la r´egression lin´eaire dans lequel la r´eponse peut ˆetre ´ecrite comme une fonction non lin´eaire des entr´ees `a travers une fonction lien (Mccullagh et Nelder (1989) [15]). Le mod`ele lin´eaire g´en´eralis´e peut ˆetre ´

etudi´e `a l’aide de plusieurs m´ethodes pr´esentes dans la litt´erature (Kakade et al. [70]). Dans certaines situations, le mod`ele lin´eaire g´en´eralis´e ne suffit pas pour ´etudier

les donn´ees disponibles du fait qu’elles proviennent de plusieurs groupes qui ont des

caract´eristiques diff´erentes. Dans ce cas, le mod`ele de m´elange de mod`eles lin´eaires g´en´eralis´es est plus appropri´e. Le mod`ele de m´elange constitue aujourd’hui un outil fonda-mental en statistique appliqu´ee et en apprentissage dans diff´erents domaines. Le mod`ele de m´elange de mod`eles lin´eaires g´en´eralis´es est utilis´e aujourd’hui dans beaucoup de do-maines d’applications (comme soulign´e dans les travaux de Sedghi et al. [34]) tels que la reconnaissance d’objets (Quattoni et al. [71]), la reconnaissance d’action humaine (Wang et Mori [72]), l’analyse syntaxique (Petrov et Klein [73]) et la traduction automatique (Liang et al. [74]).

Dans le pass´e, le mod`ele de m´elange fini ´etait ´etudi´e `a l’aide des m´ethodes bas´ees sur le maximum de vraisemblance telles que l’algorithme EM (Dempster et al. [28], Jordan et al.[30] ; Xu et al. [31] ; Gr¨un [32]) ou des m´ethodes variationnelles de Bayes (Bistrop et Svensen [29]). Mais ces m´ethodes peuvent converger vers des optimums locaux et peuvent pr´esenter des vitesses de convergence faibles en grande dimension. En plus, elles peuvent pr´esenter des temps de calcul assez longs.

Nous pr´esentons ici une m´ethode d’estimation qui est une combinaison d’une m´ethode des moments (Pearson, [20]) et d’une m´ethode spectrale ( diagonalisation jointe, [40]). L’id´ee de base est d’´ecrire les moments crois´es entre les entr´ees x et la r´eponse y comme des tenseurs sym´etriques, et d’utiliser l’identit´e de Stein. La m´ethode des moments est tr`es ancienne et remonte `a Pearson (Pearson 1894, [20]) mais a refait surface ces derni`eres ann´ees avec l’utilisation des tenseurs ([36]). Ces m´ethodes ont eu beaucoup de succ`es ces derni`eres ann´ees ([35, 37, 38]). Sous certaines conditions, ces m´ethodes garantissent de bien retrouver les vecteurs de param`etres normalis´es. Ces vecteurs de param`etres pour-ront servir dans l’initialisation de l’algorithme EM mais aussi `a s´electionner les variables importantes. En plus de cela, on peut retrouver enti`erement les param`etres du mod`ele de m´elange en un temps raisonnable.

Dans cette ´etude, nous nous int´eresserons `a une partie de mod`eles de m´elanges lin´eaires g´en´eralis´es (Gr¨un [32]) qui est constitu´ee des m´elanges de mod`eles de type r´egression

logistique. C’est-`a-dire que, si y est la r´eponse (binaire) et x le vecteur de covariables, P(Y = 1|X) = K X k=1 ωkg(< βk, X > +bk)

o`u g est la fonction lien, par exemple la fonction logistique, et o`u pour k = 1, . . . , K, et pour la k-i`eme sous-population, ωk est la proportion de la sous-population, βk est le vecteur de regression et bk est l’intercept.

Avec ce mod`ele, l’algorithme spectral permet d’estimer les vecteurs de r´egression `a un facteur pr`es ([75]). Nous utilisons par la suite une m´ethode des moindres carr´es pour estimer tous les param`etres du mod`ele.

Ce chapitre est organis´e comme suit. La section 3.2 pr´esentera le mod`ele `a ´etudier et les notations utilis´ees. La section 3.3 d´ecrit l’algorithme d’estimation des param`etres. On commencera par estimer d’abord les vecteurs de r´egression normalis´es pour ensuite estimer globalement tous les param`etres du mod`ele. La section 3.4 pr´esente les r´esultats th´eoriques de l’´etude, `a savoir l’identifiabilit´e du mod`ele, ainsi que la consistance et la normalit´e asymptotique des estimateurs pr´esent´es `a la section 3.2. La section 3.5 pr´esente des applications li´ees au mod`ele pr´esent´e `a la section 3.2. On pr´esentera le package R pr´evu `

a cet effet et quelques simulations.