Maximum de Vraisemblance Dans Des Modèles à Données Latentes

2.3.1 Modèles à Données Latentes

Dans cette section, nous présentons formellement une instance des modèles généraux soumise à un problème de minimisation du risque appelémodèle à données latentes. Soit Z un sous-ensemble de R^m, µ une mesure finie σ sur le Borel σ-algebra Z = B(Z) et {f(z,θ),θ∈Θ}soit une famille de fonctions Borel positivesµ-integrable surZ. Setz∈Z. Soit, pour toutθ∈Θ :

g(y;θ), Z

f(z, y;θ)µ(dz), p(z|y;θ),







f(z,y;θ)

g(y;θ) ifg(y;θ)6= 0

0 sinon

(2.3.1)

Notez que p(z|y;θ) définit une fonction de densité de probabilité par rapport à µ et P ={p(z|y;θ);θ∈Θ; (y, z)∈Y×Z} a family of probability density. Nous désignons par {Pθ;θ ∈Θ} la famille de mesures de probabilité associée. Naturellement, la fonction de

perteL(θ) est définie pour tous lesθ ∈Θ comme suit :

L(θ) := logg(y;θ). (2.3.2)

Remark 2.1 Un exemple est le problème de données incomplètes. Dans ce cadre,

• f(z, y;θ) est la probabilité des données complètes qui est la probabilité des données observées y augmentée des données manquantes z.

• g(y;θ) est la probabilité de données incomplètes qui est la probabilité des données observées y.

• p(z|y;θ) est la distribution conditionnelle des données manquantes z sachant les données observées y.

Remark 2.2 Pour les modèles à effets mixtes, les variables latentes zsont les effets aléa-toires et l’identification de la structure latentes correspond principalement à la variabilité inter-individuelle entre les individus du jeu de données. Ce cadre d’étude est présenté Section 1.4et étudié Chapitre 6.

Remark 2.3 Pour les modèles de mélange, les variables latentes correspondent aux labels inconnus du mélange en prenant des valeurs dans un ensemble fini discret. Ce cadre d’analyse est étudié Chapitre 4, Chapitre 5 et Chapitre7.

Remark 2.4 Dans cette thèse, nous nous intéressons à une approche empirique du prob-lème de l’estimation du maximum de vraisemblance. Soit n un entier. Nous considérons nvecteurs d’observations indépendant et non nécessairement distribué de façon identique (y_i ∈Y, i∈J1, nK) où Y est un sous-ensemble de R^lⁱ et données latentes(z_iZ, i ∈J1, nK).

Pour toutθ ∈Θ,

f(z, y;θ) =

i=1

f(z_i, y_i;θ), g(y;θ) =

i=1

g(yi;θ), p(z|y;θ) =

i=1

p(z_i|y_i;θ).

(2.3.3)

Ainsi, la fonction objective (2.3.2) s’écrit : L(θ) :=

i=1

logg(y_i;θ) =

i=1

L_i(θ). (2.3.4)

Notez que pour éviter les singularités et les dégénérescences du Maximum de Vraisemblance (MV) telles que mises en évidence dans [Fraley and Raftery, 2007], on peut régulariser

la fonction objective par une distribution a priori sur les paramètres du modèle, voir Chapitre4pour un exemple illustratif.

2.3.2 L’algorithme EM

Une classe populaire d’algorithmes d’inférence ayant pour but minimiser (2.3.2) est la classe d’algorithmes du type Expectation-Maximization (EM) développé dans le travail pionnier de Dempster et al. [1977]. L’EM est une procédure itérative qui minimise la fonction θ → L(θ) lorsque sa minimisation directe est difficile. Indiquez par θ^(k−1) le paramètre connu à l’itération k, alors la k-ième étape de l’algorithme EM pourrait être décomposée en deux étapes. L’étape E consiste à calculer la fonction de substitution définie pour tous lesθ ∈Θ comme :

Q(θ,θ^(k−1)), Z

p(z|y;θ^(k−1)) logf(z, y;θ)µ(dz). (2.3.5) Dans l’étape M, la valeur de θ minimisant Q(θ,θ^(k−1)) est calculée et définie comme la nouvelle estimation de paramètre θ^(k). Ces deux étapes sont répétées jusqu’à la con-vergence. L’essence de l’algorithme EM est que la diminution de Q(θ,θ^(k−1)) force une diminution de la fonctionθ→ L(θ), voir [McLachlan and Krishnan,2007] et les références qui y figurent.

Remark 2.5 En utilisant la concavité de la fonction logarithmique et l’inégalité de Jensen, nous pouvons montrer queQ(θ,θ^(k−1))est une fonction de substitution majorante de l’objectifL(θ) au point θ^(k−1). Ce schéma s’inscrit bien dans le principe MM introduit dans la Section1.2.1et est exploité dans [Gunawardana and Byrne,2005]. Le Chapitre5 développe cette remarque et présente une analyse globale d’une variante incrémentale de l’EM, introduite parNeal and Hinton [1998].

Remark 2.6 Une hypothèse courante concernant l’applicabilité directe de l’EM aux mod-èles à données latentes (voir, en particulier, la discussion dans l’article [Dempster et al., 1977]) est de considérer que le modèle complet appartient à la famille exponentielle courbe, à savoir, pour tout θ∈Θ:

logf(z, y,θ) =−ψ(θ) +hS˜(z, y), φ(θ)i. (2.3.6) oùψ:θ7→Retφ:θ7→Rsont des fonctions deux fois continument différentiables enθet S˜:Z7→S est une statistique prenant ses valeurs dans un sous-ensemble convexe S de R.

Ensuite, les deux étapes de l’EM formulent en termes de statistiques suffisantes. En par-ticulier, l’étape M jouit d’une fonction d’expression fermée de ces statistiques. Notez que cette hypothèse n’est pas restrictive car de nombreux modèles d’intérêt pour l’apprentissage machine la satisfont.

Travaux antérieurs La méthode EM a fait l’objet d’un intérêt considérable depuis son introduction dans [Dempster et al., 1977]. La plupart des travaux traitant de la conver-gence des méthodes de type EM considèrent les comportements asymptotique et/oulocal pour éviter toute hypothèse de non-convexité. La convergence globale vers un point sta-tionnaire (soit un minimum local, soit un point de selle) de la méthode EM a été établie parWu et al.[1983] comme une extension des travaux antérieurs développés dans Demp-ster et al. [1977]. La convergence globale est une conséquence directe de la monotonie de la méthode EM, c’est-à-dire que la fonction objective ne décroît jamais. Localement et sous certaines conditions de régularité, un taux de convergence linéaire vers un point stationnaire a été étudié dans [McLachlan and Krishnan, 2007, Chapitres 3 et 4]. En ce qui concerne les variantes incrémentales, la convergence de la méthode iEM a d’abord été abordée parGunawardana and Byrne [2005] en exploitant l’interprétation de la méthode comme une procédure de minimisation alternée dans le cadre de l’Information Géométrique développé dans [Csiszár and Tusnády,1984]. Plus récemment, l’accent mis sur la conver-gence locale mais non asymptotique des méthodes EM a été étudié dans plusieurs travaux.

Ces résultats exigent généralement d’initialiser l’algorithme au voisinage d’un point sta-tionnaire isolé et que la fonction de log-vraisemblance (négative) soit fortement convexe localement. Ces conditions sont difficiles à vérifier en général ou n’ont été dérivées que pour des modèles spécifiques ; voir par exemple [Balakrishnan et al., 2017,Wang et al., 2015a, Xu et al., 2016a] et les références qui y figurent. La convergence locale d’une méthode EM à variance réduite, appelée sEM-VR a été étudiée dans [Chen et al.,2018, Theorem 1] mais sous une condition de stabilité globale.

Il est donc important d’améliorer et d’analyser les variantes de l’EM afin de relever les deux défis mentionnés au tout début de cette introduction, à savoir le nombre croissant de données et la non-convexité de la fonction objective (voir Chapitre5du manuscrit).

2.3.3 L’algorithme SAEM

Dans de nombreuses situations, l’étape de calcul de l’espérance dans l’algorithme EM (2.3.5) peut être numériquement compliquée ou même intractable. Pour résoudre ce prob-lème, Wei and Tanner [1990a] propose de remplacer le terme d’expérance par une inté-gration de Monte Carlo, conduisant à ce que l’on appelle l’algorithme Monte Carlo EM (MCEM). Une autre option, développée dans [Delyon et al., 1999a], est l’approximation stochastique de l’EM (SAEM) qui s’écrit comme suit :

1. Etape de Simulation: Simulez les variables latentes {z_m^(k)}^M_m=1^(k) à partir de sa distribution a posteriori p(z|y;θ^(k−1)).

2. Etape d’Approximation Stochastique: mettre à jour l’approximation, notée Qk(θ), de l’espérance conditionnelle (2.3.5) :

Q_k(θ) =Qk−1(θ) +γ_k



M_(k)⁻¹

M_(k)

m=1

logf(y, z^(k)_m ;θ)−Qk−1(θ)



 , (2.3.7) où {γ_k}_k>0 est une séquence de pas décroissants avecγ₁= 1.

3. Etape de Maximisation:

θ^(k) = arg max

θ∈Θ

Qk(θ). (2.3.8)

Pendant la phase d’approximation stochastique, la distribution conditionnelle des paramètres est obtenue puisqu’il s’agit de la distribution dans laquelle les variables la-tentes z sont imputées pour obtenir un ensemble de données complet à partir duquel est dérivé le log-vraisemblance conditionnelle (voir [Kuhn and Lavielle,2004]).

Dans l’étape de simulation, comme la relation entre les données observées et les don-nées latentes peut être non linéaire, l’échantillonnage de la distribution postérieure est difficile et nécessite souvent l’utilisation d’un algorithme d’inférence. Kuhn and Lavielle [2004] a démontré une convergence quasi certaine de la séquence de paramètres obtenue par cet algorithme couplée à une procédure MCMC pendant l’étape de simulation. En effet, ici, {z_m^(k)}^M_m=1^(k) est un ensemble d’échantillons de Monte Carlo. Dans des scénarios simples, les échantillons{z^(k)m }^M_m=1^(k) sont conditionnellement indépendants et distribués de manière identique selon la distributionp(z|y,θ^(k−1)). Néanmoins, dans la plupart des cas, l’échantillonnage exact à partir de cette distribution n’est pas une option et l’ensemble de Monte Carlo est échantillonné par l’algorithme MCMC.

Figure 2.2 – Algorithme MH: représentation d’une distribution de proposition et d’une distribution cible en dimension 1.

Les algorithmes MCMC sont une classe de méthodes permettant d’échantillonner à partir d’une distribution complexe sur (éventuellement) un grand espace dimensionnel.

Une classe importante d’échantillonneurs, appelée algorithme Metropolis-Hastings (MH), prélève itérativement des échantillons à partir d’une distribution de propositionq avec la

distribution de l’échantillon nouvellement prélevé seulement selon l’échantillon courant.

Avec une certaine probabilité, l’échantillon est soit accepté comme le nouvel état de la chaîne, soit rejeté. Il est bien connu, voir [Mengersen and Tweedie, 1996, Roberts and Rosenthal, 2011] que l’échantillonneur indépendant est géométriquement ergodique si et seulement si, pour unεdonné, inf

z∈R^p

q(z)/π(z)≥ε >0 oùπ(z) est la distribution cible. Plus généralement, il est montré dans [Roberts and Rosenthal, 2011] que le taux de mélange dans la variation totale dépend de l’espérance du taux d’acceptation dans la distribution de la proposition qui est également directement lié au rapport entre la proposition et la cible. Cette observation suggère naturellement de trouver une proposition qui se rapproche de l’objectif. La figure 2.2 illustre cette remarque lorsque la proposition est une simple distribution gaussienne. à partir de cette figure, on peut reconnaêtre que l’efficacité de l’échantillonneur sera influencée par le niveau de similarité (eg. ils appartiennent à la même famille de distributions) entre les deux distributions de l’intérêt. Le Chapitre6développe cette remarque en présentant une proposition MH efficace pour la tâche d’échantillonnage.

Dans l’étape d’approximation stochastique, la séquence de pas positifs et décroissants {γ_k}_k>0 contrôle la convergence de l’algorithme. En pratique, γ_k est égal à 1 lors des premières itérations K1 pour permettre à l’algorithme d’explorer l’espace de paramètres sans mémoire et de converger rapidement vers un voisinage du MV. L’approximation stochastique est effectuée lors des itérations finales K2 où γk = 1/k^a avec en général a= 0.7, assurant la convergence presque certaine de l’estimateur.

Travaux antérieurs Il a été démontré que l’algorithme SAEM converge théoriquement vers un maximum de vraisemblance des observations dans des conditions générales [Delyon et al., 1999a]. Comme déjà mentionné, ce résultat a été étendu par Kuhn and Lavielle [2004], pour inclure une procédure d’échantillonnage MCMC dans la phase de simulation.

Les travaux récents deAllassonnière and Chevallier[2019], présentent une nouvelle classe d’algorithmes où l’étape de simulation est effectuée en utilisant une version tempérée de la distribution postérieure et est motivée par les problèmes des points de selle.

Dans le document The DART-Europe E-theses Portal (Page 50-55)