• Aucun résultat trouvé

3.3 Les paramètres du modèle gaussien

3.4.2 Critère du maximum de vraisemblance classifiante et

algorithmes pour l’optimiser

Les algorithmes précédents se basent sur l’optimisation de la vraisemblance pour déterminer les pa- ramètres du modèle. Ceux présentés dans cette partie permettent d’estimer simultanément les paramètres du modèle et la partition des observations (les labelszi).

3.4.2.1 Définition du maximum de la vraisemblance classifiante

La partitionz des observations est inconnue. Les couples (xi, zi) avec zi ∈ 1 . . . K sont ainsi suppo-

sés être générés par une loi de distribution de densitéf (x, k|θ). La densité jointe f(X, z|θ) des couples (xi, zi) est le produit de la densité de chaque couple. Elle est appelée vraisemblance classifiante de (θ|z).

Son logarithme népérien est défini par :

CL(θ, z) = n X i=1 K X k=1 zik· ln(pkN (xi|θk)) (3.16)

Contrairement au maximum de vraisemblance, l’estimateur du maximum de vraisemblance est in- consistant. Lorsque la taille de l’échantillon tend vers l’infini, l’estimateur ne tend pas systématiquement vers les vrais paramètresθ.

La maximisation de la vraisemblance classifiante consiste donc à déterminer simultanément les pa- ramètres inconnusθ et les labels zi. Cette méthode est équivalente à optimiser des critères classiques,

basés sur des notions géométriques et non liés à la notion de vraisemblance ou encore à une hypothèse de modèle de mélange. Des exemples sont les critères d’inertie intra-classe ou des k-means. Il est montré dans [28] que les partitions obtenues par minimisation de ce dernier critère et par maximisation de la vraisemblance classifiante sont identiques pour le modèle gaussien[pλI].

Nous présentons deux algorithmes permettant de maximiser la vraisemblance classifiante. Selon [11], ces algorithmes sont censés être plus adaptés pour une démarche de classification.

3.4.2.2 L’algorithme Classification EM (CEM)

L’algorithme CEM est une version classifiante de l’algorithme EM [28]. Une étape, entre E et M, construit une partition des observations utilisée pour la ré-estimation des paramètres.

L’algorithme est initialisé avec des paramètres initiauxθ0 ou une partition initialez0. Les étapes à l’itérationm sont :

• Étape Estimation : estimation des probabilités d’affectation t des xi aux composantes de para-

mètresθm−1;

• Étape Classifiante : estimation d’une partition zmà partir des termest

• Étape Maximisation : estimation des paramètres θm à partir de la partitionzm calculée à l’étape

C.

Cet algorithme est itéré jusqu’à convergence du critère de vraisemblance classifiante. Comme les algorithmes précédents, il converge vers un optimum local qui dépend souvent fortement des paramètres initiaux. Il est montré dans [23] qu’il peut produire des estimateurs biaisés des paramètres du mélange dans le cas où les composantes sont proches et les proportions de mélanges très différentes. Dans ce dernier cas, l’algorithme CEM manque de robustesse face aux faibles échantillons. Ces défauts sont dus à la nouvelle étape C de l’algorithme. Cet algorithme est donc efficace quand les classes sont distinctes et si les proportions de mélange sont similaires. Il présente par contre l’avantage sur l’algorithme EM d’être plus rapide du point de vue de la convergence.

Dans notre contexte, les classes peuvent être très proches et les proportions de mélanges très diffé- rentes, ce qui posent un problème pour cet algorithme. Nos expériences ont montré une surparamétrisa- tion des modèles obtenus sur des données temporelles. Nous n’utiliserons donc pas cet algorithme.

3.4.2.3 L’algorithme Classification Annealing EM (CAEM)

L’algorithme CAEM [28] est une version de type recuit simulé de l’algorithme CEM. Il permet de maximiser la vraisemblance classifiante et de limiter la dépendance aux paramètres initiaux. L’approche est similaire à l’algorithme SAEM : une nouvelle étape permet d’affecter aléatoirement les observations aux composantes. Ces associations sont calculées à partir d’une probabilité d’affectation des observations aux composantes, basée sur une séquence de températures réelles positives(γm, m≥ 0) décroissant vers 0 quand m tend vers l’infini à partir de γ0 = 1.

L’algorithme est initialisé avec des paramètres initiaux θ0 ou une partition initialez0. Les étapes à l’itérationm sont :

• Étape Estimation : estimation des probabilités d’affectation tmik desxi aux composantes de para-

mètresθm−1;

• Étape Annealing : calcul des quantités rikm = (tm ik)(γm−11 ) P K k=1(tmik) 1 γm−1

. Une nouvelle températureγm est calculée ;

• Étape Classifiante : calcul pour chaque xi de la variablezim = (zikm, k = 1, . . . , K) selon une loi

multinomiale d’ordre un et de paramètres(rmik, k = 1, . . . , K). Une partition zmest ainsi définie à partir des variableszmi ;

• Étape Maximisation : estimation des paramètres θm à partir de la partitionzm calculée à l’étape

C.

Cet algorithme est arrêté quand la convergence du critère de vraisemblance classifiante est atteinte. Il consiste à itérer l’algorithme SEM et à tendre vers l’algorithme CEM quand le nombre d’itérations tend vers l’infini. Le choix de la suiteγm est important pour un bon comportement de l’algorithme et il est

recommandé d’avoir une vitesse de convergence assez lente.

La convergence de cet algorithme vers un minimum local de la vraisemblance classifiante ne semble pour le moment pas encore prouvée. Ce procédé semble néanmoins éviter les solutions sous-optimales

que subit CEM. En revanche, il a le défaut de nécessiter un grand nombre d’itérations pour obtenir un bon résultat et il est recommandé de ne l’utiliser que sur des petits échantillons de données. De plus, il présente l’inconvénient d’ajouter le paramètreγ.

Discussion

Tous les algorithmes présentés dans cette section sont dépendant de paramètres fixés manuellement, l’utilisateur devant fournir un nombre de composantes ou une limite supérieure du nombre de classes. Pour cette dernière catégorie, nous avons vu que les critères pour trouver le bon nombre de classes n’étaient pas pertinents. L’utilisation des ces algorithmes telle quelle ne convient donc pas pour notre objectif.

Parmi ces algorithmes, notre préférence va à l’algorithme EM. Il présente de bonnes propriétés de convergence et ne dépend pas d’un paramètre critique comme la température. Le problème de conver- gence lente aux alentours d’un col de vraisemblance sera limité par notre approche incrémental, où l’on se base sur les paramètres àt−1 pour obtenir ceux du nouveau modèle, en prenant en compte la nouvelle

donnée. Nous proposerons dans le chapitre 5 un algorithme incrémental basé sur cet algorithme.